FSD - EtusivuFSD neWWWs
OOO


 

Etusivulle

Numero 1 helmikuu 2000

NESSTAR - Uusi tehokas väline tutkimusaineistojen seulontaan

NESSTAR

Mari Kleemola 1.2.2000

NESSTAR (Networked Social Science Tools and Resources) on uusi, eurooppalaisten tietoarkistojen kehittämä internet-pohjainen aineistotietokantasovellus, jota on luonnehdittu myös virtuaaliseksi datakirjastoksi. NESSTAR julkaistiin 26. tammikuuta 2000 ja Yhteiskuntatieteellisen tietoarkiston aineistot ovat olleet haettavissa sen avulla julkaisuhetkestä alkaen.

Taustaa

Tietoarkistojen tehtävänä on yleisesti tieteellisten tutkimusaineistojen kerääminen ja tallentaminen sekä niiden uudiskäytön edistäminen. Aineistoon liittyvä dokumentaatio, nk. metadata, on keskeinen tekijä kun ajatellaan aineiston mahdollista uudiskäyttöä. Vain hyvin dokumentoitua dataa voidaan käyttää uudelleen, ja ilman kunnollista dokumentointia yhteiskuntatieteellinenkin data on vain merkityksetön kokoelma numeroita. Ensimmäisen kerran kansainvälisestä aineistojen kuvailustandardista sovittiin jo 1970-luvulla, mutta johtuen eri arkistojen erilaisista kuvailutarpeista, tiedonkäsittelyvälineistä ja -tavoista tästä standardista kehittyi hyvin paljon paikallisia "murteita". Käytännössä tutkimusaineistojen kuvailussa ei siis noudatettu mitään standardia.

Tähän epäkohtaan puututtiin vuonna 1995, kun ICPSR (Inter-university Consortium for Political and Social Research) perusti komitean rakentamaan standardia yhteiskuntatieteellisen data-aineiston kuvailua ja koodikirjojen tekoa varten. Tämä standardi sai nimekseen DDI (Data Documentation Initiative) ja sitä kehitettäessä on tehty vertailuja muihin standardeihin, mm. MARC:iin, ISO690-2:een ja Dublin Coreen. Samaan aikaan Euroopassa pohdittiin ajatusta data-arkistojen yhteistyön laajentamisesta. NESSTARin edeltäjinä voidaankin pitää eurooppalaisten arkistojen yhteistyöelimen CESSDAn internetissä julkaistuja karttaa (1994) ja integroitua luetteloa (1995).

NESSTAR-projekti aloitettiin tammikuussa 1998 EU-rahoituksella. Sovelluksen keskeisiä kehittäjiä ovat olleet UK Data Archive (UKDA) Iso-Britanniasta, Norwegian Social Science Data Services (NSD) Norjasta ja Danish Data Archive (DDA) Tanskasta.

Tavoitteet

NESSTARin kehitystyön pohjana ovat olleet voimakkaasti ajatukset "yhteiskuntatieteellisestä unelmakoneesta (social science dream machine)" (ks. Ryssevik ja Musgrave 1999). NESSTAR-projektin tavoitteina on ollut mahdollistaa seuraavat asiat:

  • datan hakeminen eri arkistoista ja eri maista yhdellä kertaa,
  • aineistodokumentaation yksityiskohtainen selailu helposti ja nopeasti,
  • yksinkertaisten data-analyysien tekeminen ja tulosten visualisointi suoraan verkossa ja
  • datatiedoston tai sen osan lataaminen omalle koneelle eri tiedostomuodoissa (esim. SPSS, Excel,...).

Nämä tavoitteet projekti on myös saavuttanut.

Tekniikkaa

NESSTAR-järjestelmä on kaksiosainen. NESSTAR Explorer on tutkijan käyttöliittymä datan ja dokumentaation hakemiseen, analysointiin ja lataamiseen omalle koneelle. NESSTAR Publisher on tarkoitettu arkistojen käyttöön ja se mahdollistaa datan ja dokumentaation tarjoamisen käyttäjien ulottuville internetin välityksellä. Vaikka datan säilytys ja ylläpito siis tapahtuu yksittäisissä arkistoissa ja jokainen arkisto valvoo omien aineistojensa käyttöä, niin loppukäyttäjälle näyttää siltä, että kyseessä olisi yksi integroitu arkisto.

NESSTAR edellyttää aineistojen dokumentaatiota edellä mainitun DDI-standardin mukaisesti XML-kielellä. DDI:n DTD (Document Type Definition) koostuu viidestä osasta:


  • Dokumentaation kuvaus (document description): mm. bibliografiset tiedot koodikirjasta.
  • Tutkimuksen kuvaus (study description): mm. bibliografiset tiedot tutkimuksesta, tutkimuksen sisällönkuvailu: asiasanat, abstrakti, tutkimusaineiston keruun kuvaus, havaintoyksiköt, perusjoukko, tutkimusmetodien kuvaus, saatavuus, käyttöehdot.
  • Datatiedoston kuvaus (file description): tiedoston rakenne, muuttujien määrä, otoksen koko, tiedostojen koko, ohjelmistot.
  • Muuttujien kuvaus (variable description).
  • Muu tutkimukseen liittyvä materiaali (other study-related materials).

Kaikkia formaatin kenttiä ei välttämättä tarvitse käyttää, joskin osa niistä on pakollisia. NESSTAR on Java-pohjainen, ja XML-dokumenttien indeksointiin käytetään Cheshire-hakukonetta.

Nesstar Explorer asennetaan omalle työasemalle. Ohjelma on ilmainen ja saatavana internetistä NESSTARin sivuilta. Asentaminen on yksinkertaista, ja asennusohjeet löytyvät Yhteiskuntatieteellisen tietoarkiston sivuilta. Laitteistovaatimuksena on 64 Mb RAM (suositus 128 Mb), ohjelmistovaatimuksena internet-yhteys ja lisäksi käyttöjärjestelmän tulee tukea Java-ohjelmointikieltä. Asennusohjelmasta on kaksi eri versiota, joista toisessa on JAVA-virtuaalikone mukana ja toinen ilman virtuaalikonetta.

Aineiston haku

NESSTARin yksityiskohtaiset käyttöohjeet löytyvät Yhteiskuntatieteellisen tietoarkiston sivuilta. Tässä voidaan todeta NESSTARin käytön olevan helppoa ja sen käyttöliittymän selkeän (kuva 1).

Kuva 1. Käyttöliittymä
Kuva 1. Käyttöliittymä.

DDI-standardin mukainen aineistonkuvaus on rakenteista metadataa, mikä mahdollistaa datan tehokkaan haun ja hyvät hakutulokset. NESSTAR tarjoaa kolme erilaista hakumahdollisuutta:

  • yksinkertainen haku (simple search): kokotekstihaku,
  • kenttähaku (field search): haku kentittäin ja
  • edistynyt haku (advanced search): boolen haku kentistä.

Aineistoja voidaan hakea jopa muuttujatasolla, ja tehdyn haun voi tallettaa. Löydettyään sopivan datan tutkija voi tutustua dataan liittyvään koodikirjaan, joka sisältää tiedot muuttujista ja mahdollisen kyselylomakkeen. NESSTARin avulla tutkija voi halutessaan hakea dataa useista arkistoista yhdellä kertaa.

Aineiston analyysi

Jos data on luokiteltu vapaasti käytettäväksi, siitä voidaan valita muuttujia seuraaviin NESSTAR-sovelluksella välittömästi toteutettaviin yksinkertaisiin tilastoanalyyseihin:

  • tunnusluvut
  • ristiintaulukointi
  • korrelaatio ja
  • regressio.

Tuloksia voidaan myös visualisoida erilaisten palkki- ja piirakkakuvioiden sekä regressiosuorien avulla (kuva 2).

Kuva 2. Tulosten visualisointi palkkikuvion avulla
Kuva 2. Tulosten visualisointi palkkikuvion avulla.

Tekijänoikeuksien, tietosuojan ja arkistosääntöjen vuoksi monien aineistojen datatiedosto ei ole saatavissa NESSTARista suoraan kaikille käyttäjille. Esimerkiksi FSD:n omista aineistoista mitään ei ole toistaiseksi luokiteltu vapaasti käytettäväksi, joten aineistoja saa tieteelliseen tutkimus- ja opetuskäyttöön arkiston normaalin lupamenettelyn mukaisesti. Suomalaisen tutkijan tulee ottaa yhteyttä Yhteiskuntatieteelliseen tietoarkistoon myös halutessaan käytettäväkseen ulkomaisten arkistojen aineistoja.

Interaktiivisuus

NESSTAR on monipuolinen ja interaktiivinen tiedonhaun väline. Käyttäjä voi tallettaa NESSTARiin hakujaan ja saada sitten sähköpostitse tiedot kaikista niistä uusista tietokantaan talletetuista aineistoista, jotka täyttävät hänen asettamansa hakuehdot. NESSTARissa on käytössä myös internet-selaimista tuttu kirjanmerkkitoiminto (bookmarks), jonka avulla voi luoda nopean linkin haluamiinsa aineistoihin, taulukoihin tai kuvioihin.

NESSTARissa on myös käyttäjän tunnistus (access control), jonka avulla voidaan rajoittaa aineistojen luvatonta käyttöä ja joka myös muistuttaa käyttäjää datoihin mahdollisista liittyvistä rajoituksista. Tätä toimintoa tullaan tulevaisuudessa kehittämään monipuolisemmiksi. Tavoitteena on taata tutkijoille aineistojen mahdollisimman vaivaton saanti.

Tulevaisuus

NESSTARin kehitystyö jatkuu edelleen. Uusia NESSTAR-projektin osaltaan herättämiä hankkeita ovat mm. eurooppalaiset FASTER (Flexible Access to Statistics, Tables and Electronic Resources) ja LIMBER (Language Independent Metadata Browsing of European Resources) (ks. NSD Newsletter 3/1999). Jatkoprojektien tavoitteina ovat mm. käyttäjän muunneltavissa oleva järjestelmä erityyppisten datojen hakemiseen sekä monikielinen tesaurus.


NESSTAR-artikkeleita verkossa

NESSTARin kotisivuilta löytyy kattava lista kirjallisuudesta ja artikkeleista. Tämän tekstin tuottamisessa on käytetty seuraavia lähteitä:

Musgrave, Simon: Making data visible - an introduction to the NESSTAR client software. UK Data Archive Bulletin, September 1999.
NSD Newsletter 3/1999. Global Access to Data - a special edition of the NSD Newsletter featuring NESSTAR.
Ryssevik, Jostein ja Musgrave, Simon: The Social Science Dream Machine: Resource discovery, analysis and delivery on the Web. Paper given at the IASSIST Conference, Toronto, May 1999.

Sivun alkuun