Aineiston kuvailu ja metadata

Tutkimusaineiston sisällön, keruun ja muuttujien huolellinen kuvailu on edellytys aineiston käyttökelpoisuuden säilymiselle. Ilman kuvailevaa tietoa eli metadataa tutkimusaineisto on vain merkityksetön kokoelma yksittäisiä tiedostoja, numeroita ja merkkejä. Lisäksi hyvin tehty kuvailu helpottaa tutkimusaineiston löytämistä. Tutkimusaineiston perustietojen huolellinen ja kattava kuvaus (esimerkiksi julkaisun liitteessä) on tärkeä luotettavuuden osoitus myös tutkimustulosten raportoinnissa.

Tietoarkistoon tallennettujen aineistojen kuvailut julkaistaan sekä tietoarkiston omassa aineistoluettelossa että eurooppalaisten arkistojen yhteisluettelossa. Kun aineisto on luetteloitu, siihen voi helposti myös viitata.

Tutkimusaineiston kuvailussa on muistettava keskittyä nimenomaan itse aineiston eikä siitä tehtyjen johtopäätösten tai julkaisujen kuvailuun.

Metadatan tallennus Ankkurilinkki ikoni

Jokaiselle tutkimusaineistolle kannattaa luoda oma hakemisto, johon tallennetaan sekä itse tutkimusaineistot että kuvailutiedot. Osa kuvailutiedosta sisältyy yleensä myös varsinaiseen datatiedostoon (esimerkiksi kvantitatiivisen aineiston muuttujien selitteet tai kvalitatiivisen aineiston aineistoyksikön tiedot). Kuvailutiedot voi tallentaa esimerkiksi tekstitiedostona kirjaamalla dokumenttiin alla jäsennellyt aineiston perustiedot. Toinen vaihtoehto on valita oman aineiston kuvailuun soveltuva metadataformaatti.

Metadataformaatteja

Erityisesti silloin, kun kuvailtavia aineistoja tai kuvailutietoja on paljon, metadata kannattaa tallentaa jonkun metadataformaatin mukaisesti tietokantaan. Tietokantamuotoinen metadata mahdollistaa nopeat haut ja erilaiset raportoinnit. Pitkäaikaissäilytykseen kannattaa valita rakenteistettu xml-tiedosto.

Tutkimusaineistosta tallennetaan soveltuvin osin seuraava metadata:

Lisäksi tallennetaan aineiston kerääjille ja käsittelijöille (esimerkiksi haastattelijoille, tallentajille, koodaajille tai litteroijille) annetut ohjeet ja muut dokumentit. Ne voi tallentaa esimerkiksi tekstitiedostoina tai pdf-tiedostoina.

Tutkimuksen toteutuksen kuvailu Ankkurilinkki ikoni

Olennaisia tietoja ovat on aineiston alkuperäinen käyttötarkoitus, tekijät, tuottajat, perusjoukon ja havaintoyksikköjen valintaperusteet sekä aineistonkeruun tiedot. Seuraavat tiedot tallennetaan sekä kvalitatiivisista että kvantitatiivisista tutkimusaineistoista:

Alkuperäinen käyttötarkoitus: Tiedot tutkimuksesta, jota varten aineisto on kerätty, teoreettisesta viitekehyksestä ja käytetyistä operationalisoinneista.

Julkaisut: Lista julkaisuista, joissa aineistoa on käytetty ja/tai kuvailtu.

Tekijät: Aineiston tekijöitä ovat henkilöt, jotka ovat vastuussa aineiston varsinaisesta ajatuksellisen sisällön kehittelystä, useimmiten siis tutkimushankkeen vetäjät. Lisäksi merkitään muistiin aineiston kerääjät (voi olla myös ulkopuolinen organisaatio), tallentajat ja käsittelijät (esimerkiksi kvantitatiivisen aineiston koodaajat ja tallentajat tai kvalitatiivisen aineiston litteroijat) sekä henkilöiden taustaorganisaatiot.

Tuottajat: Kirjataan, kuka on rahoittanut tai tilannut aineistonkeruun tai tutkimusprojektin, jota varten aineisto on kerätty.

Perusjoukko: Kuvataan aineiston kattama populaatio eli se ihmis- tai asiaryhmä, joka on tutkimuksen kohteena tai johon tutkimuksen tulokset viittaavat. Esimerkiksi: 18-79-vuotiaat Suomessa vakituisesti asuvat henkilöt.

Havaintoyksikkö: Kuvataan aineiston havaintoyksikkö eli kohde, josta tutkimuksessa tehdään empiirisiä havaintoja. Se voi olla esimerkiksi henkilö, kunta, tapahtuma tai lehtiartikkeli. Vaikka tutkimuksessa olisi haastateltu henkilöitä, havaintoyksikkö voi olla jotain muutakin, esimerkiksi organisaatio, jota henkilö edustaa.

Aineistoyksikkö: Kvalitatiivisesta aineistosta luetellaan kaikki kerätyt aineistot. Ne voivat olla haastatteluja, vuorovaikutuksen tallenteita, päiväkirjoja, kenttämuistiinpanoja, lehtileikkeitä jne. Aineistoyksikkökohtaiset tiedot kirjataan huolella. Esimerkiksi lehtijutuissa niitä ovat lehti, päivämäärä, jutun sijainti lehdessä, kirjoittaja ja aihe/otsikko. Haastatteluissa niitä ovat haastateltavan taustatiedot ja muut taustatiedot. Perustiedot aineistoyksiköistä on hyvä olla kunkin yksikön yhteydessä, esimerkiksi haastattelulitteraatin alussa, ja myös erillisenä listauksena.

Havainto- tai aineistoyksikköjen valintaperusteet: Kuvaus otantamenetelmästä ja/tai muista havainto- tai aineistoyksikköjen valitsemisessa käytetyistä keinoista. Kvalitatiivisesta aineistosta kerrotaan aineistoyksiköiden valinnan perusteet eli selitetään, miten esimerkiksi haastateltavat tai lehtijutut on valittu tai valikoituneet. Kvantitatiivisesta aineistosta selitetään otannan tyyppi ja rakenne, jota on käytetty valittaessa vastaajat edustamaan tutkimuksessa koko populaatiota, siis ketä tutkija on halunnut tutkimuksellaan tavoittaa. Samalla voidaan kertoa myös kohdepopulaation koko ja otannan osuus populaatiosta.

Aineistonkeruu: Tallennetaan aineistonkeruun alkamis- ja päättymispäivät ja kuvaus tiedonkeruun menetelmästä (esimerkiksi puhelinkysely, tietokoneavusteinen käyntikysely, internet-kysely, ohjattu lomakekysely, audiotallenne, audiovisuaalinen tallenne tai kirjoituspyyntö). Kvantitatiivissa aineistoissa tallennetaan tiedot mahdollisista karhukierroksista ja katoanalyysi, kvalitatiivisissa aineistoissa keinot, joita tutkittavien tavoittamiseksi ja aineiston kartuttamiseksi on käytetty. Myös haastattelijan tiedoilla (esimerkiksi ikä, sukupuoli, koulutus, ammatti) voi olla merkitystä, samoin haastattelupaikalla, ajankohdalla ja erilaisilla tilannekohtaisilla tekijöillä. Kvantitatiivisissa aineistoissa haastattelijan ja haastatteluhetken tiedot tallennetaan havaintomatriisiin, kvalitatiivisissa aineistoissa aineistoyksikköjen perustietojen yhteyteen.

Lähdeaineistot: Jos kyseessä ei ole kysely- tai haastatteluaineisto, tallennetaan tiedot lähdeaineistoista: luetellaan esimerkiksi kirjat, artikkelit ja rekisteritiedot, jotka ovat olleet aineiston lähteenä.

Aineistonkeruuinstrumentti Ankkurilinkki ikoni

Kirjoituspyyntö (esim. lehdissä tai verkkosivuilla julkaistu), haastattelukysymykset, kyselylomake tai haastattelurunko, saatekirje ja mahdolliset haastattelijan ohjeet tallennetaan samaan hakemistoon aineiston ja kuvailutiedon kanssa.

Aineistonkeruuinstrumentista tallennetaan kaikki eri kieliversiot. Sähköisten versioiden lisäksi tallennetaan yksi blanco paperinen kyselylomake, jos sellainen on olemassa.

Tietokoneavusteisissa kyselyissä, joissa ei ole varsinaista kyselylomaketta, kysymykset ja vastausvaihtoehdot sekä kysymysten esitysjärjestys voidaan tallentaa tekstitiedostona.

Tiedostojen kuvailu Ankkurilinkki ikoni

Tutkimusaineisto voi koostua yhdestä tai useammasta tiedostosta. Kvantitatiivisissa aineistoissa yksi tiedosto sisältää tyypillisesti kymmeniä tai satoja muuttujia. Kvalitatiivisissa aineistoissa yksi tiedosto sisältää usein yhden aineistoyksikön, esimerkiksi yhden henkilön haastattelun.

Kaikkien yksittäisen tiedostojen ominaisuudet kuvaillaan. Jokaisesta tiedostosta kirjataan ylös:

  • tiedoston nimi
  • missä tiedosto sijaitsee (tiedostopolku)
  • tiedoston koko
  • tiedostoformaatti
  • millä ohjelmalla tiedosto on tuotettu
  • milloin tiedosto on tuotettu
  • kuka tiedoston on tuottanut
  • tiedoston versio
  • tiedoston käyttöoikeudet

Monet näistä tiedoista saadaan helposti listattua tietokoneen komentorivin (command prompt) dir-komennolla, joka tuo näytölle listan hakemiston tiedostoista ja alihakemistoista. Esimerkiksi komento

  C:\> dir Aineisto /S >tiedostolistaus.txt

luo uuden tiedoston nimeltään tiedostolistaus.txt, joka sisältää listan kaikista hakemiston Aineisto sisältämistä tiedostoista ja alihakemistoista tiedostoineen.

Muuttujien kuvailu Ankkurilinkki ikoni

Kvantitatiivisen aineiston muuttujista tallennetaan seuraavat tiedot:

  • muuttujien ja havaintoyksikköjen lukumäärä
  • muuttujalista, jossa luetellaan kunkin muuttujan nimi, selite ja sijainti tiedostossa sekä muuttujien saamat arvot ja niiden selitteet
  • muuttujien suorat jakaumat
  • tiedot käytetyistä luokituksista, esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia" tai "maakoodit: kolminumeroinen ISO 3166".
  • käytettyjen lyhenteiden selitykset
  • puuttuvien tietojen koodaukset
  • konstruoitujen muuttujien tiedot (esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet)
  • uudelleenluokittelut, muuttujien standardoinnit
  • tietosuojatoimenpiteet

Jos muuttujat tai muuttujien saamat arvot tai selitteet poikkeavat kyselylomakkeen kysymyksistä tai vastausvaihtoehdoista, on poikkeavuudet selitettävä.

Lisäksi kirjataan tiedot dataan prosessoinnin yhteydessä tehdyistä muutoksista ja muokkauksista (esimerkiksi duplikaattien poistot, poikkeavien havaintojen poistot). Osa edellä mainituista kuvailutiedoista voidaan kirjata suoraan datatiedostoon.

Kvantitatiivisen datatiedoston käsittely

Saatavuustiedot Ankkurilinkki ikoni

Aineiston kuvailun tulee sisältää tieto aineiston saatavuudesta. Kuvailussa kerrotaan, missä aineistoa säilytetään, miten sen voi saada käyttöönsä, onko aineiston käytölle asetettu erityisehtoja ja kuka antaa lisätietoja.

Kontekstitiedot ja paradata Ankkurilinkki ikoni

Kontekstitiedoilla tarkoitetaan tutkimusaineiston tiedonkeruuhetkellä vallinneita ulkoisia olosuhteita ja tapahtumia, jotka ovat voineet vaikuttaa havaintoyksiköihin.

Esimerkiksi talouden tila, poliittiset tapahtumat, yleinen mielipide ja erilaiset yhteiskunnalliset muutokset tutkimusaineiston keruuaikana samoin kuin (äkilliset) luonnonmullistukset ja onnettomuudet voivat vaikuttaa tutkittavien asenteisiin, vastauksiin ja ajatuksiin tutkimushetkellä.

Tilastot tarjoavat yleistä makrotason tietoa yhteiskunnasta tutkimushetkellä. Yksittäisistä tapahtumista voi pitää tapahtumapäiväkirjaa aineistonkeruun ajalta, kirjata muistiin esimerkiksi pääuutisaiheet ja tutkimuksen teemaan liittyvät uutiset.

Paradatalla tarkoitetaan empiiristä tietoa aineiston keruuprosessista. Paradataa ovat esimerkiksi haastattelun alkamis- ja päättymisajankohta, haastattelun tai sen eri osa-alueiden kesto, vastausviive eri kysymyksiin, haastattelijan visuaaliset havainnot ja mielipiteet haastattelutilanteesta. Paradataa syntyy erityisen runsaasti tietokoneavusteisissa kyselyissä ja internet-kyselyissä. Kvantitatiivisissa aineistossa paradatamuuttujat voidaan tallentaa varsinaisten tutkimusmuuttujien kanssa samaan tai eri tiedostoon. Kvalitatiivisissa aineistoissa paradata voi olla kunkin aineistoyksikön alussa tai erillisessä tiedostossa (esimerkiksi maininnat tutkimustilanteissa olleista tai niihin kesken tulleista muista henkilöistä).

Metadataformaatit Ankkurilinkki ikoni

Metadatan voi tallentaa tavallisena tekstitiedostona. Halutessaan voi kuitenkin käyttää apuna erilaisia metadataformaatteja ja -tallennuspohjia.

Data Documentation Initiative (DDI) (Avautuu uuteen välilehteen) on erityisesti tutkimusaineistojen kuvailuun kehitetty kansainvälinen metadataformaatti. Yhteiskuntatieteellisessä tietoarkistossa metadata tallennetaan DDI Codebook 2.1 -muodossa xml-tiedostoina. Rakenteistettu xml-tiedosto sopii pitkäaikaissäilytykseen ja siitä voidaan helposti tuottaa erilaisia dokumentteja eri tarkoituksiin. Saatavilla on myös koko aineiston elinkaaren huomioiva DDI Lifecycle (DDI3).

Kvantitatiivinen aineisto FSD2248 ISSP 2006: valtion tehtävät IV: Suomen aineisto

Kvalitatiivinen aineisto FSD1306 Yksi päivä mediaa 2001

Kaikki tietoarkiston tuottamat kuvailut ovat saatavilla DDI XML-muodossa. Linkki kunkin aineiston DDI-muotoiseen kuvailuun on aina aineiston kuvailusivun lopussa. Lisäksi kuvailut ovat saatavilla yhtenä zip-pakettina.

Tietoarkiston aineistokuvailut DDI Codebook 2.0 -formaatissa

Metadataformaatteja tutkimusaineistoille

Muita metadataformaatteja