Kvantitatiivisen datatiedoston käsittely

Kvantitatiivisen tutkimusaineiston datatiedosto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista. Havaintomatriisissa yksi rivi vastaa yhtä havaintoyksikköä ja yksi sarake yhtä muuttujaa. Datan analysointiin tarvitaan tilasto-ohjelmisto ja vähintään perustiedot tilastotieteestä ja kvantitatiivisista menetelmistä. (Lisätietoja, ks. esim. Holopainen, Martti & Pulkkinen, Pekka (2012). Tilastolliset menetelmät.)

Yhteiskuntatieteissä empiiriset kvantitatiiviset aineistot kerätään yleensä erilaisina kyselyinä, esimerkiksi posti-, puhelin-, käynti- tai internet-kyselyllä. Tällöin havaintoyksikkönä (tilastoyksikkönä) on useimmiten henkilö, ja havaintomatriisin muuttujat edustavat näiden henkilöiden antamia kyselyvastauksia. Havaintomatriiseja kutsutaan joskus myös mikrodataksi tai numeeriseksi dataksi.

Esimerkki SPSS-ohjelmiston data- ja muuttujanäkymistä

Havaintomatriisin tallennus

Keruutapa ja keruuinstrumentti vaikuttavat siihen, miten aineisto tallennetaan sähköiseen muotoon eli "syötetään koneelle". Internet-kyselyissä vastaukset tallentuvat suoraan ja tietokoneavusteisessa käynti- tai puhelinkyselyssä kukin haastattelija tallentaa vastaukset kyselyn kuluessa. Postikyselylomakkeilta tiedot voidaan lukea optisesti tai syöttää käsin. Kaikissa tallennustavoissa aineistoon syntyy todennäköisesti virheitä. Tutkimusaineiston laatua voi varmistaa seuraavilla toimenpiteillä:

tarkasta ja korjaa vaihteluvälien ulkopuoliset arvot
valitse tietojen tallentamisen jälkeen satunnaisesti joitakin lomakkeita ja tarkista, että niistä syötetyt tiedot ovat matriisissa oikein
tarkasta havaintorivien pituudet ja muuttujien lukumäärä
älä luokittele muuttujia uudelleen aineiston syöttämisen yhteydessä, näin alkuperäinen tieto säilyy tallessa
kun havaintoaineisto on syötetty, tee siitä välittömästi sekä varmuuskopio että erillinen työkopio
muuttujia uudelleen luokiteltaessa käytä tilastollisen aineiston käsittelyyn soveltuvaa tietokoneohjelmistoa ja, mikäli mahdollista, tee luokitukset käyttämällä tilasto-ohjelman syntaksia
määrittele puuttuvat tiedot ja päätä, miten 'ei osaa sanoa' -vastauksia käsitellään
tarkasta muuttuja- ja luokkafrekvenssien oikeellisuus
dokumentoi kaikki aineistoon tehtävät muokkaukset, kuten anonymisointitoimenpiteet, luokitukset, uudet muuttujat ja duplikaattien poistot esimerkiksi syntaksiin

Muuttujien nimet ja selitteet

Nimeä muuttujat yhdenmukaisesti. Suosi lyhyitä nimiä, jotka vastaavat tutkimusaineiston keräämisessä käytetyn instrumentin numerointia. Esimerkkejä:

Tutkimuskysymyksiin liittyvät muuttujat: Hyvä nimi muuttujalle, johon tallennetaan kyselylomakkeen ensimmäisen kysymyksen vastaukset, on q1. Jos yhdessä kysymyksessä on useita alakysymyksiä (esimerkiksi ns. kysymyspatterit) voi käyttää muuttujanimille muotoa q2_1, q2_2, q2_3, ...
Taustakysymyksiin liittyvät muuttujat: Usein kyselylomakkeissa on varsinaisten tutkimuskysymysten lisäksi vastaajan taustaa kartoittavia kysymyksiä, joille ei ole annettu kysymysnumerointia. Taustamuuttujat tulee nimetä johdonmukaisesti, esimerkiksi bv1, bv2, bv3, ...
Muut muuttujat: Aineisto voi sisältää tietoa, joka ei liity suoraan keruuinstrumenttiin, esimerkiksi havaintonumero, vastauspäivämäärä ja vastaamiseen käytetty aika. Verkkolomakkeilla kerätyt aineistot sisältävät usein myös teknistä informaatiota, esimerkiksi käytetty selainohjelmisto, vastausaika ja vastaajan ip-osoite. Näihin liittyvät muuttujat tulee myös nimetä johdonmukaisesti, esimerkiksi t1, t2, ... . Jos muuttujien lukumäärä on vähäinen, voi käyttää myös kuvaavia nimiä, esimerkiksi id, pvm, aika, ip, selain, ...

Jos tutkimusaineisto koostetaan useista eri lähteistä tai osa-aineistoista, kannattaa muuttujat nimetä niin, että nimistä näkee suoraan mistä osa-aineistosta ko. muuttujat ovat lähtöisin. Eri osa-aineistot voi nimetä esimerkiksi kirjaimin a, b, c, jne., jolloin muuttujien nimiä voisivat olla esimerkiksi a1, a2_1, a2_2, b1_1 tai a_q1, a_q2_1, b_q1_1 jne.

Vältä pitkiä muuttujanimiä, vaikka jotkut tilasto-ohjelmat niitä sallivatkin, sillä ne voivat aiheuttaa ongelmia tiedostomuotoa muutettaessa. Vältä myös muuttujien nimeämistä niiden sisällön mukaan, sillä se tarkoittaa käytännössä erilaisten lyhenteiden käyttöä. Lyhenteiden merkitys saattaa olla monitulkintainen, jolloin muuttujan yhteys keruuinstrumenttiin on vaarassa kadota. Myös ääkkösten ja erikoismerkkien käyttöä muuttujanimissä kannattaa välttää.

Muuttujan selite tarkoittaa muuttujan sisällön kuvausta. Jos tilaa on, kannattaa tähän yleensä kirjoittaa koko kysymysteksti. Eri tilasto-ohjelmat ja aineistoformaatit rajoittavat muuttujan selitteen pituutta. Jos selitettä joudutaan lyhentämään, tulee selitteestä käydä ilmi muuttujan olennainen sisältö. Suositeltavinta on lyhentää johdattelevia esitekstejä tai sisällön kannalta merkityksettömämpiä sisältöjä. Lyhennetty selite on syytä kirjoittaa käyttäen alkuperäisen kysymyksen sanoja ja termejä. Kysymyksen ja vastausvaihtoehtojen tulee vastata toisiaan, eli arvojen selitteiden tulee 'vastata' siihen kysymykseen, joka muuttujan selitteessä on esitetty. Aineistosta tehdyn taulukon pitäisi itsessään muodostaa eheä kokonaisuus, eli siinä esitetyn asian pitäisi käydä selville taulukkoa tarkastelemalla. Jatkuvissa muuttujissa muuttujan selitteestä tulee käydä ilmi, missä mittayksikössä numeerinen arvo on annettu, esimerkiksi onko se tuntia, euroa, metriä, kertaa päivässä tms.

Muuttujan arvot ja niiden selitteet

Muuttujan saamat arvot kannattaa koodata vastaamaan keruuinstrumentin, kuten esimerkiksi kyselylomakkeen vastausvaihtoehtojen numerointia ja järjestystä, esimerkiksi

Taulu 1.
Täysin eri mieltä	1
Jokseenkin eri mieltä	2
Ei samaa eikä eri mieltä	3
Jokseenkin samaa mieltä	4
Täysin samaa mieltä	5

Muuttujien arvojen selitteet tulisi muotoilla tilasto-ohjelmistossa samoin kuin tutkimusinstrumentissa. Selitteen pituus riippuu ohjelmistosta ja tiedostoformaatista. Usein selitteen pituutta on rajoitettu. Jos selitettä joudutaan lyhentämään, se kirjoitetaan käyttäen hyväksi keruuinstrumentin sanoja ja termejä siten, että selitteen olennainen sisältö säilyy.

Lisätietoa mittaamisesta ja muuttujien ominaisuuksista

Muuttujien muunnokset

Analyysissa tarvitsee usein luokitella muuttujia uudestaan tai muodostaa niiden pohjalta kokonaan uusia muuttujia. Esimerkiksi kyselylomakkeessa kysytään usein syntymävuotta, mutta tulokset raportoidaan ikäryhmittäin. Kaikki tällaiset muuttujien muunnokset tulee dokumentoida hyvin.

Lisätietoa muuttujien muunnoksista

Puuttuva tieto

Lähes kaikissa aineistoissa on havaintoyksikköjä, joista ei ole saatu kaikkien muuttujien arvoja eli vastaaja ei ole vastannut jokaiseen kysymykseen. Jos tällaiset puuttuvia tietoja sisältävät havaintoyksiköt poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Puuttuvat tiedot saattavat vääristää analyysin tuloksia merkittävästikin, jos ne eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken. Puuttuvien havaintojen käsittelyyn kannattaakin perehtyä ennen varsinaisen analyysin aloittamista.

Puuttuvien havaintojen koodi valitaan niin, että se eroaa selkeästi muuttujan saamista 'oikeista' arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999. Myös negatiivisia arvoja tai nollaa käytetään usein, mutta tällöin '0' ei saa olla sisällöllisesti hyväksyttävä tieto. Puuttuvan tiedon käsittelyssä voi myös hyödyntää aineiston käsittelyssä käytettävän ohjelmiston puuttuvan tiedon määrittelyjä. Kyselytutkimuksissa vaihtoehdot 'en osaa sanoa', 'en halua sanoa' tai 'en tiedä' eivät lähtökohtaisesti ole puuttuvaa tietoa, vaan tutkimusongelman kannalta mielenkiintoista tietoa.

Lisätietoa puuttuvan tiedon käsittelystä ja koodaamisesta

Painomuuttujat

Jos aineistossa on systemaattisia vinoutumia, havaintoja voi olla tarkoituksenmukaista painottaa. Painomuuttujien avulla voidaan tasapainottaa otannan myötä tapahtuneita vääristymiä esimerkiksi vastaajien ikä-, sukupuoli- tai alueellisissa jakaumissa. Painomuuttujien laskentakaavat ja painotusmenetelmät tulee dokumentoida hyvin, jotta myös aineiston jatkokäyttäjillä on selkeä käsitys tutkimusprosessin yhteydessä luotujen muuttujien taustoista.

Lisätietoa kyselyaineiston havaintojen painottamisesta

Syntaksin käyttö

Useimmissa aineistonkäsittelyyn tarkoitetuissa tilasto-ohjelmissa on mahdollisuus työstää aineistoa ja tehdä analyysejä komentokielen eli syntaksin avulla. Usein ohjelmien tehokkaimmat ominaisuudet saadaan käyttöön vain syntaksikomentojen avulla, vaikka perusanalyysit onnistuvatkin valikoiden kautta. Syntaksilla annetut komennot voi tallentaa erilliseen tiedostoon (syntaksitiedostoon).

Aineiston muokkaus kannattaa aina tehdä syntaksilla eikä valikoiden kautta. Syntaksista nähdään, mitä muutoksia aineistoon on tehty, ja miten. Tällöin aineiston laadun valvonta, mahdollisten virheiden etsintä sekä korjausten ja muutosten teko on helpointa. Syntaksi nopeuttaa myös usein käytettävien komentojen suorittamista. Lisäksi monissa ohjelmistoissa on rajapinta yhteen tai useampaan ohjelmointikieleen, joilla käyttäjä voi luoda omia uusia toimintoja tai analyysejä.

Syntaksitiedostoa pitää kommentoida eli kirjoittaa komentojen yhteyteen kommenttiriveille, miksi jokin komento suoritetaan, esimerkiksi miksi muuttuja luokitellaan uudelleen.

Lisätietoa SPSS-ohjelmiston syntaksieditorin käytöstä

Tiedostojen nimeäminen ja hallinta

Hakemistot ja tiedostot nimetään yksiselitteisesti ja loogisesti. Tiedostojen perustiedot tallennetaan kuvailutietojen yhteyteen. Nykyohjelmat mahdollistavat pitkätkin tiedostonimet, joten nimeen kannattaa sisällyttää ainakin projektin lyhenne, vuosi, tiedoston luonne ja tiedoston versio. Esimerkiksi vuonna 2017 kerätty European Values Survey -kyselyaineiston alkuperäinen SPSS-tiedosto voisi olla nimeltään evs2017_data_alkup.por ja aineistonkeruussa käytetty kyselylomake puolestaan evs2017_kyselylomake_suomi.odt. Jos aineistolle on annettu yksilöivä tunniste, se kannattaa sisällyttää kaikkiin aineistoon liittyvien tiedostojen nimiin.

Esimerkki : Aineiston FSD2248 ISSP 2006: valtion tehtävät IV: Suomen aineisto tiedostoja Yhteiskuntatieteellisessä tietoarkistossa:

Directory of X:\Data\FSD2248
|   cbF2248.pdf
|   meF2248.xml
|   mef2248e.xml
|   quF2248_fin.pdf
|   quF2248_sve.pdf
|   vaf2248.xml
|   
+---Data
|       daF2248.csv
|       daF2248.por
|       labF2248.html
|       syF2248.SPS
|       
\---Original
        ISSP06_FSDdata.sas7bdat
        ISSP06_FSDdata.sav
        ISSP06_jakaumat.xls
        ISSP06_labfor.sas
        ISSP06_muuttujalistaus.lst
        ISSP06_questionnaire_fin.pdf
        ISSP06_questionnaire_swe.pdf
        ISSP06_study_description.doc
        ISSP_vastaus%_2002-06.xls

Tässä esimerkissä aineistolle on luotu oma hakemisto, jonka nimi on FSD2248 ja joka perustuu aineiston yksilöivään identifikaatiotunnukseen. Tiedostonimen kaksi ensimmäistä merkkiä kertovat, mistä aineiston osasta on kysymys:

cb = koodikirja
da = datatiedosto
sy = syntaksitiedosto
lab = selitetiedosto
me = kuvailutiedosto
qu = kyselylomake
va = muuttujien kuvaus

Fnnnn on aineiston id-tunnus ja tiedoston nimen lopussa on tietoa tiedoston kielestä. Data-kansio sisältää saman datan kahdessa eri tiedostomuodossa (.csv ja .por), jotta eri tilasto-ohjelmien hyödyntäminen on helpompaa. Html-tiedosto sisältää csv-datatiedostoon kuuluvat selitteet. Original-hakemistossa ovat alkuperäiset tiedostot sellaisina, kuin tutkimushanke on ne Tietoarkistolle toimittanut. Kun aineiston käsittely Tietoarkistossa on päättynyt, original-kansio sisältöineen poistetaan.