Kvalitatiivisen datatiedoston käsittely

Kvantitatiivisen datatiedoston käsittely

Kvantitatiivisen tutkimusaineiston datatiedosto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista. Havaintomatriisissa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Datan analysointiin tarvitaan tilasto-ohjelmisto ja vähintään perustiedot tilastotieteestä ja kvantitatiivisista menetelmistä. (Lisätietoja, ks. esim. Holopainen, Martti & Pulkkinen, Pekka (2012). Tilastolliset menetelmät.)

Yhteiskuntatieteissä empiiriset kvantitatiiviset aineistot kerätään yleensä erilaisina kyselyinä, esimerkiksi posti-, puhelin-, käynti- tai internet-kyselyllä. Tällöin havaintoyksikkönä (tilastoyksikkönä) on useimmiten henkilö, ja havaintomatriisin muuttujat edustavat näiden henkilöiden antamia kyselyvastauksia. Havaintomatriiseja kutsutaan joskus myös mikrodataksi tai numeeriseksi dataksi.

» Esimerkki SPSS-ohjelmiston data- ja muuttujanäkymistä.

Havaintomatriisin tallennus

Keruutapa ja keruuinstrumentti vaikuttavat siihen, miten aineisto tallennetaan sähköiseen muotoon eli "syötetään koneelle". Internet-kyselyissä vastaukset tallentuvat suoraan ja tietokoneavusteisessa käynti- tai puhelinkyselyssä kukin haastattelija tallentaa vastaukset kyselyn kuluessa. Postikyselylomakkeilta tiedot voidaan lukea optisesti tai syöttää käsin. Kaikissa tallennustavoissa aineistoon syntyy todennäköisesti virheitä. Tutkimusaineiston laatua voi varmistaa seuraavilla toimenpiteillä:

  • tarkasta ja korjaa vaihteluvälien ulkopuoliset arvot
  • valitse tietojen tallentamisen jälkeen satunnaisesti joitakin lomakkeita ja tarkista, että niistä syötetyt tiedot ovat matriisissa oikein
  • tarkasta havaintorivien pituudet ja muuttujien lukumäärä
  • älä luokittele muuttujia uudelleen aineiston syöttämisen yhteydessä
  • kun havaintoaineisto on syötetty, tee siitä välittömästi sekä varmuuskopio että erillinen työkopio
  • muuttujia uudelleen luokiteltaessa käytä tilastollisen aineiston käsittelyyn soveltuvaa tietokoneohjelmistoa ja, mikäli mahdollista, tee luokitukset käyttämällä tilasto-ohjelman syntaksia
  • määrittele puuttuvat tiedot ja päätä, miten 'ei osaa sanoa'-vastauksia käsitellään
  • tarkasta muuttuja- ja luokkafrekvenssien oikeellisuus
  • dokumentoi kaikki aineistoon tehtävät muutokset, luokitukset ja määrittelyt

Muuttujien nimet ja selitteet

Nimeä muuttujat yhdenmukaisesti. Suosi lyhyitä nimiä, jotka vastaavat tutkimusaineiston keräämisessä käytetyn instrumentin numerointia. Esimerkkejä:

  • Tutkimuskysymyksiin liittyvät muuttujat. Hyvä nimi muuttujalle, johon tallennetaan kyselylomakkeen ensimmäisen kysymyksen vastaukset, on q1. Jos yhdessä kysymyksessä on useita alakysymyksiä (esimerkiksi ns. kysymyspatterit) voi käyttää muuttujanimille muotoa q2_1, q2_2, q2_3, ...
  • Taustakysymyksiin liittyvät muuttujat. Usein kyselylomakkeissa on varsinaisten tutkimuskysymysten lisäksi vastaajan taustaa kartoittavia kysymyksiä, joille ei ole annettu kysymysnumerointia. Taustamuuttujat tulee nimetä johdonmukaisesti, esimerkiksi bv1, bv2, bv3, ...
  • Muut muuttujat. Aineisto voi sisältää tietoa, joka ei liity suoraan keruuinstrumenttiin, esimerkiksi havaintonumero, vastauspäivämäärä ja vastaamiseen käytetty aika. Verkkolomakkeilla kerätyt aineistot sisältävät usein myös teknistä informaatiota, esimerkiksi käytetty selainohjelmisto, vastausaika ja vastaajan ip-osoite. Näihin liittyvät muuttujat tulee myös nimetä johdonmukaisesti, esimerkiksi t1, t2, ... . Jos muuttujien lukumäärä on vähäinen, voi käyttää myös kuvaavia nimiä, esimerkiksi id, pvm, aika, ip, selain, ...

Jos tutkimusaineisto koostetaan useista eri lähteistä tai osa-aineistoista, kannattaa muuttujat nimetä niin, että nimistä näkee suoraan mistä osa-aineistosta ko. muuttujat ovat lähtöisin. Eri osa-aineistot voi nimetä esimerkiksi kirjaimin a, b, c, jne., jolloin muuttujien nimiä voisivat olla esimerkiksi a1, a2_1, a2_2, b1_1 tai a_q1, a_q2_1, b_q1_1 jne.

Vältä pitkiä muuttujanimiä, vaikka jotkut tilasto-ohjelmat niitä sallivatkin, sillä ne voivat aiheuttaa ongelmia tiedostomuotoa muutettaessa. Vältä myös muuttujien nimeämistä niiden sisällön mukaan, sillä se tarkoittaa käytännössä erilaisten lyhenteiden käyttöä. Lyhenteiden merkitys saattaa olla monitulkintainen, jolloin muuttujan yhteys keruuinstrumenttiin on vaarassa kadota. Myös ääkkösten ja erikoismerkkien käyttöä muuttujanimissä kannattaa välttää.

Muuttujan selite tarkoittaa muuttujan sisällön kuvausta. Jos tilaa on, kannattaa tähän yleensä kirjoittaa koko kysymysteksti. Eri tilasto-ohjelmat ja aineistoformaatit rajoittavat muuttujan selitteen pituutta (esimerkiksi SPSS Portable 255 merkkiin). Jos selitettä joudutaan lyhentämään, tulee selitteestä käydä ilmi muuttujan olennainen sisältö. Lyhennetty selite on syytä kirjoittaa käyttäen alkuperäisen kysymyksen sanoja ja termejä.

Muuttujan arvot ja niiden selitteet

Muuttujan saamat arvot kannattaa koodata vastaamaan keruuinstrumentin vastausvaihtoehtojen numerointia, esimerkiksi

Täysin eri mieltä1
Jokseenkin eri mieltä2
Ei samaa eikä eri mieltä3
Jokseenkin samaa mieltä4
Täysin samaa mieltä5

Puuttuvalle tiedolle ja 'en osaa sanoa'-tyyppisille luokille voi käyttää esimerkiksi negatiivisia arvoja sekä nollaa, kuitenkin siten, että arvot erottuvat selkeästi toisistaan. Puuttuvan tiedon käsittelyssä voi myös hyödyntää aineiston käsittelyssä käytettävän ohjelmiston puuttuvan tiedon määrittelyjä.

Muuttujien arvojen selitteet kannattaa muotoilla tilasto-ohjelmistossa samoin kuin tutkimusinstrumentissa. Selitteen pituus riippuu ohjelmistosta ja tiedostoformaatista. Usein selitteen pituutta on rajoitettu (esimerkiksi SPSS Portable 120 merkkiä). Jos selitettä joudutaan lyhentämään, se kirjoitetaan käyttäen hyväksi keruuinstrumentin sanoja ja termejä siten, että selitteen olennainen sisältö säilyy.

» Lisätietoa mittaamisesta ja muuttujien ominaisuuksista.

Muuttujien muunnokset

Analyysissa tarvitsee usein luokitella muuttujia uudestaan tai muodostaa niiden pohjalta kokonaan uusia muuttujia. Kyselylomakkeessa kysytään usein syntymävuotta, mutta tulokset raportoidaan ikäryhmittäin. Kaikki tällaiset muuttujien muunnokset tulee dokumentoida hyvin.

» Lisätietoa muuttujien muunnoksista

Puuttuva tieto

Lähes kaikissa aineistoissa on havaintoyksikköjä, joista ei ole saatu kaikkien muuttujien arvoja eli vastaaja ei ole vastannut jokaiseen kysymykseen. Jos tällaiset puuttuvia tietoja sisältävät havaintoyksiköt poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Puuttuvat tiedot saattavat vääristää analyysin tuloksia merkittävästikin, jos ne eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken. Puuttuvien havaintojen käsittelyyn kannattaakin perehtyä ennen varsinaisen analyysin aloittamista.

Puuttuvien havaintojen koodi valitaan niin, että se eroaa selkeästi muuttujan saamista "oikeista" arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999. Myös nollaa käytetään usein, mutta tällöin '0' ei saa olla sisällöllisesti hyväksyttävä tieto.

» Lisätietoa puuttuvan tiedon käsittelystä ja koodaamisesta

Painomuuttujat

Jos aineistossa on systemaattisia vinoutumia, havaintoja voi olla tarkoituksenmukaista painottaa. Painomuuttujien avulla voidaan tasapainottaa otannan myötä tapahtuneita vääristymiä esimerkiksi vastaajien ikä-, sukupuoli- tai alueellisissa jakaumissa. Painomuuttujien laskentakaavat ja painotusmenetelmät tulee dokumentoida hyvin, jotta myös aineiston jatkokäyttäjillä on selkeä käsitys tutkimusprosessin yhteydessä luotujen muuttujien taustoista.

» Lisätietoa kyselyaineiston havaintojen painottamisesta

Syntaksin käyttö

Useimmissa aineistonkäsittelyyn tarkoitetuissa tilasto-ohjelmissa on mahdollisuus työstää aineistoa ja tehdä analyysejä komentokielen eli syntaksin avulla. Usein ohjelmien tehokkaimmat ominaisuudet saadaan käyttöön vain syntaksikomentojen avulla, vaikka perusanalyysit onnistuvatkin valikoiden kautta. Syntaksilla annetut komennot voi tallentaa erilliseen tiedostoon (syntaksitiedostoon).

Aineiston muokkaus kannattaa aina tehdä syntaksilla eikä valikoiden kautta. Syntaksista nähdään, mitä muutoksia aineistoon on tehty, ja miten. Tällöin aineiston laadun valvonta, mahdollisten virheiden etsintä sekä korjausten ja muutosten teko on helpointa. Syntaksi nopeuttaa myös usein käytettävien komentojen suorittamista. Lisäksi monissa ohjelmistoissa on rajapinta yhteen tai useampaan ohjelmointikieleen, joilla käyttäjä voi luoda omia uusia toimintoja tai analyysejä.

Syntaksitiedostoa pitää kommentoida eli kirjoittaa komentojen yhteyteen kommenttiriveille, miksi jokin komento suoritetaan, esimerkiksi miksi muuttuja luokitellaan uudelleen.

» Lisätietoa SPSS-ohjelmiston syntaksieditorin käytöstä
» Esimerkkisyntaksi tietoarkiston aineistonkäsittelyprosessista.

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2015-03-13