Kvantitatiivisen datatiedoston käsittely
Kvantitatiivisen tutkimusaineiston datatiedosto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista ja jossa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Datan analysointiin tarvitaan tilasto-ohjelmisto ja vähintään perustiedot tilastotieteestä ja kvantitatiivisista menetelmistä. Esimerkki SPSS-ohjelmiston data- ja muuttujanäkymistä.
Yhteiskuntatieteissä empiiriset kvantitatiiviset aineistot kerätään yleensä erilaisina kyselyinä, esimerkiksi posti-, puhelin-, käynti- tai internet-kyselyllä. Tällöin havaintoyksikkönä (tilastoyksikkönä) on useimmiten henkilö, ja havaintomatriisin muuttujat edustavat kyselyvastauksia. Havaintomatriiseja kutsutaan joskus myös mikrodataksi tai numeeriseksi dataksi.
Havaintomatriisin tallennus
Keruutapa ja keruuinstrumentti vaikuttavat siihen, miten aineisto tallennetaan sähköiseen muotoon eli "syötetään koneelle". Internet-kyselyissä vastaukset tallentuvat suoraan ja tietokoneavusteisessa käynti- tai puhelinkyselyssä kukin haastattelija tallentaa vastaukset kyselyn kuluessa. Postikyselylomakkeilta tiedot voidaan lukea optisesti tai syöttää käsin. Kaikissa tallennustavoissa aineistoon syntyy todennäköisesti virheitä. Tutkimusaineiston laatua voi varmistaa seuraavilla toimenpiteillä:
- syötä (tai tarkista tallennetut tiedot) ohjelmalla, joka huomauttaa sallitun vaihteluvälin ulkopuolisistas arvoista ja korjaa mahdolliset kirjoitusvirheet
- syötä aineisto kahteen kertaan ja tarkasta eroavaisuudet
- tarkasta vaihteluvälien ulkopuoliset arvot
- tarkasta satunnaisesti valittujen lomakkeiden ja jo syötetyn aineiston mahdolliset erot
- tarkasta havaintorivien pituudet ja muuttujien lukumäärä
- keskitä vaativimmat tehtävät kokeneille työntekijöille
- älä luokittele muuttujia uudelleen aineiston syöttämisen yhteydessä
- kun havaintoaineisto on syötetty, tee siitä välittömästi sekä varmuuskopio että erillinen työkopio
- käytä luokitteluun syntaksia tai tietokoneohjelmistoa
- määrittele puuttuvat tiedot ja "ei osaa sanoa"-vastausten luokitus
- tarkasta muuttujien ja niiden luokitusten yhdenmukaisuus koko aineistossa
- tarkasta muuttuja- ja luokkafrekvenssien oikeellisuus
- dokumentoi kaikki aineistoon tehtävät muutokset, luokitukset ja määrittelyt
Muuttujien nimet ja selitteet
Nimeä muuttujat yhdenmukaisesti. Suosi lyhyitä nimiä, jotka vastaavat tutkimusaineiston keräämisessä käytetyn instrumentin numerointia. Esimerkkejä:
- Tutkimuskysymyksiin liittyvät muuttujat. Hyvä nimi muuttujalle, johon tallennetaan kyselylomakkeen ensimmäisen kysymyksen vastaukset, on q1. Jos samassa kysymyksessä on useita alakysymyksiä (esimerkiksi ns. kysymyspatterit) voi käyttää muuttujanimille muotoa q2_1, q2_2, q2_3, ...
- Taustakysymyksiin liittyvät muuttujat. Usein kyselylomakkeissa on varsinaisten tutkimuskysymysten lisäksi vastaajan taustaa kartoittavia kysymyksiä, joille ei ole annettu kysymysnumerointia. Taustamuuttujat tulee nimetä johdonmukaisesti, esimerkiksi bv1, bv2, bv3, ...
- Muut muuttujat. Aineisto voi sisältää tietoa, joka ei liity suoraan keruuinstrumenttiin (esimerkiksi havaintonumero, vastauspäivämäärä ja vastaamiseen käytetty aika) ja verkkolomakkeilla kerätyt aineistot sisältävät usein myös teknistä informaatiota (esimerkiksi käytetty selainohjelmisto, vastausaika ja vastaajan ip-osoite). Näihin liittyvät muuttujat tulee myös nimetä johdonmukaisesesti, esimerkiksi t1, t2, ... . Jos muuttujien lukumäärä on vähäinen, voi käyttää myös kuvaavia nimiä, esimerkiksi id, pvm, aika, ip, selain, ...
Jos tutkimusaineisto koostetaan useista eri lähteistä tai aineistoista yhteisen liitosmuuttujan (esim. asiakasnumero, henkilötunnus, kuntanumero) avulla, kannattaa muuttujat nimetä niin, että muuttujan nimestä näkee suoraan mistä osa-aineistosta ko. muuttuja on lähtöisin. Eri osa-aineistot voi nimetä esimerkiksi d1, d2, d3...., jolloin muuttujien nimiä voisivat olla esimerkiksi d1_q1, d1_q2_1, d1_q2_2, d2_q1, d2_2, d2_3, ...
Vältä pitkiä muuttujanimiä, vaikka jotkut tilasto-ohjelmat niitä sallivat, sillä ne aiheuttavat ongelmia konvertoitaessa tiedostoja. Vältä myös muuttujien nimeämistä niiden sisällön mukaan, sillä se tarkoittaa käytännössä erilaisten lyhenteiden käyttöä. Lyhenteiden merkitys saattaa olla monitulkintainen, jolloin muuttujan yhteys keruuinstrumenttiin on vaarassa kadota. Myös ääkkösien ja erikoismerkkien käyttöä muuttujanimissä kannattaa välttää.
Muuttujan selite (label) tarkoittaa muuttujan sisällön kuvausta. Eri tilasto-ohjelmat ja aineistoformaatit rajoittavat muuttujan selitteen pituutta (esimerkiksi SPSS Portable 255 merkkiin), mutta silti selitteestä tulee käydä ilmi muuttujan olennainen sisältö. Selite kirjoitetaan lyhyesti ja ytimekkäästi käyttäen alkuperäisen kysymyksen sanoja ja termejä.
Muuttujan arvot ja niiden selitteet
Muuttujan saamat arvot kannattaa koodata vastaamaan keruuinstrumentin vastausvaihtoehtojen numerointia. Luokkien arvot kasvavat yleensä skaalan positiiviseen suuntaan, esimerkiksi
| Täysin eri mieltä | 1 |
| Jokseenkin eri mieltä | 2 |
| Ei samaa eikä eri mieltä | 3 |
| Jokseenkin samaa mieltä | 4 |
| Täysin samaa mieltä | 5 |
Puuttuvalle tiedolle ja 'en osaa sanoa'-tyyppisille luokille voi käyttää esimerkiksi negatiivisia arvoja sekä nollaa ja hyödyntää aineistokäsittelyohjelmiston puuttuvan tiedon määrittelyjä. Ks. Menetelmäopetuksen tietovarannon artikkelit mittaamisesta ja muuttujien ominaisuuksista.
Muuttujien arvojen selitteet kannattaa tilasto-ohjelmistosta muotoilla samoin kuin tutkimusinstrumentissa. Selitteen pituus riippuu ohjelmistosta ja tiedostoformaatista. Usein selite on rajoitettu hyvin lyhyeksi (esimerkiksi SPSS Portable 60 merkkiä), joten se kirjoitetaan lyhyesti ja ytimekkäästi käyttäen hyväksi keruuinstrumentin sanoja ja termejä.
Muuttujien muunnokset
Analyysissa tarvitsee usein luokitella muuttujia uudestaan tai muodostaa niiden pohjalta kokonaan uusia muuttujia. Kyselylomakkeessa kysytään usein syntymävuotta, mutta tulokset raportoidaan ikäryhmittäin. Kaikki tälläiset muuttujien muunnokset tulee dokumentoida hyvin. Menetelmäopetuksen tietovaranto antaa ohjeita uusien muuttujien luomiseen ja muuttujien muunnoksiin.
Puuttuva tieto
Lähes kaikissa aineistoissa on havaintoyksikköjä, joista ei ole saatu kaikkien muuttujien arvoja. Jos tällaiset puuttuvat havainnot poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Puuttuvat tiedot saattavat vääristää analyysin tuloksia merittävästikin, jos ne eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken. Puuttuvien havaintojen käsittelyyn kannattaakin perehtyä ennen varsinaisen analyysin aloittamista.
Puuttuvien havaintojen koodi valitaan niin, että se eroaa selkeästi muuttujan saamista "oikeista" arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999. Myös nollaa käytetään useina, mutta tällöin '0' ei saa olla sisällöllisesti hyväksyttävä tieto.
Lisätietoja puuttuvan tiedon käsittelystä ja koodaamisesta Menetelmäopetuksen tietovarannossa.
Painomuuttujat
Jos aineistossa on systemaattisia vinoutumia, havaintoja voi olla tarkoituksenmukaista painottaa. Painomuuttujien laskentakaavat ja painotusmenetelmät tulee dokumentoida hyvin, jotta myös aineiston jatkokäyttäjillä on selkeä käsitys tutkimusprosessin yhteydessä luotujen muuttujien taustoista.
Menetelmäopetuksen tietovarannon artikkeli Kyselyaineiston havaintojen painottaminen neuvoo painokertoimien laskemisessa ja käytössä.
Syntaksin käyttö
Useimmissa aineistonkäsittelyyn tarkoitetuissa tilasto-ohjelmistoissa on mahdollisuus työstää aineistoa ja tehdä analyysejä komentokielen eli syntaksin avulla. Usein ohjelmistojen tehokkaimmat ominaisuudet saadaan käyttöön vain syntaksikomentojen avulla, vaikka perusanalyysit onnistuvatkin valikoiden kautta. Syntaksilla annetut komennot voi tallentaa erilliseen tiedostoon (syntaksitiedostoon). Esimerkkisyntaksi tietoarkiston aineistonkäsittelyprosessista.
Aineiston muokkaus kannattaa aina tehdä syntaksilla eikä valikoiden kautta. Syntaksista nähdään, mitä muutoksia ja miten aineistoon on tehty, jolloin aineiston laadun valvonta on sekä mahdollisten virheiden etsintä sekä korjausten ja muutosten teko on helpointa. Syntaksi nopeuttaa myös usein käytettävien komentojen suorittamista. Lisäksi monissa ohjelmistoissa on rajapinta yhteen tai useampaan ohjelmointikieleen, joilla käyttäjä voi luoda omia uusia toimintoja tai analyysejä.
Syntaksitiedostoa on hyvä kommentoida eli kirjoittaa komentojen yhteyteen kommenttiriveille, miksi jokin komento suoritetaan, esimerkiksi miksi muuttuja luokitellaan uudelleen. Syntaksin alkuun kirjataan kommenttiriveille käsiteltävän aineiston nimi, versionumero, syntaksin tekoaika sekä tekijän nimi.
Menetelmäopetuksen tietovaranto esittelee SPSS-ohjelmiston syntaksieditorin ja syntaksin käyttöä.