KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Puuttuvat havainnot

Aikaisempi aihetta käsittelevä MOTV-artikkeli vuodelta 2003.

Puuttuvien havaintojen käsitteleminen
  Puuttuvien havaintojen poistaminen
  Muuttujien poistaminen
  Puuttuvien havaintojen parittainen poistaminen
  Keskiarvon käyttö
  Ryhmäkeskiarvojen käyttö
  Muita tapoja
Puuttuvien havaintojen koodaaminen
Lähteet

Lähes kaikissa määrällisissä aineistoissa on havaintoyksikköjä, joista ei syystä tai toisesta ole pystytty mittaamaan kaikkien muuttujien arvoja. Tällaisia tapauksia kutsutaan puuttuviksi havainnoiksi. Niillä voi olla suuri merkitys aineiston analyysin kannalta. Jos puuttuvat havainnot poistetaan analyysista, pienenee havaintoyksikköjen määrä ja saatujen tulosten tarkkuus voi kärsiä. Vielä suurempi ongelma on silloin, jos puuttuvat havainnot eivät ole jakautuneet satunnaisesti havaintoyksikköjen kesken, vaan joissakin ryhmissä niitä on huomattavasti enemmän kuin toisissa. Tilanne saattaa pahimmassa tapauksessa vääristää analyysin tuloksia merkittävästi. Näiden syiden vuoksi puuttuvien havaintojen käsittelyyn kannattaa perehtyä ennen varsinaisen analyysin aloittamista. Seuraavassa asiaa käsitellään erityisesti kyselytutkimusten näkökulmasta.

Havaintojen puuttumiselle voi olla useita eri syitä. Usein kyselytutkimuksissa kaikkien vastaajien ei ole edes tarkoitus vastata kaikkiin kysymyksiin. Esimerkiksi jos vastaaja ilmoittaa, ettei hänellä ole lapsia, ei hänen tarvitse vastata kysymyksiin, joissa tiedustellaan lasten ikää. Tällaiset puuttuvat havainnot ovat jo lomakkeen suunnitteluvaiheessa tiedossa, eivätkä ne aiheuta suuria ongelmia aineiston analyysissa. Sen sijaan muut mahdolliset puuttuvien havaintojen syyt aiheuttavat päänvaivaa tutkijalle. Vastaamatta voidaan jättää epähuomiossa tai viitseliäisyyden puutteessa. Joskus vastaajat kieltäytyvät vastaamasta johonkin tiettyyn kysymykseen. Joskus kysymys voi taas käsitellä niin arkaluonteisia asioita, että kaikki vastaajat eivät halua ilmoittaa mielipidettään. Toisinaan vastaus voi olla niin epämääräinen, ettei siitä yksikäsitteisesti selviä, mitä vastaaja on tarkoittanut (esimerkiksi kirjoitetusta numerosta ei saa selvää). Eikä puuttuvan havainnon syy ole aina edes tiedossa. Se voi johtua myös haastattelijan tai aineiston koodaajan virheestä.

Kyselytutkimuksissa vaihtoehdot 'en osaa sanoa', 'en halua sanoa' tai 'en tiedä' aiheuttavat joskus ongelmia aineiston jatkoanalyysille. Usein näitä vastausvaihtoehtoja käsitellään puuttuvina tietoina. Tämä ratkaisu ei välttämättä ole perusteltu, jos tällaisia vastauksia on paljon. Analyysin tulokset voivat muuttua, jos puuttuvat vastaukset eivät ole jakautuneet sattumanvaraisesti vastaajien kesken, vaan niiden yleisyys vaihtelee tarkasteltavien ryhmien mukaan. Lisäksi vastausten 'en osaa sanoa' tai 'en tiedä' analyysi voi olla mielenkiintoinen tutkimusongelman kannalta. Jos tietyn tyyppisillä vastaajilla ei ole mielipidettä jostain yhteiskunnallisesta ilmiöstä, voi tämä tieto olla itsessään arvokas tulkittaessa vastaajien suhtautumista tutkittavaan ilmiöön.

Puuttuvien havaintojen käsitteleminen

Koska puuttuvat havainnot voivat myös vääristää analyysin tuloksia, täytyy niiden käsittelyyn kiinnittää erityistä huomiota. Ongelman korjaamiseksi tai ainakin lievittämiseksi on esitetty useita erilaisia menetelmiä. Yleispätevää toimintasääntöä ei ole, vaan soveltuva ratkaisu täytyy valita tapauskohtaisesti. Seuraava toimenpidejaottelu perustuu Hertelin (1976) asiaa käsittelevään artikkeliin.

Puuttuvien havaintojen poistaminen

Yksinkertaisin lähestymistapa puuttuvien havaintojen ongelmaan on poistaa analyysista kaikki havaintoyksiköt, joista on puuttuvia tietoja yhdessäkin analyysiin sisälletyissä muuttujissa. Englanninkielisissä tilasto-ohjelmissa tätä toimenpidettä kutsutaan nimellä listwise deletion. Ongelmana tässä lähestymistavassa on, että se voi pienentää otoksen kokoa huomattavasti. Tämä tulee erityisen selvästi esille monimuuttujamenetelmiä sovellettaessa, jolloin analyysissa voi olla mukana useita, joskus jopa kymmeniä, muuttujia.  Analyysin ulkopuolelle jäävät kaikki havaintoyksiköt, joista puuttuu yksikin arvo jostakin analyysissa mukana olevasta muuttujasta. Jos puuttuvat havainnot keskittyvät kuitenkin vain pieneen osaan havaintoyksiköistä, voi näiden poistaminen analyysista olla järkevää. Ennen tätä toimenpidettä kannattaa tarkistaa (esimerkiksi ristiintaulukoinnin avulla) ovatko puuttuvat havainnot jakautuneet satunnaisesti tutkimusongelman kannalta mielenkiintoisten ryhmien välillä, vai keskittyvätkö ne joihinkin erityisiin ryhmiin. Jälkimmäisessä tapauksessa puuttuvien havaintojen poistaminen analyysista voi vääristää lopputuloksia.

Muuttujien poistaminen

Jos jostakin muuttujasta puuttuu huomattava määrä havaintoja, kannattaa pohtia koko muuttujan pudottamista pois analyysista. Tämä on suositeltavaa ainakin silloin, kun aineistossa on muita muuttujia, jotka mittaavat samaa asiaa. Hyvänä puolena tässä ratkaisussa on, että havaintoyksikköjen määrä ei toimenpiteen seurauksena vähene. Ratkaisua ei tietenkään voi suositella silloin, kun muuttuja on tutkimuskysymyksen kannalta tärkeä ja sen poisjättäminen vaikeuttaa tutkimusongelman ratkaisua.

Puuttuvien havaintojen parittainen poistaminen

Useat monimuuttujamenetelmät perustuvat muuttujien kovarianssi- tai korrelaatiomatriisin analysoinnille (esimerkiksi faktorianalyysi ja regressioanalyysi). Tällaisessa tapauksessa puuttuvia havaintoja voidaan poistaa analyysista ns. parittaisesti (pairwise deletion). Tämä tarkoittaa sitä, että korrelaatiomatriisia laskettaessa otetaan huomioon kaikki ne havaintoyksiköt, joista on tiedot niillä kahdella muuttujalla, joista korrelaatio lasketaan. Näin saadussa korrelaatiomatriisissa jokainen korrelaatioarvo voi perustua erilaiseen havaintoyksikköjen määrään. Tämänkin menetelmän seurauksena aineisto pienenee, mutta ei läheskään yhtä paljon verrattuna tilanteeseen, jossa kaikki puuttuvia tietoja sisältävät havaintoyksiköt poistettaisiin analyysista.

Keskiarvon käyttö

Jos puuttuvia havaintoja ei voida poistaa, yksi vaihtoehto on koodata puuttuvien muuttujan arvojen tilalle jokin ennalta päätetty arvo ja sisällyttää siten kaikki havaintoyksiköt analyysiin. Yleensä puuttuvien havaintojen tilalle koodataan muuttujan keskiarvo. Keskiarvon käyttöä perustellaan sillä, että jos tutkijalla ei ole etukäteen mitään tietoa puuttuvan havainnon arvosta, paras "arvaus" täksi arvoksi on juuri koko aineiston keskiarvo. Ilmeinen etu tämän menetelmän käytössä on, että se ei pienennä aineiston kokoa. Huono puoli on, että keskiarvojen käyttö johtaa muuttujien hajonnan pienenemiseen. Jos puuttuvia havaintoja on paljon, voi tällä olla suuri merkitys jatkoanalyysin kannalta. Käytännössä muuttujien hajonnan pienenemisestä seuraa, että niiden välinen korrelaatio pienenee. Näin keskiarvojen käyttö puuttuvien havaintojen tilalla tekee monimuuttujamenetelmien tuloksista "konservatiivisempia", eli havaitut yhteydet muuttujien välillä eivät ole niin vahvoja, kuin jos puuttuvia havaintoja olisi aineistossa vähemmän.

Ryhmäkeskiarvojen käyttö

Puuttuvat muuttujan arvot voidaan korvata koko muuttujan keskiarvon sijasta myös ryhmäkeskiarvoilla. Jos esimerkiksi vastaajien koulutustaso on mitattu kolmiluokkaisella mittarilla, jaetaan aineisto näihin kolmeen ryhmään ja lasketaan jokaiselle ryhmälle oma keskiarvo kiinnostuksen kohteena olevasta muuttujasta. Tämän jälkeen puuttuvat havainnot korvataan näillä ryhmäkeskiarvoilla. Jos vastaaja kuuluu akateemisen tutkinnon suorittaneiden ryhmään ja hänellä on jossain kysymyksessä puuttuva havainto, koodataan puuttuvan havainnon tilalle akateemisten tällä muuttujalla saama keskiarvo jne. Tämän menetelmän ongelma on, että se korostaa ryhmien sisäistä samankaltaisuutta ja ryhmien välisiä eroja. Seuraukset ovat päinvastaiset kuin koko muuttujan keskiarvojen käytössä puuttuvien havaintojen tilalla. Ryhmäkeskiarvojen käyttö voi vääristää tuloksia kasvattamalla muuttujien välisiä korrelaatioita.

Muita tapoja

Edellä esiteltiin yleisimpiä tapoja käsitellä puuttuvia havaintoja. Niiden lisäksi on muitakin mahdollisuuksia. Yksi tapa on jakaa aineisto ryhmiin (esimerkiksi miehiin ja naisiin) ja koodata puuttuvan arvon kohdalle havaintomatriisissa edellisen havainnon arvo. Tämä tarkoittaa, että puuttuvien arvojen tilalle koodataan useita eri arvoja, ei ainoastaan keskiarvoja. Menetelmän etu on, että se ei vähennä muuttujien hajontaa niin kuin pelkkien keskiarvojen käyttö. Myös regressioanalyysia voidaan käyttää puuttuvien havaintojen "oikeiden" arvojen löytämiseksi. Tämä menetelmä on monimutkaisempi kuin edellä esitellyt vaihtoehdot.

Puuttuvien havaintojen koodaaminen

Puuttuvien havaintojen muodostamien ongelmien ratkaisemiseen ei ole helppo antaa yleispäteviä toimintaohjeita. Jos puuttuvia havaintoja ei poisteta analyysista, ne on koodattava havaintomatriisiin siten, että niiden erityisluonne tulee selvästi esille. Samoin jos puuttuvan havainnon syy on selvillä, kannattaa eri syistä johtuvat puuttuvat havainnot koodata eri koodeilla.

Periaatteessa puuttuvan havainnon voi koodata millä koodilla tahansa. Valinta riippuu kuitenkin siitä, millainen on muuttujan arvojen alkuperäinen vaihteluväli. Puuttuvien havaintojen koodi kannattaa joka tapauksessa valita niin, että se eroaa selkeästi muuttuja saamista "oikeista" arvoista. Usein puuttuvan havainnon koodina käytetään arvoja 9, 99 tai 999 edellyttäen, että ne eivät ole muuttujan valideja arvoja. Myös nollaa käytetään usein puuttuvan tiedon arvona, mutta tällöinkin tulee kiinnittää erityistä huomiota siihen, ettei '0' ole sisällöllisesti hyväksyttävä tieto (esimerkiksi vastaaja ei ole osallistunut kertaakaan kysyttyyn toimintaan).

Ennen varsinaisen tilastoanalyysin aloittamista tulee ehdottomasti tarkistaa muuttujien puuttuvien havaintojen ja tietojen koodaus ja onko tilasto-ohjelmassa määritelty puuttuvien havaintojen koodi niin, että niitä ei oteta automaattisesti mukaan analyysiin. Jos esimerkiksi perheen lapsien määrää mittaavassa muuttujassa puuttuva havainto on koodattu arvolla 999 ja näitä havaintoja ei ole muistettu poistaa analyysista, voi perheiden keskimääräinen lapsiluku olla yllättävän suuri.

Lähteet

Hertel, Bradley R. (1976): Minimizing Error Variance Introduced by Missing Data Routines in Survey Analysis. Sociological Methods & Research 4: 459-474.


viimeksi päivitetty 2003-09-02
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD