KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Varianssianalyysi

Yksisuuntainen varianssianalyysi
Esimerkki yksisuuntaisesta varianssianalyysista
Varianssianalyysin laajennukset
   Kaksisuuntainen varianssianalyysi
   Kovarianssianalyysi
   Monen muuttujan varianssianalyysi

Varianssianalyysia (analysis of variance tai ANOVA) käytetään tutkittaessa eroavatko kahden tai useamman ryhmän keskiarvot tilastollisesti merkitsevästi toisistaan. Varianssianalyysilla voidaan esimerkiksi tutkia eroavatko naisten ja miesten keskipalkat toisistaan jossakin yrityksessä tai ovatko eri maahanmuuttajaryhmiin kuuluvien koululaisten todistusten arvosanat keskiarvoiltaan toisistaan poikkeavia. Varianssianalyysia on perinteisesti pidetty kokeellisen analyysin perusmenetelmänä ja sen käyttö onkin ollut yleistä esimerkiksi lääketieteessä. Sillä on kuitenkin useita sovellusmahdollisuuksia myös yhteiskuntatieteiden aloilla.

Varianssianalyysin käyttöön liittyy useita laajennusmahdollisuuksia. Tässä yhteydessä keskitytään ns. yksisuuntaiseen varianssianalyysiin, joka on vaihtoehdoista yksinkertaisin. Lopussa esitellään lyhyesti myös kaksisuuntainen varianssianalyysi, kovarianssianalyysi ja monen muuttujan varianssianalyysi (MANOVA).

Yksisuuntainen varianssianalyysi

Yksisuuntainen varianssianalyysi (one-way analysis of variance) on varianssianalyysin muodoista yksinkertaisin. Koska varianssianalyysissa tarkastellaan selitettävien muuttujien ryhmäkeskiarvoja, täytyy selitettävän muuttujan olla sellainen, että siitä on järkevää laskea aritmeettinen keskiarvo (eli käytännössä välimatka- tai suhdelukuasteikon muuttuja, ks. muuttujien mittaustaso ja keskiluvut). Yksisuuntaisessa varianssianalyysissa on vain yksi selittävä muuttuja. Koska tämä muuttuja kuvaa havaintoyksikköjen jakautumista luokkiin, on sen mittaustaso oltava joko luokittelu- tai järjestysasteikko.

Varianssianalyysin avulla tutkitaan sitä, ovatko selitettävän muuttujan keskiarvot tilastollisesti merkitsevästi erisuuruisia selittävän muuttujan eri luokissa. Analyysin lähtöoletuksena eli nollahypoteesina (ks. hypoteesien testaus) on, että kiinnostuksen kohteena olevien luokkien keskiarvot ovat yhtä suuret. Jos varianssianalyysin tuloksena nollahypoteesi voidaan hylätä, selitettävän muuttujan keskiarvojen välillä on eroja selittävän muuttujan eri luokissa.

Käytännössä varianssianalyysi perustuu siihen, että selitettävän muuttujan varianssi (ks. hajontaluvut) jaetaan kahteen osaan. Näistä ensimmäinen mittaa luokkien sisäistä hajontaa ja toinen luokkakeskiarvojen välistä hajontaa. Jos nämä kaksi varianssia eivät eroa kovinkaan paljon toisistaan, on todennäköistä, että eri luokkien saamat keskiarvot ovat peräisin samankaltaisesta jakaumasta. Tällöin niiden välillä ei ole tilastollisesti merkitsevää eroa. Jos taas nämä kaksi varianssia eroavat toisistaan tarpeeksi, nollahypoteesi voidaan hylätä. Tilastollisena testinä varianssianalyysissa käytetään ns. F-testiä, joka kertoo millä todennäköisyydellä nollahypoteesi ryhmäkeskiarvojen yhtäläisyydestä voidaan hylätä.

Esimerkki yksisuuntaisesta varianssianalyysista

Seuraavassa esimerkissä tutkitaan suomalaisten suhtautumista tuloerojen pienentämiseen tai niiden kasvattamiseen. Aineistona käytetään vuoden 1996 World Values Survey -tutkimuksen Suomen osa-aineistoa (ks. aineistonkuvaus). Kyselyssä pyydettiin vastaajia kertomaan mielipiteensä jatkumolla 1-10, jossa pienet arvot kuvastivat vastaajan halua tasata tuloeroja pienemmäksi ja suuret arvot vastaajan halua lisätä tuloeroja (kysymys V125). Asteikon ääripäitä kuvaavat tekstit olivat "tulotaso pitäisi maassamme saada tasaisemmaksi" ja "tarvitsemme suurempia tuloeroja palkitaksemme enemmän kansalaisten yritteliäisyyttä". Skaalan keskimmäiset vaihtoehdot olivat 5 ja 6, jolloin kaikkien vastaajien keskiarvo 4,16 oli tuloerojen voimakkaampaa tasaamista kannattavalla puolella.

Selittävänä muuttujana esimerkissä on vastaajien subjektiivinen luokka-asema eli tarkemmin ilmaistuna heidän oma näkemyksensä siitä, mihin yhteiskuntaluokkaan he kuuluvat (V226). Kysymyksessä annettiin vaihtoehdoksi viisi erilaista yhteiskuntaluokkaa: "yläluokka", "ylempi keskiluokka", "alempi keskiluokka", "ylempi työväenluokka" ja "alempi työväenluokka". Koska vastaajista vain neljä määritteli itsensä yläluokkaan kuuluvaksi, on seuraavassa analyysissa vaihtoehdot "yläluokka" ja "ylempi keskiluokka" yhdistetty (ks. muuttujien uudelleenkoodaus).

Varianssianalyysin tulokset on esitetty taulukossa 1. Taulukon yläosa kuvaa tuloeromuuttujan keskiarvoja selittävän muuttujan luokissa. Itsensä yläluokkaan tai ylempään keskiluokkaan kuuluvaksi määrittelevät vastaajat suhtautuvat tuloerojen kasvattamiseen suopeimmin (keskiarvo 5,33). Eniten tuloerojen pienentämisen kannalla ovat alempaan työväenluokkaan kuuluvat vastaajat (keskiarvo 3,26).

Taulukko 1. Eri yhteiskuntaluokkiin itsensä sijoittaneiden vastaajien suhtautuminen tuloeroihin. Varianssianalyysin tulokset.

Vastaajan yhteiskuntaluokka Suhtautuminen tuloeroihin
(ryhmäkeskiarvo)
Yläluokka tai ylempi keskiluokka 5,33
Alempi keskiluokka 4,19
Ylempi työväenluokka 3,96
Alempi työväenluokka 3,26
   
F-testi 122,6
p-arvo p<0,001
eta2 0,08

Taulukon alaosan F-testiluku ja siihen liittyvä p-arvo kuvaavat ryhmien välisten erojen tilastollista merkitsevyyttä. Koska p-arvo on selvästi pienempi kuin yleisesti raja-arvona pidetty 0,05, voidaan nollahypoteesi ryhmäkeskiarvojen samansuuruisuudesta hylätä. Toisin sanoen eri yhteiskuntaluokkiin subjektiivisesti kuuluvien välillä on eroja suhtautumisessa tuloeroihin. Korkeimpiin yhteiskuntaluokkiin itsensä sijoittavat suomalaiset ovat valmiimpia hyväksymään suuret tuloerot ja yritteliäisyyden palkitsemisen kuin alempiin yhteiskuntaluokkiin kuuluvat.

Taulukon 1 alalaidassa esitetty ns. etan neliö kuvaa sitä, kuinka paljon selitettävän muuttuja vaihtelusta pystytään selittämään selittävän muuttujan avulla. Eta2 on tunnuslukuna verrattavissa regressioanalyysin yhteydessä käytettävään R2-lukuun. Se voi saada arvoja nollan ja yhden väliltä ja suuret arvot kuvastavat selittävän muuttujan parempaa selitysvoimaa. Taulukon 1 esimerkissä eta2-luku saa arvon 0,08, joka on suhteellisen pieni luku. Luku voidaan tulkita niin, että yhteiskuntaluokkiin sijoittumista kuvaavan muuttujan avulla voidaan selittää 8 % vastaajien suhtautumisen vaihtelusta tuloerojen kasvattamiseen tai niiden pienentämiseen. Selitysosuus ja muut tulokset ovat tietenkin sidoksissa aineistoon ja siinä käytettyihin operationalisointeihin.

Varianssianalyysin laajennukset

Kaksisuuntainen varianssianalyysi

Yksisuuntainen varianssianalyysi sisältää vain yhden selittävän muuttujan. Menetelmää voidaan kuitenkin laajentaa kattamaan myös useampia luokittelu- tai järjestysasteikon selittäviä muuttujia. Kaksisuuntaisessa varianssianalyysissa (two-way analysis of variance) selittäviä muuttujia on kaksi. Tällöin voidaan tutkia sitä, vaikuttavatko molemmat selittävät muuttujat selitettävän muuttujan arvoihin yksittäin sekä onko niillä yhteisvaikutusta (eli interaktiovaikutusta).

Kaksisuuntaisessa varianssianalyysissa voisi esimerkkitutkimusongelmana olla, vaikuttaako sukupuoli ja koulutus keskimääräiseen palkkatasoon tutkimuksen kohdeyrityksessä. Tulokset kertovat, onko näillä kahdella selittävällä muuttujalla tilastollisesti merkitsevää vaikutusta palkkatasoon sekä sen, onko sukupuolella ja koulutuksella yhteisvaikutusta. Tässä esimerkissä yhteisvaikutus voi tarkoittaa esimerkiksi sitä, että yliopistotutkinnon suorittaneiden naisten keskimääräinen palkkataso on selvästi huonompi kuin saman koulutustason miesten keskipalkka, mutta muissa koulutusluokissa tällaista sukupuolten välistä eroa ei ole.

Periaatteessa varianssianalyysissa voidaan käyttää useampaakin kuin kahta selittävää muuttujaa. Silloin mahdollisten yhteisvaikutusten määrä kuitenkin kasvaa suureksi, mikä tekee tulkinnan monimutkaisemmaksi.

Kovarianssianalyysi

Samoin kuin kaksiulotteisessa varianssianalyysissa myös kovarianssianalyysissa (covariance analysis) lisätään varianssianalyysiin yksi tai useampia selittäviä muuttujia. Erona on kuitenkin se, että kovarianssianalyysissa lisättävä muuttuja on mittaustasoltaan välimatka- tai suhdeasteikollinen. Varianssianalyysin yhteydessä tällaista muuttujaa kutsutaan kovariaatiksi.

Oletetaan edellisen esimerkin tapaan, että tutkija on kiinnostunut sukupuolten välisistä palkkaeroista tutkimuksen kohteena olevassa yrityksessä. Hän kuitenkin epäilee, että sukupuolen lisäksi työntekijöiden ikäerot voivat vaikuttaa keskimääräiseen palkkatasoon. Ikämuuttujan vaikutus voidaan ottaa varianssianalyysissa huomioon lisäämällä se kovariaattina analyysiin. Saadut tulokset osoittavat, vaikuttaako sukupuoli tilastollisesti merkitsevästi keskimääräiseen palkkatasoon silloin, kun miesten ja naisten keski-iän erot on otettu huomioon.

Kovarianssianalyysi lähenee menetelmänä regressioanalyysia, jossa luokittelumuuttujat voidaan sisällyttää analyysiin ns. dummy-muuttujien avulla. Erona on, että kovarianssianalyysissa (ja varianssianalyysissa yleensäkin) otetaan automaattisesti huomioon selittävien muuttujien interaktiovaikutukset, kun taas regressioanalyysissa tutkija voi erikseen lisätä analyysiin ns. interaktiomuuttujat, jotta muuttujien mahdollinen yhteisvaikutus tulisi esille.

Monen muuttujan varianssianalyysi

Monen muuttujan varianssianalyysi eli MANOVA (multivariate analysis of variance) eroaa edellisistä varianssianalyysin laajennuksista siinä, että MANOVAssa on useita selitettäviä muuttujia. MANOVAA voidaan käyttää tilanteissa, joissa selitettävät muuttujat ovat teoreettisesti ja empiirisesti toisiinsa sidoksissa. Esimerkiksi työilmapiiritutkimuksissa voitaisiin kyselyn avulla muodostaa useita toisiinsa liittyviä työpaikan ilmapiiriä kuvaavia summamuuttujia ja tutkia eroja näissä muuttujissa yhtäaikaisesti.

Yleisesti voidaan todeta, että MANOVA on melko monimutkainen menetelmä ja ehkä siksi sen sovellukset yhteiskuntatieteissä ovat jääneet verraten harvinaisiksi.


viimeksi päivitetty 2002-03-12
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD