KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Ristiintaulukointi

Ristiintaulukon muodostaminen
Ristiintaulukon merkitsevyyden testaaminen
Ristiintaulukon riippumattomuustesti
Ristiintaulukon elaboraatio

Ristiintaulukoinnilla tutkitaan muuttujien jakautumista ja niiden välisiä riippuvuuksia. Riippuvuus- tai riippumattomuustarkastelussa tutkitaan, onko tarkastelun kohteena olevan selitettävän muuttujan jakauma erilainen selittävän muuttujan eri luokissa.

Tutkimuskysymyksenä voi olla esimerkiksi se, eroavatko naiset ja miehet siinä, kuinka hyvänä tai huonona asiana he pitävät Suomen EU-jäsenyyttä. Ristiintaulukointi kertoo eroavatko nais- ja miesvastaajien vastausjakaumat toisistaan. Jos vastausskaala on dikotominen kyllä/ei, lasketaan vaihtoehtojen osuudet sukupuolimuuttujan kahdessa eri luokassa ja verrataan niiden suuruuksia. Tässä esimerkissä sekä selittävässä että selitettävässä muuttujassa on vain kaksi luokkaa, mutta niissä voisi olla myös useampia luokkia. Ristiintaulukoinnissa voidaan käyttää myös välimatka- tai suhdeasteikolla mitattuja muuttujia, mutta ne on sitä ennen uudelleenkoodattava luokitelluiksi muuttujiksi.

Ristiintaulukon muodostaminen

Seuraavassa esimerkissä tutkitaan miesten ja naisten välisiä eroja politiikasta keskustelemisen aktiivisuudessa. Esimerkkiaineistossa (aineiston kuvaus) on pyydetty vastausta seuraavaan kysymykseen: "Kun olette tekemisissä ystävienne kanssa, niin keskusteletteko heidän kanssaan poliittisista asioista usein, silloin tällöin, vai ei koskaan?" (kysymys V37). Ristiintaulukoinnin avulla pystytään vastaamaan siihen, kuinka aktiivisia naiset ja miehet ovat ja onko aktiivisuus yhtä suuri verrattaessa sukupuolia toisiinsa.

Taulukon 1 kuudessa solussa on esitetty ristiintaulukoinnin tuottamat vastaajien lukumäärät.

Taulukko 1. Aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan (absoluuttiset luvut).

  Mies Nainen
Usein 43 29
Silloin tällöin 323 298
En koskaan 108 174

Taulukko 1 osoittaa, miten vastaajat ovat jakautuneet sarake- (sukupuoli) ja rivimuuttujan (keskustelun aktiivisuus) eri vaihtoehtoihin. Esimerkiksi 43 miesvastaajaa ilmoitti keskustelevansa ystäviensä kanssa politiikasta usein. Naisvastaajissa heitä oli 29. Taulukosta on kuitenkin vaikea havaita suoraan, eroavatko sukupuolet politiikasta keskustelun aktiviteetin suhteen toisistaan. Luvuthan eivät ole suoraan vertailukelpoisia, koska nais- ja miesvastaajien määrät otoksessa eroavat toisistaan. Tämän vuoksi on syytä laskea uuteen ristiintaulukkoon prosenttijakaumat selitettävälle muuttujalle. Tämä on tehty taulukossa 2.

Taulukko 2. Aktiivisuus keskustella poliittisista asioita ystävien kanssa sukupuolen mukaan (%).

  Mies Nainen
Usein 9 6
Silloin tällöin 68 60
En koskaan 23 35
Yhteensä
(n)
chi2=18,4; vapausasteita=2;
p<0,01
100
474
100
501

Ristiintaulukoinnissa tarkastellaan siis ehdollisia jakaumia. Tämä tarkoittaa sitä, että mielenkiinnon kohteena olevan selitettävän muuttujan jakaumaa tarkastellaan selittävän muuttujan eri luokissa. Koska selitettävän muuttujan arvot jakautuvat vain harvoin tasaisesti selittävän muuttujan luokkiin, on analyysissa selkeyden vuoksi tarpeellista käyttää suhteellista jakaumaa eli laskea prosenttiosuudet.

Taulukon 2 esimerkki selventää asiaa. Myös nyt sarakkeilla ovat selittävän muuttujan (sukupuoli) luokat ja riveillä selitettävän muuttujan luokat. Taulukon prosenttijakaumat osoittavat selkeästi naisten ja miesten erot keskusteluaktiviteetissa. Naisista 35 % ei keskustele koskaan poliittisista asioista ystäviensä kanssa, kun taas miesten osalta vastaava luku on 23 %. Usein poliittisista asioista keskustelee miehistä 9 % ja naisista 6 %. Voidaan tehdä johtopäätös, että otoksen perusteella miehet puhuvat politiikasta ystäviensä kanssa useammin kuin naiset.

Ristiintaulukon alimmalla prosenttirivillä on laskettu prosenttiosuudet yhteen. Pyöristys voi joskus aiheuttaa pienen poikkeaman sadasta prosentista, mutta yleensä yhteenlaskettu prosenttiosuus ilmoitetaan silti tasalukuna (100 %). Yhteenlaskettu prosentti on syytä lisätä taulukkoon, koska se kertoo lukijalle heti mihin suuntaan taulukon prosenttijakaumat on laskettu. Lisäksi on tapana ilmoittaa absoluuttiset määrät (n), joiden perustalta prosenttiluvut on laskettu. Näin lukija pystyy arvioimaan myös tulosten luotettavuutta. Lisäksi taulukossa 2 on esitetty merkitsevyystestin tulokset. Näiden tulosten tulkinta ja niiden laskeminen käydään läpi kohta omassa osiossaan. Lisäksi taulukkojen raportointia ja ulkoasua käsitellään toisaalla tarkemmin (ks. tulosten raportointi).

Ristiintaulukoitaessa on tarkkaan mietittävä mihin suuntaan prosenttijakaumat tulee laskea. Tämän ratkaisee tutkimusongelma. Jos taulukossa 2 prosentit olisikin laskettu vaakasuoraan, tulokset eivät olisi vastanneet esitettyyn kysymykseen siitä, eroavatko miehet ja naiset keskusteluaktiviteettinsa suhteen. Prosentit olisivat kertoneet esimerkiksi "usein" keskustelevan ryhmän sukupuolirakenteen eli sen, kuinka suuri osuus heistä on miehiä tai naisia.

Jos otoksessa olisi ollut jostakin syystä huomattavasti enemmän naisia kuin miehiä, olisi naisten prosenttiosuus ollut luultavasti kaikissa keskusteluaktiviteetin ryhmissä suurempi kuin miesten prosenttiosuus. Tämä tulos ei kuitenkaan olisi kertonut mitään siitä, ovatko naiset enemmän tai vähemmän aktiivisia keskustelemaan politiikasta ystäviensä kanssa kun heitä verrataan miehiin.

Selittävän ja selitettävän muuttujan sijainnille ristiintaulukoinnissa ei ole olemassa yhtä yleispätevää sääntöä. Jos ristiintaulukkoon sisältyy selkeä kausaalinen asetelma, on tavanomaista asettaa selittävä muuttuja taulukon yläreunaan eli sarakkeille ja selitettävä muuttuja taulukon sivulle eri riveille. Tällöin prosentit lasketaan sarakkeiden sisällä siten, että yhteenlasketut prosenttiluvut ja lukumäärät sijoittuvat taulukon alalaitaan. Joskus selittävässä muuttujassa voi kuitenkin olla niin monta luokkaa, että käytännön syistä ne kannattaa sijoittaa riveille ja selitettävän muuttujan luokat sarakkeille. Tässä tapauksessa prosenttijakauma on tietenkin laskettava riveittäin.

Erityistapauksissa voi olla tarpeellista laskea prosenttiosuudet koko aineistosta, eikä ainoastaan selittävän muuttujan luokkien sisällä. Tutkija voi esimerkiksi haluta tietää, kuinka suuri osuus koko aineistossa on tietyn ikäisiä naisia. Tämän tuloksen hän saa ristiintaulukoimalla iän sukupuolen mukaan ja laskemalla solujen lukumäärien prosenttiosuudet kaikkien havaintoyksikköjen määrästä.

Ristiintaulukon merkitsevyyden testaus

Kuten tilastollisen päättelyn osiossa todetaan, otoksiin perustuvissa tutkimuksissa mielenkiinnon kohteena on se, voidaanko otoksessa havaittujen erojen pätevän myös perusjoukossa (eli tässä esimerkissä kaikki täysi-ikäiset suomalaiset). Taulukon 2 prosenttiluvut osoittavat miesten ja naisten erot otoksessa, mutta tärkeä kysymys on, voidaanko näistä tuloksista päätellä tarpeeksi varmasti, että sukupuolten välinen ero säilyy myös tarkasteltaessa koko perusjoukkoa. Tällaiset kysymykset kuuluvat tilastollisen päättelyn alaan. Ristiintaulukoille soveltuva tilastollisen merkitsevyyden testausmenetelmä on ns. chi2-testi ("khii-toiseen testi"; chi2-merkki on yksi kreikkalaisista aakkosista).

chi2-testi on ns. riippumattomuustesti. Sen lähtökohtaisena oletuksena eli nollahypoteesina on muuttujien välinen riippumattomuus. Esimerkissämme tämä edellyttää, että miehet ja naiset eivät eroa keskusteluaktiviteetissaan toisistaan. Toisin sanoen sukupuoli ja politiikasta keskusteleminen olisivat siis toisistaan riippumattomia muuttujia.

Testin perustana on havaittujen frekvenssien ja odotettujen frekvenssien erotusten suuruus. Odotetuilla frekvensseillä tarkoitetaan sitä havaintojen jakaumaa, joka syntyisi, jos miehet ja naiset keskustelisivat politiikasta yhtä aktiivisesti. Esimerkiksi taulukossa 2 tämä tarkoittaisi sitä, että miesten ja naisten kohdalla prosenttiluvut olisivat täysin samat.

chi2-testissä tarkastellaan sitä, kuinka paljon havaitut ja odotetut frekvenssit eroavat toisistaan. Jos erot ovat tarpeeksi suuria, voidaan todeta, että havaitut erot eivät todennäköisesti johdu ainoastaan sattumasta, vaan ne ovat löydettävissä myös perusjoukossa.

Käytännössä testin tulokset tiivistyvät p-lukuun. Se kertoo virhepäätelmän todennäköisyyden silloin kun oletetaan, että otoksessa havaitut erot löytyvät myös perusjoukosta. P:n arvon ollessa alle 0,05 todetaan, että erot ovat tilastollisesti merkitseviä. Taulukossa 2 chi2-testin tulos on p<0,01 eli päätelmänä on, että suomalaiset naiset ja miehet eroavat toisistaan tavoissaan keskustella politiikasta ystäviensä kanssa (miehet keskustelevat enemmän). Tämä päätelmä voi olla virheellinen, mutta virheen todennäköisyys on alle yhden prosentin (eli p<0,01). Jos testin osoittama p:n arvo olisi ollut suurempi kuin 0,05, olisi päätelmä ollut, että miehet ja naiset eivät eroa tilastollisesti merkitsevästi toisistaan sen suhteen, kuinka usein he keskustelevat politiikasta ystäviensä kanssa.

chi2-testin periaatteet ja laskutapa on esitelty tarkemmin omassa luvussaan.

Ristiintaulukon tilastollisen merkitsevyyden testaamisessa kannattaa huomioida, että testaus ei kerro mitään ristiintaulukon sisältämien erojen sisällöllisestä merkitsevyydestä. Testi kertoo vain kuinka todennäköistä on, että otoksessa havaitut erot ovat olemassa myös perusjoukossa. Jos otoskoko on hyvin suuri, on todennäköistä, että pienikin riippuvuus muuttujien välillä antaa tilastollisesti merkitsevän chi2-testituloksen. Siksi on tärkeää muistaa, että tilastollisen merkitsevyyden lisäksi täytyy aina pohtia myös erovaisuuksien suuruuden sisällöllistä merkitystä. Vastuu johtopäätöksistä on loppujen lopuksi aina tutkijalla.

Ristiintaulukon elaboraatio

Elaboraatiolla tarkoitetaan prosessia, jossa jo löytynyttä kausaalisuhdetta yritetään tarkentaa tuomalla analyysiin mukaan asiaan vaikuttavia lisätekijöitä. Seuraavassa esimerkissä tarkastellaan ristiintaulukoinnin avulla sitä, miten löytynyt yhteys sukupuolen ja keskusteluaktiviteetin välillä muuttuu, jos sitä tarkastellaan eri ikäryhmissä.

Kuten taulukko 2 osoitti, miehillä ja naisilla vaikuttaisi olevan eroavaisuuksia heidän aktiivisuudessaan keskustella poliittisista asioista ystäviensä kanssa. Seuraavassa esimerkissä tarkastellaan, miten näkemys sukupuolien välisestä erosta muuttuu, jos asiaa tarkastellaan eri ikäryhmissä. Tätä varten aineiston ikämuuttuja on luokiteltu kolmeen eri luokkaan (alle 35 vuotta, 35-59 vuotta ja 60 vuotta täyttäneet; ks. uusien muuttujien luominen). Ristiintaulukointi tehdään nyt kaikille kolmelle ryhmälle erikseen. Tulokset ovat taulukossa 3.

Taulukko 3. Aktiivisuus keskustella poliittisista asioista ystävien kanssa sukupuolen mukaan ikäryhmittäin (%).

  Alle 35 v. 35-59 v. 60 v. täyttäneet
  Mies Nainen Mies Nainen Mies Nainen
Usein 4 2 10 8 17 9
Silloin tällöin 64 58 71 62 72 59
En koskaan 33 40 19 31 11 32
Yhteensä
N
100
183
100
184
100
194
100
199
100
96
100
118
  chi2=2,8; vapausast.=2; p=0,24 chi2=7,8; vapausast.=2; p=0,02 chi2=14,4; vapausast.=2; p<0,01

Aiemmin havaittu näkemys sukupuolen ja poliittisen keskusteluaktiviteetin välisestä suhteesta tarkentuu, kun sitä tarkastellaan vastaajien ikäryhmän suhteen. Nuorimmat naiset keskustelevat politiikasta ystävien kesken kaikkien vähiten. Lisäksi taulukoiden merkitsevyystestien tulkinta tarkentaa kuvaa sukupuolien välisestä erosta. Alle 35-vuotiaiden osalta chi2-riippumattomuustestin p-arvo on selkeästi 0,05 suurempi. Tämä tarkoittaa, että näiden tulosten nojalla ei voida sanoa, että tässä ikäryhmässä miesten ja naisten keskusteluaktiivisuus politiikasta olisi erilainen. Yleispäätelmänä voisi olla, että nuorimmassa ikäryhmässä naiset keskustelevat politiikasta ystäviensä kanssa yhtä usein kuin miehet, mutta tätä vanhemmissa ikäryhmissä miehet ovat aktiivisempia politiikasta keskustelijoita kuin naiset.

Elaborointia voi suorittaa ristiintaulukoimalla monia muuttujia keskenään. Tällöin tulee kuitenkin kiinnittää huomiota siihen, että tarkasteltavissa osaryhmissä havaintoyksikköjen määrä ei laske niin pieneksi, että se estää pätevien yleistysten tekemisen. Lisäksi kannattaa ottaa huomioon, että monimutkaisista taulukoista tulee hyvin nopeasti hankalasti hahmotettavia. Käytännössä ristiintaulukointi sopii erityisesti kahden tai enintään kolmen yksittäisen muuttujan välisten yhteyksien tarkasteluun. Jos selittäviä muuttujia on useita ja niissä on kaikissa useita luokkia, on syytä harkita muiden välineiden, kuten monimuuttujamenetelmien käyttöä. Käyttämässämme esimerkissä voitaisiin harkita ns. loglineaarisien-mallien käyttöä.


viimeksi päivitetty 2004-06-05
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD