KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Numerolukutaito: Tutkimuksen analyysivaihe

Tiedonkeruuvaihe
Tutkimuksen analyysivaihe
Tutkimustulosten raportointi
Lopuksi

© Marja Alastalo ja Sami Borg (viittausohje)

Tutkimuksen analyysivaihe

Kyselyaineistoihin perustuvien tutkimusten ja selvitysten analyysimenetelmät riippuvat tiedon käyttötarkoituksesta. Sekä akateemisissa että muissa survey-tutkimuksissa yleisimpiä ovat kuvailevat tilastolliset menetelmät. Näiden tulokset ovat riittävästi dokumentoituina melko helposti ymmärrettävissä ilman laajoja taustatietoja. Tyypillisimpiä tunnuslukuja ovat aineiston tapausten lukumäärät eli frekvenssit, prosenttiosuudet sekä aritmeettiset keskiarvot ja muut keskiluvut. Myös hajontaluvut ovat paljon esillä joillakin tutkimusalueilla. Havainnollisuutta lisätään kokoamalla numerotulokset taulukkoihin ja kuvioihin.

Akateemisissa tutkimuksissa ilmiöiden välisiä vaikutussuhteita ja muita tietoja pyritään jäsentämään yksityiskohtaisesti. Ristiintaulukointi soveltuu tähän tarkoitukseen hyvin edellyttäen, että muuttujien arvot tai luokittelut eivät ole monimutkaisia, ja että samanaikaisesti tarkastellaan korkeintaan muutaman tekijän keskinäisiä riippuvuussuhteita. Ristiintaulukoinnissa pitää olla tarkkana, että tulokset lasketaan ns. "oikean suuntaan" ja esitetään tarkoituksenmukaisesti. Usein selitettävä tekijä kannattaa sijoittaa rivimuuttujaksi, jolloin sen luokkien suuruutta tarkastellaan sarakkeittain selittävän muuttujan eri luokissa (vrt. MOTV:n artikkeli ristiintaulukoinnista, taulukko 2). Esitystapaa voi kuitenkin muuttaa päinvastaiseksi tulosten siitä muuttumatta: tällöin muuttujan jakautuminen on luettavissa taulukon riveiltä. Mikäli halutaan tutkia useiden selittävien tekijöiden suhteellista vaikutusta selitettävään tekijään, on turvauduttava soveltuviin monimuuttujamenetelmiin, kuten regressioanalyysiin.

Joskus tavoitteena on jäsentää ja ryhmitellä suurta joukkoa tutkimuksessa mitattuja asioita laajemmiksi kokonaisuuksiksi, joiden mukaan tutkimukseen osallistuvia on edelleen mahdollista jakaa ryhmiin. Tähän tarkoitukseen soveltuvia monimuuttujamenetelmiä ovat esimerkiksi faktori- ja ryhmittelyanalyysi.

Perustavia tunnuslukuja

Tutkimusten numerotiedot ovat erottamaton osa elämäämme, ja siksi jokaisen on hyvä olla perillä ainakin yksinkertaisista kuvailevista tilastollisista tunnusluvuista. Suuri tapausten lukumäärä (frekvenssi) ei sinänsä ole riittävä edellytys tutkimusaineistosta saadun tiedon luotettavuudelle. Tapaukset eivät ehkä edusta tasapainoisesti sitä joukkoa, josta päätelmiä halutaan tehdä. Toisaalta myöskään vähäinen tapausten lukumäärä eli pieni aineisto ei automaattisesti tarkoita, että sen osoittamat tulokset olisivat vääriä. Mikäli tutkimukseen sisältyy ajatus yleistämisestä otoksesta tai näytteestä johonkin perusjoukkoon, tärkein kysymys on, miten varmasti jokin aineistosta saatu tulos pätee myös perusjoukossa.

Asiaa voidaan havainnollistaa prosenteilla eli tapausten suhteellisilla osuuksilla siitä luvusta, josta prosentit lasketaan. Esimerkiksi sadan hengen otokseen täysi-ikäisistä suomalaisista voi sattumalta sisältyä melko oikeassa suhteessa pari kymmentä yhden suuren puolueen kannattajaa, mutta muiden puolueiden kohdalla osuudet ovat melko todennäköisesti kauempana odotetuista. Mitä suuremmaksi otosta kasvatetaan, sitä suuremmalla todennäköisyydellä aineistosta laskettavat kannattajaosuudet vastaavat oikeansuuruisia kannattajaosuuksia kaikkien täysi-ikäisten joukossa. Tietyn rajan (joidenkin tuhansien vastaajien) jälkeen otoskoon kasvattaminen ei enää lisää merkittävästi tiedon tarkkuutta.

Puoluekannatusmittauksissa usein julkistettava virhemarginaali liittyy tähän. Kyse on tietyn prosenttiluvun tilastollisesta luottamusvälistä, joka riippuu sekä otoksen että itse prosenttiluvun koosta. Useimmiten raportoitu 95 prosentin luottamusväli kertoo, että jos kerättäisiin sata toisistaan riippumatonta otosta, niin niistä 95:ssä prosenttiluku sijoittuisi luottamusvälin sisään.

Puoluekantaa mittaavan laatueroasteikollisen muuttujan tulokset on tarkoituksenmukaisinta esittää frekvenssein ja prosenttiosuuksin, sen sijaan keskiarvon laskeminen ei ole mielekästä. Sen sijaan vastaajan sijoittuminen nollasta kymmeneen ulottuvalla vasemmisto-oikeisto -asteikolla on kysymys, johon saatuja vastauksia voi kuvata mielekkäästi myös keski- ja hajontaluvuin.

Esimerkiksi vuoden 2007 eduskuntavaalien jälkeen kerätyssä kyselyaineistossa oli yhteensä 1422 vastaajaa, joista 1325 sijoitti itsensä mainitulle ulottuvuudelle. Vastaajista 97 sanoi spontaanisti käyntihaastattelussa, ettei osannut tai halunnut vastata kysymykseen. Kysymykseen saatujen validien vastauksen ns. suora jakautuma kertoo havaitut frekvenssit ja niiden suhteelliset osuudet.

Taulukko 3. Vastaajan sijoittuminen vasemmisto-/oikeisto -ulottuvuudella (0 = eniten vasemmalla ja 10 = eniten oikealla).

Sijoitus Frekvenssi Frekvenssin %-osuus
0 33 2,5
1 30 2,3
2 54 4,1
3 89 6,7
4 117 8,8
5 316 23,8
6 167 12,6
7 218 16,5
8 186 14,0
9 74 5,6
10 41 3,1
YHT 1325 100

Muuttujan arvojen vaihteluväli oli aineistossa 0-10. Asteikon keskikohta on luokkien pistearvojen summa jaettuna luokkien lukumäärällä. Keskikohta voidaan siis laskea kaavalla (0+1+2+3+4+5+6+7+8+9+10)/11, jonka vastaus on 5. Aineistosta laskettu vastausten aritmeettinen keskiarvo on 5,69. Tyypillisin arvo eli vastausten moodi on 5. Kolmas tyypillinen keskiluku on mediaani. Se on aineiston ns. keskimmäinen arvo, jonka molemmille puolille sijoittuu (suurin piirtein) yhtä paljon tapauksia. Esimerkkiaineistossamme mediaani on 6. Vasemmisto-oikeisto -muuttujan arvojen keskihajonta on 2,22.

Puuttuva tieto

Yleensä ottaen kyselyjen puuttuva tieto jakaantuu kahteen päätyyppiin, vastaaja- ja vastauskatoon. Vastaajakatoa syntyy, kun otokseen valitut henkilöt eivät osallistu lainkaan tutkimukseen. Vastauskato muodostuu puolestaan vastaamatta jättämisestä joihinkin kysymyksiin tai puuttuvaksi tiedoksi koodattavien vastausten antamisesta.

Sekä numerotietojen tuottajien että käyttäjien on otettava huomioon vastaaja- ja vastauskadon mahdolliset vaikutukset tuloksiin. Vastaajakadon osuutta tarkastellaan yleensä kootusti selvitettäessä aineiston edustavuutta suhteessa perusjoukkoon, mikäli pyritään otosaineistoilla tilastollisiin yleistyksiin. Jos jotkin vastaajaryhmät ovat selvästi aliedustettuja, heidän osuuttaan voidaan korjata painottamalla aineistoa erikseen laadittavilla painokertoimilla.

Kyselyaineistojen vastauskatoa hallitaan tavallisimmin poistamalla puuttuvan tiedon havainnot tarkastelusta. Tällöin esimerkiksi puoluekantaa osoittavassa muuttujassa laskennan ulkopuolelle jätetään vastaajat, jotka ovat eivät ole osanneet tai eivät ole halunneet kertoa puoluekantaansa. Vastaajakatoa puoluekantakysymyksessä voidaan hallita muodostamalla painomuuttuja esimerkiksi sen pohjalta, mitä puoluetta vastaaja äänesti viimeksi toimitetuissa vaaleissa.

Varsinkin vastauskadon hallintamenetelmiä on paljon ja suuri osa niistä perustuu puuttuvan tiedon korvaamiseen jollakin perustellulla, esimerkiksi saatujen vastausten keskiarvoon pohjautuvalla menetelmällä. Puuttuvan tiedon korvaaminen on tutkimuksissa oleellista etenkin silloin, kun analyysimenetelmät edellyttävät useiden muuttujien samanaikaista tarkastelua. Ellei vastauskatoon puututtaisi, tiedon puuttuminen vain yhdestä tarkasteltavasta havaintoyksiköstä pudottaisi tapauksen kokonaan pois analyysista.

Analyysivaiheen avainkysymykset

  • Mitä analyysimenetelmiä on käytetty?
  • Ovatko valitut tunnusluvut tarkoituksenmukaisia suhteessa kysymysten mittaustasoon?
  • Ovatko selitysasetelmat järkeviä ja onko tulokset laskettu "oikeaan suuntaan"?
  • Millaisiin yleistyksiin aineisto tarjoaa mahdollisuudet ja millaisia testejä yleistysten tueksi on tehty?
  • Miten aineiston mahdollinen vastaajakato vaikuttaa tuloksiin?
  • Miten vastaajakatoa on hallittu ja miten se saattaa vaikuttaa tuloksiin?

Jatkuu seuraavalle sivulle


viimeksi päivitetty 2010-11-26
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD