KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Kyselyaineiston havaintojen painottaminen

Milloin painottaa aineistoa?
Kuinka painot lasketaan
Painokertoimien käyttö

Kyselyaineiston havaintoja voi olla tarkoituksenmukaista painottaa, mikäli otoksen edustavuutta tutkiva katoanalyysi osoittaa aineistosta systemaattisia vinoutumia. Katoanalyysissa vertaillaan otoksen ja perusjoukon vastaavuutta niiden keskeisten rakennetekijöiden osalta, joista tiedot ovat saatavilla. Henkilöaineistoissa tällaisia ovat yleensä vastaajien sukupuoli, ikä, asuinpaikka-/alue sekä koulutustaso tai ammatti. Lisäksi katoanalyysiin on tarpeen ja mahdollisuuksien mukaan sisällytettävä vertailuja sellaisten tekijöiden suhteen, joilla tiedetään olevan merkittävää vaikutusta tutkittaviin aihealueisiin.

Otosaineiston sosiodemografinen poikkeavuus perusjoukosta ei silti välttämättä merkitse sitä, että tutkittavia aiheita koskevat tulokset eivät olisi yleistettävissä perusjoukkoon. Saattaa olla, että otoksessa yli- tai aliedustetut ryhmät eivät poikkea merkittävästi keskimääräisistä tuloksista kiinnostuksen kohteena olevien ilmiöiden osalta.

Usein joidenkin ryhmien ali- tai yliedustus otoksessa kuitenkin on ongelma tulosten yleistettävyydelle. Asian ratkaisemiseksi voidaan käyttää ns. jälkiositusta (post-stratification), joka on yleinen painottamistekniikka kyselytutkimuksissa. Siinä tutkimuksen muuttujia painotetaan populaation jakaumalla.

Milloin painottaa aineistoa?

Esimerkiksi suuri vastauskato, väärä otosasetelma tai puuttuvien havaintojen määrä voivat aiheuttaa kyselytutkimuksissa vinoutumia otosaineiston jakaumaan. Systemaattisten vinoutumien vuoksi otos ei enää ole satunnainen. Tällöin aineistoa voidaan painottaa, jotta otosaineisto kuvaisi paremmin otospopulaatiota. Kyselytutkimus on saatettu tehdä esimerkiksi niin, että otospopulaatio on jaettu ryhmiin ja näistä ryhmistä on valittu sama määrä haastateltaviksi. Jos tiedetään tutkittavan populaation jakauma ennalta (esim. ikä-, sukupuoli- ja ammattirakenne), on suotavaa että jo aineiston keräämisvaiheessa otetaan huomioon otospopulaation rakenne (ks. otantamenetelmät) ja valitaan haastateltavien määrät populaation rakenteen mukaisesti. Jos aineisto on jo kerätty, muuttujien jakaumavirhettä voi korjata painottamalla aineistoa niin, että se kuvaa mahdollisimman tarkasti ennakoitua jakaumaa. Aineiston painottaminen ja painojen käyttäminen analyyseissä estää tiettyjen ryhmien yli- tai aliedustukset.

Oletetaan, että suomalainen valtakunnallinen henkilöaineisto on kerätty vuonna 2000 haastattelemalla 15-64 vuotiaita miehiä ja naisia eri ikäryhmissä (15-19, 20-29, 30-49, 50-64). Jokaisen ryhmän koko on 50 henkilöä (15-19 vuotiaita miehiä on 50, 15-19 naisia on 50, ..) eli koko aineistossa on yhteensä 400 havaintoa. Aineisto ei kuvaa suomalaisen väestön oikeaa ikä- ja sukupuolirakennetta, koska ko. ikä- ja sukupuoliryhmien osuudet suomalaisessa 15-64-vuotiaassa väestössä eivät ole yhtä suuria. Suomalaisten ikä- ja sukupuolirakenne vuonna 2000 saadaan laskettua esimerkiksi Tilastokeskuksen Suomi lukuina: väestö -taulukon avulla. (Tilastokeskus tarjoaa sivuillaan uusimmat tiedot, vuoden 2000 tiedot ovat saatavilla alempana tällä sivulla harjoitustehtävien yhteydessä.)

Ikäryhmä Mies Nainen Yhteensä
15-19 4.9 % 4.7 % 9.6 %
20-29 9.3 % 8.9 % 18.3 %
30-49 22.1 % 21.4 % 43.5 %
50-64 14.2 % 14.5 % 28.7 %
Yhteensä 50.5 % 49.5 % 100.0 %

Kuinka painot lasketaan

Jos aineistoa painotetaan vain yhden muuttujan perusteella, lasketaan ensin aineistosta ko. muuttujan frekvenssijakauma. Lisäksi täytyy tietää koko aineiston havaintojen lukumäärä ja luonnollisesti myös tutkittavan populaation jakauma. Esimerkkiaineiston perusteella sukupuolijakauma on siis 50 % miehiä (n=200) ja 50 % (n=200) naisia. Tilastokeskuksen mukaan sukupuolijakauma tutkittavalle populaatiolle olisi 50.5 % miehiä ja 49.5 % naisia. Painot wi saadaan laskettua kaavalla:

 Painojen laskemisen kaava

missä N on koko tutkimusaineiston havaintojen lukumäärä
   Ki on toivottu jakauma ryhmässä i (esim. 34 %/100 = 0.34)
   ni on havaintojen lukumäärä ryhmässä i

Seuraavasta taulukosta ilmenee laskenta esimerkkitapaukselle.

Painotettava ryhmä Aineiston koko (N) Toivottu jakauma (Ki) N * Ki Havaittu jakauma (ni) Paino (wi)
Mies 400 0.505 202 200 1.01
Nainen 400 0.495 198 200 0.99

Sukupuolijakauma aineistossa on lähellä oikeaa, joten myös painokertoimet ovat lähellä arvoa 1.

Useamman muuttujan tapauksessa painotettaville ryhmille lasketaan jakaumat aineistosta ristiintaulukoinnin avulla. Esimerkiksi painotus sukupuolen ja ikäryhmien mukaan olisi seuraava:

Painotettava ryhmä Aineiston koko (N) Toivottu jakauma (Ki) N * Ki Havaittu jakauma (ni) Paino (wi)
Mies 15 - 19 400 0.049 19.6 50 0.392
Mies 20 - 34 400 0.093 37.2 50 0.744
Mies 35 - 49 400 0.221 88.4 50 1.768
Mies 50 - 64 400 0.142 56.8 50 1.136
Nainen 15 - 19 400 0.047 18.8 50 0.376
Nainen 20 - 34 400 0.089 35.6 50 0.712
Nainen 35 - 49 400 0.212 84.8 50 1.696
Nainen 50 - 64 400 0.145 58.0 50 1.160

Painokertoimien käyttö

Kuvatulla menetelmällä painokertoimet voi laskea vain sellaisille havainnoille, joissa painotettavia ryhmiä kuvaavat muuttujat eivät saa puuttuvia arvoja. Havainnot, joiden painokerroin on puuttuva, poistetaan analyyseista. Mikäli haluat kiertää tämän rajoitteen, tutustu kehittyneempiin painotusmenetelmiin lisätiedoissa mainituissa artikkeleissa.

Painokertoimia voi käyttää kaikissa aineistoon liittyvissä analyyseissä. Kun painokertoimet on laskettu painomuuttujiin käytössä olevalla tilasto-ohjelmalla, voidaan aineiston painotus ottaa käyttöön. Tämä tapahtuu eri tavalla eri tilasto-ohjelmissa. Tutustu SPSS harjoitukseen 1, jossa painokertoimet otetaan käyttöön.

Jos havainto saa lukua yksi suuremman painokertoimen (w > 1), on ryhmä, jota tämä havainto edustaa, aliedustettu aineistossa. Vastaavasti jos painokerroin on lukua yksi pienempi (w < 1), on havainnon edustama ryhmä yliedustettu.

Tarkastelussa on laskettu ns. analyysipainokertoimet, joiden summa aineistossa on havaintojen lukumäärä. Kertomalla analyysipainokerroin sopivalla luvulla (populaation koko jaettuna havaintojen lukumäärällä) saadaan ns. korottava paino. Tällöin korottavien painokertoimien summa on perusjoukon koko.

Harjoituksia

Laske ISSP 2000 aineistoon uudet painomuuttujat, joissa painot on laskettu seuraavilla Suomen vuoden 2000 väestöjakaumilla. Käytä apuna Tilastokeskuksen ikä- ja sukupuolijakaumataulukkoa sekä maakuntataulukkoa (Taulukot ovat Excel-muodossa. Jos selaimesi ei osaa avata niitä oikein, tallenna ne ensin kiintolevylle ja avaa MS Excel-yhteensopivalla taulukkolaskentaohjelmalla.)

  1. sukupuoli
  2. ikäluokka (15-19, 20-34, 35-49, 50-64, 65-74), sukupuoli
  3. ikäluokka (15-19, 20-34, 35-49, 50-64, 65-74), sukupuoli, maakunta

ISSP 2000 aineiston alkuperäiset painokertoimet (weight, weight_2) on laskettu kalibrointimenetelmällä käyttäen apuna seuraavia väestöjakaumia:

  1. sukupuoli,
  2. ikäluokka (15-19, 20-24, ..., 64-69, 70-74),
  3. kunta ja
  4. kuntatyyppi (kaupunki - maaseutu).

viimeksi päivitetty 2008-05-07
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD