KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 
!

KvantiMOTV on päivitetty Kvantitatiivisen tutkimuksen verkkokäsikirjaksi. Lue päivitetty artikkeli Muuttujien muunnokset.

Muuttujien muunnokset

Uusien muuttujien luominen
Muuttujien uudelleenkoodaus

Tutkimusaineiston analyysin yhteydessä tulee usein vastaan tilanne, jossa olemassa olevia muuttujia on tarpeellista jotenkin muuttaa tai niiden pohjalta on tarve luoda kokonaan uusia muuttujia. Esimerkiksi kyselyaineiston yksi muuttuja voi kuvata vastaajan syntymävuotta. Tutkimusraportissa on kuitenkin havainnollisempaa käyttää muuttujana vastaajan ikää vastaushetkellä kuin hänen syntymävuottaan. Näin syntymävuosimuuttuja on muunnettava niin, että se kuvaa vastaajan ikää (ks. harjoitus). Toinen tyypillinen esimerkki tarpeesta muuttaa alkuperäisen muuttujan koodausta on tilanne, jossa muuttujaa pitää luokitella ennen ristiintaulukointia. Tällöin ikämuuttuja (tai syntymävuosimuuttuja) on muunnettava valittuja ikäryhmiä kuvaavaksi muuttujaksi. Tällaista toimenpidettä kutsutaan muuttujan uudelleenkoodaukseksi (recode).

Uusien muuttujien luominen

Uuden muuttujan luomisessa otetaan lähtökohdaksi yksi tai useampi olemassa oleva muuttuja. Uuden muuttujan luontitavat vaihtelevat hiukan eri tilasto-ohjelmistoilla. Yleinen periaate on kuitenkin, että luotava muuttuja esitetään matemaattisen kaavan muodossa. Kaava voi sisältää erilaisia matemaattisia operaatioita, kuten yhteen-, vähennys-, kerto- tai jakolaskuja. Myös monimutkaisemmat matemaattiset operaatiot kuten logaritmin tai neliöjuuren ottaminen muuttujista ovat mahdollisia.

Oletetaan, että kunta-aineistoa käyttävä tutkija haluaa lisätä analyysiinsa kunnan asukastiheyttä kuvaavan muuttujan. Aineistossa ei kuitenkaan ole tällaista muuttujaa, mutta tutkijan onneksi siitä löytyvät kunnan väkilukua ja pinta-alaa kuvaavat muuttujat. Uusi kunnan asukastiheyttä kuvaava muuttuja voidaan luoda yksinkertaisesti suorittamalla seuraavanlainen laskuoperaatio:

TIHEYS = ASUKASLUKU / PINTA-ALA

Yllä olevassa kaavassa 'TIHEYS' on uusi kunnan asukastiheyttä kuvaava muuttuja ja se luodaan jakamalla 'ASUKASLUKU' -muuttujan arvo 'PINTA-ALA' -muuttujan arvolla.

Summamuuttujia luodessa täytyy myös ymmärtää käytännön tasolla, miten uusia muuttujia luodaan. Summamuuttuja luodaan yhdistämällä useita samaa ilmiötä eri tavoin mittaavia muuttujia. Kuten nimikin antaa ymmärtää, yleisin tapa luoda summamuuttuja on laskea sen pohjana olevat muuttujien arvot yhteen. Esimerkiksi, jos tutkija haluaa muodostaa summamuuttujan viiteen eri kysymykseen saaduista vastauksista (KYS1, KYS2, KYS3, KYS4, KYS5), tapahtuu se seuraavasti:

SUMMA = KYS1 + KYS2 + KYS3 + KYS4 + KYS5

Kaavassa 'SUMMA' on uuden summamuuttujan nimi. Tässä esimerkissä uusi summamuuttuja ei ole samalla asteikolla kuin alkuperäiset kysymykset. Joskus voi olla havainnollisempaa, että luotu summamuuttuja vaihtelisi samalla välillä kuin ne alkuperäiset osiot, josta summamuuttuja muodostettiin. Jos oletetaan, että esimerkin kysymykset KYS1-5 saavat jokainen arvoja välillä 1-5, on summamuuttujan mahdollinen vaihteluväli 5-25. Vaihtoehtoinen tapa muodostaa summamuuttuja on

SUMMA = (KYS1 + KYS2 + KYS3 + KYS4 + KYS5)/5

Näin muodostettu summamuuttuja sisältää periaatteessa saman informaation kuin aikaisempi summamuuttuja, mutta sen vaihteluväli on sama kuin alkuperäisillä kysymyksillä. Tämä helpottaa summamuuttujan arvojen tulkintaa, koska nämä arvot voi suoraan suhteuttaa alkuperäisten kysymysten vastausvaihtoehtoihin.

Kolmas esimerkki tilanteesta, jossa uuden muuttujan luominen on tarpeen, on jo edellä mainittu vastaajan syntymävuoden muunnos vastaajan vastaushetken iäksi. 1990-luvun puolenvälin kansainvälisen World Values Surveyn kyselyn Suomen osa-aineisto kerättiin vuonna 1996 (ks. aineiston kuvaus). Kyselyssä kysyttiin vastaajan syntymävuotta (muuttuja V215) tai tarkalleen ottaen syntymävuoden kahta viimeistä numeroa (oletuksena oli, että kukaan vastaajista ei ole syntynyt 1800-luvulla). Vastaajan ikä saadaan selville luomalla uusi muuttuja seuraavalla tavalla:

IKÄ = 96 - SYNTYMÄVUOSI

Jos vastaaja on ilmoittanut syntymävuodekseen vuoden 70, saa hän oheisen kaavan mukaan ikämuuttujan arvoksi 26 jne. Oheisella laskukaavalla tulee vastaajien ikään tietysti pieniä virheitä riippuen siitä, mihin vuodenaikaan kysely tehtiin. Suurimmillaankin nämä virheet ovat alle vuoden, joten niillä tuskin on suurta vaikutusta tulosten kannalta.

Lisäksi uusien muuttujien luomista tarvitaan tilanteissa, joissa alkuperäisen muuttujan jakauma on sellainen, että muuttujan käyttö sellaisenaan ei ole järkevää empiirisessä analyysissa. Tällaisessa tapauksessa muuttujalle voidaan tehdä muunnos, jonka jälkeen sen jakauma noudattaa lähemmin normaalijakaumaa. Usein käytettyjä muunnoksia tällaisessa yhteydessä ovat esimerkiksi logaritmin tai neliöjuuren ottaminen alkuperäisestä muuttujasta.

Muuttujien uudelleenkoodaus

Muuttujien uudelleenkoodaus tarkoittaa sitä, että alkuperäisen muuttujan arvot vaihdetaan uusiin arvoihin. Esimerkiksi aineistossa voi vastaajan sukupuoli olla koodattu niin, että mies saa arvon yksi ja nainen arvon kaksi. Joissain tapauksissa (esimerkiksi regressioanalyysin yhteydessä) on kuitenkin järkevää muuttaa muuttujan koodausta niin, että toinen sukupuoli saa arvon nolla ja toinen arvon yksi. Tällaista muutosta kutsutaan uudelleenkoodaukseksi.

Uudelleenkoodaus on mahdollista tehdä tilasto-ohjelmistojen avulla kahdella eri tavalla. Ensimmäinen vaihtoehto on, että alkuperäisen muuttujan koodaus muutetaan uudeksi (recode into same variable). Tällöin kuitenkin menetetään muuttujan alkuperäiset arvon. Toinen vaihtoehto on muodostaa uusi muuttuja, joka sisältää uudet muuttujan arvot (recode into different variable). Käytännössä jälkimmäinen menettely on turvallisempi, koska virheen sattuessa alkuperäinen muuttuja on vielä tallessa, ja virhe voidaan korjata.

Uudelleenkoodausta tarvitaan esimerkiksi silloin, kun halutaan muuttaa alkuperäisen muuttujan "suuntaa" (eli pieneksi arvoksi koodatut vastausvaihtoehdot halutaan muuttaa suuriksi arvoiksi ja päinvastoin). Tämä on erityisen tärkeää summamuuttujien luomisen yhteydessä. Summamuuttujaa tehtäessä täytyy kaikki käytettävät muuttujat koodata siten, että suuret muuttujan arvot kuvaavat jokaisen muuttujan osalta samansuuntaisesti mitattavaa asiaa. Muutoin summamuuttuja on virheellinen.

Joskus muuttujan 'suunta' kannattaa muuttaa jo pelkästään havainnollisuuden vuoksi. Esimerkiksi yhdessä World Values -kyselyn osassa tiedustellaan vastaajan terveydentilaa (ks. osa WVS-aineiston koodikirjasta muuttujan V11 frekvenssit). Vastaajat saavat kuvailla omaa terveyttään seuraavin vaihtoehdoin: "erittäin hyvä", "melko hyvä", "kohtalainen", "melko huono" ja "erittäin huono". Vastaukset on koodattu niin, että ne jotka pitävät terveyttään erittäin hyvänä saavat arvon 1, melko hyvänä arvon 2, kohtalaisena arvon 3, melko huonona arvon 4 ja erittäin huonona arvon 5. Muuttujaa voisi kuvata nimellä 'terveysmuuttuja',  mutta tämä nimi olisi harhaanjohtava, koska muuttujan suuret arvot kuvaavat itse asiassa huonoa terveydentilaa. Uudelleenkoodaus tekisi muuttujasta havainnollisemman. Tällöin suuret arvot kuvastaisivat hyvää terveydentilaa. Tämä tapahtuu niin, että tilasto-ohjelmiston avulla luodaan uusi 'terveys' -muuttuja, jossa alkuperäisen muuttujan arvo 1 korvataan arvolla 5, arvo 2 korvataan arvolla 4 jne.

Uudelleenkoodauksen käyttö on myös erittäin yleistä silloin, kun välimatka- tai suhdeasteikolla mitattu muuttuja (katso muuttujien mittaustaso) halutaan muuttaa luokitelluksi järjestelyasteikolliseksi muuttujaksi. Esimerkiksi luokittelematonta ikämuuttujaa ei useinkaan voi käyttää ristiintaulukoinnissa käytännön syistä. Ikämuuttuja voidaan kuitenkin uudelleenkoodauksen avulla muuntaa ikäluokkamuuttujaksi, jonka arvot kuvastavat vastaajan kuulumista tiettyyn ikäryhmään. Esimerkiksi vastaajan ikä voidaan uudelleenkoodata kolmeen luokkaan seuraavalla tavalla: kaikki alle 35-vuotiaat vastaajat saavat arvon 1, 35-59-vuotiaat saavat arvon 2 ja kaikki yli 59-vuotiaat arvon 3. Tätä uudelleenluokiteltua muuttujaa voidaan käyttää ristiintaulukoinnissa (ks. esimerkki ristiintaulukon elaboroinnista).


viimeksi päivitetty 2009-12-21
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD