KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Logistinen regressio

Logistisen regressiomallin idea
Esimerkki logistisesta regressioanalyysista
Multinomiaalinen logistinen regressio

Logistinen regressioanalyysi on tavanomaisen regressioanalyysin erityistyyppi. Sitä käytetään silloin, kun selitettävä muuttuja voi saada vain kaksi arvoa. Voidaan esimerkiksi pyrkiä selittämään sitä, miten eri tekijät vaikuttavat siihen, onko vastaaja naimisissa vai ei.

Tavallisessa regressioanalyysissa selitettävän muuttujan arvot voivat vaihdella paljonkin. Regressioanalyysi ei kuitenkaan ole käyttökelpoinen silloin, kun selitettävän muuttujan arvot rajoittuvat vain kahteen vaihtoehtoon. Logistinen regressioanalyysi ei pyri ennustamaan määriä, vaan todennäköisyyksiä. Kyse on siis siitä, millä todennäköisyydellä tarkasteltavana oleva asia tapahtuu tai pätee. Tulokset kertovat, vaikuttavatko selittävät muuttujat tapahtuman todennäköisyyteen ja kuinka suuri vaikutus on. Esimerkiksi äänestämistutkimuksen tulokset voivat kertoa, että naisilla on suurempi todennäköisyys äänestää kuin miehillä tai että iän kasvaessa osallistumistodennäköisyys kasvaa.

Logistisen regressiomallin idea

Logistisessa regressioanalyysissa selitettävä muuttuja täytyy koodata niin, että se voi saada ainoastaan arvon yksi tai nolla. Oletetaan, että tutkimuksessa on tarkoitus selvittää, mitkä tekijät vaikuttavat ihmisten äänestysaktiivisuuteen. Selitettävä muuttuja mittaa sitä, äänestikö vastaaja viime vaaleissa. Se saa arvon nolla, jos vastaaja ei äänestänyt (eli Y=0) ja arvon yksi jos hän äänesti (Y=1).

Logistisen regressioanalyysin ymmärtämiseksi täytyy tietää, mitä riskillä (odds) tarkoitetaan. Oletetaan, että äänestystutkimuksen otoksessa naisista 70 % ja miehistä 60 % ilmoitti äänestäneensä viime vaaleissa. Näiden lukujen avulla voidaan naisille ja miehille laskea äänestämisen riski. Riskilukuja käytetään yleisesti esimerkiksi kuvattaessa vedonlyönnin voittosuhteita. Riski saadaan suhteuttamalla tapahtuman todennäköisyys siihen todennäköisyyteen, että se ei tapahdu. Esimerkiksi yksittäisen naisen kohdalla äänestämisen todennäköisyys on 0,70 ja vastaavasti todennäköisyys, että hän ei käy äänestämässä on 0,3 (=1-0,7). Näin naisten riski äänestää on 0,7/0,3=2,33. Vastaavasti miesten äänestämisriski on 1,5 (=0,6/0,4).

Riskiluku voi saada arvoja nollan ja äärettömän välillä. Tavanomainen regressioanalyysi soveltuu kuitenkin parhaiten tilanteeseen, missä selitettävän muuttujan arvoja ei ole rajattu millekään ennalta määrätylle välille. Siksi logistista regressioanalyysia varten riskistä otetaan vielä luonnollinen logaritmi. Tämä varmistaa sen, että saatu luku vaihtelee äärettömän pienien ja äärettömän suurien lukujen välillä.

Yksinkertaistettuna logistinen regressiomalli on tavallinen regressiomalli, jossa selitettävänä muuttujana on tutkittavan tapahtuman riskin logaritmi. Tämä voidaan ilmaista kaavalla seuraavasti:

Logistisen regression kaava

Kaavassa P(Y=1) on todennäköisyys sille, että selitettävä muuttuja saa arvon yksi, a on vakiotekijä, b regressiokerroin ja x selittävän muuttujan arvo. Logistisen regressiomallin kaavan lauseke a+bx on täsmälleen sama kuin normaalissa regressioanalyysissä. Siksi logistisen regressiomallin tulkinta ja siihen liittyvät ongelmat ovat lähes samat kuin regressioanalyysissa.

Tulkinnassa täytyy kuitenkin ottaa huomioon se, että logistisessa regressiomallissa selittävien ja selitettävän muuttujan suhde ei ole lineaarinen, vaan siinä oletetaan suhteen seuraavan niin sanotun s-käyrän (eli logistisen käyrän) muotoa. Kuviossa 1 on esitetty kuvitteellinen esimerkki logistisista käyristä. Esimerkissä selittävä muuttuja x-akselilla saa arvoja nollasta kymmeneen. Logistisen regressioanalyysin tulos on y-akselilla. Logistisessa regressioanalyysissa selitettävän tapahtuman todennäköisyys saa arvoja nollan ja yhden välillä.

Esimerkki logistisista käyristä

Kuvio 1. Esimerkkejä logistisesta s-käyrästä.

Jos selittävällä ja selitettävällä muuttujalla ei ole lainkaan yhteyttä toisiinsa logistisessa regressiomallissa, saa regressiokerroin b itseisarvoltaan hyvin pienen arvon. Kuten kuviosta 1 nähdään, on muuttujien yhteyttä kuvaava käyrä täysin vaakasuora silloin, kun b saa arvon nolla. Tämä osoittaa sen, että selitettävän muuttujan mittaaman tapahtuman todennäköisyys ei muutu ollenkaan selittävän muuttujan arvojen vaihdellessa. Silloin kun kerroin b saa suuren arvon, on selittävän muuttujan arvojen ja tapahtuman todennäköisyyden yhteyttä kuvaava käyrä s-kirjaimen muotoinen. Tämä tarkoittaa sitä, että jos selittävän muuttujan pieni arvo kasvaa hiukan, ei tämä muuta paljoakaan selitettävän muuttujan mittaaman tapahtuman todennäköisyyttä (väli A). Sen sijaan selittävän muuttujan saadessa arvoja vaihteluvälin keskivaiheilta pienikin muutos aiheuttaa suuren muutoksen selitettävän ilmiön tapahtumistodennäköisyydessä (väli B). Selittävän muuttujan ollessa lähellä ylärajaa muutoksilla on jälleen pienempi vaikutus (väli C).

Kun kertoimen b arvo on keskikokoinen, on sen muoto vaakasuoran ja s-käyrän välimailla. Jos kertoimen arvo on negatiivinen, laskee selitettävän muuttujan mittaaman tapahtuman todennäköisyys selittävän muuttujan arvon kasvaessa. Tällöin logistiset käyrät ovat samanmuotoisia kuin kuviossa 1, mutta ne laskevat vasemmalta oikealle.

Logistisen regressiomallin kertoimien tulkinta eroaa tavallisen regressiomallin kertoimien tulkinnasta siinä, että tavallisessa regressiomallissa yhden yksikön muutos selittävässä muuttujassa aiheuttaa aina samansuuruisen muutoksien selitettävässä muuttujassa. Sen sijaan logistisessa regressioanalyysissa selitettävän todennäköisyyden muutos riippuu b-kertoimen lisäksi selittävän muuttujan arvosta. Tämän takia logistisen regressiomallin tulosten tulkinta on aina hankalampaa kuin tavallisessa regressiomallissa.

Esimerkki logistisesta regressioanalyysista

Logistisen regressioanalyysin esimerkissä tutkitaan, mitkä tekijät vaikuttavat suomalaisten protektionismin kannatukseen. Vuoden 1996 World Values Surveyn Suomen osa-aineistossa (katso aineistokuvaus) on kysymys, jossa vastaajien piti valita kahdesta vaihtoehdosta, kumpi on heidän mielestään parempi (v133). Nämä vaihtoehdot olivat 1) "Muissa maissa valmistettuja tuotteita voidaan tuoda tänne ja myydä täällä, jos ihmiset haluavat ostaa niitä" ja 2) "Ulkomaisten tuotteiden myynnille Suomessa pitäisi olla enemmän esteitä, jotta voitaisiin suojella tämän maan ihmisten työpaikkoja". Näistä jälkimmäinen edustaa protektionistista ajattelutapaa.

Vastaajista noin 40 prosenttia valitsi ensimmäisen ja noin 60 prosenttia jälkimmäisen vaihtoehdon. Analyysia varten muuttuja on koodattu niin, että ensimmäinen vaihtoehto saa arvon nolla ja jälkimmäinen arvon yksi. Näin logistisen regressioanalyysin avulla voidaan tutkia siis, mitkä tekijät vaikuttavat vastaajien todennäköisyyteen valita protektionistinen vaihtoehto.

Analyysin selittäjinä käytetään viittä eri muuttujaa. Demografisista muuttujista mukana ovat vastaajan ikä (v216) ja sukupuoli (v214, koodattuna dummy-muuttujaksi seuraavasti: mies=0, nainen=1). Vastaajan tulotasoa mitataan 10-luokkaisella muuttujalla (v227), jossa suuret arvot tarkoittavat korkeampia tuloja. Asennemuuttujista mukana on vastaajien ylpeys suomalaisuudestaan (v205). Se on mitattu neliportaisella asteikolla, jossa pienet arvot kuvaavat suurempaa ylpeyttä. Hypoteesina on, että ne vastaajat, jotka ovat ylpeitä suomalaisuudestaan, ovat valmiimpia kannattamaan protektionismia. Lisäksi analyysissa on mukana muuttuja, joka kuvaa vastaajan sijoittumista politiikan vasemmisto-oikeisto -ulottuvuudella (v123). Se saa arvoja yhdestä kymmeneen pienten arvojen kuvastaessa sijoittumista vasemmalle. Oletuksena on, että vasemmalle identifioituvat vastaajat todennäköisemmin hyväksyvät protektionistiset ajatukset ulottuvuuden oikeaan laitaan sijoittuvat vastaajat.

Taulukko 1. Logistinen regressioanalyysi protektionismin kannatukseen vaikuttavista tekijöistä.

Muuttuja Regressiokerroin Merkitsevyys
Vakio -0.00 p=0,99
Sukupuoli (nainen=1, mies=0) 0,48** p=0,001
Ikä 0,02** p<0,001
Ylpeys suomalaisuudesta (1=suuri...4=heikko) -0,10 p=0,33
Sijoittuminen vasemmisto-oikeisto - ulottuvuudella (1-10) -0,07 p=0,11
Tuloluokka (1-10) -0,08* p=0,01

Logistisen regressioanalyysin tulokset ovat taulukossa 1. Mallin toimivuuden tarkastelu kannattaa aloittaa muuttujien merkitsevyystasojen analyysilla. Vastaajien poliittista sijoittumista ja heidän ylpeyttään suomalaisuudesta kuvaavat muuttujat eivät ole tilastollisesti merkitseviä tekijöitä protektionismin selittäjinä. Sen sijaan muut muuttujat ovat tilastollisesti merkitseviä. Ikä-muuttujan regressiokerroin on positiivinen, mikä kertoo sen, että vanhemmat ihmiset ovat valinneet protektionistisen vaihtoehdon nuorempia todennäköisemmin. Myös sukupuolimuuttuja on positiivinen eli naiset valitsevat miehiä todennäköisemmin protektionistisen vaihtoehdon. Tuloluokkamuuttuja saa negatiivisen kertoimen. Se kertoo, että suurituloisilla on pienituloisempia vähäisempi todennäköisyys kannattaa protektionistista vaihtoehtoa.

Logistisen regressiomallin ennustearvoa voidaan tarkastella katsomalla, kuinka hyvin sen avulla pystytään luokittelemaan vastaajat oikeisiin luokkiin heidän vastaustensa mukaan. Taulukon 1 regressiomalli ennustaa oikein 80 prosenttia niistä vastaajista, jotka valitsivat protektionistisen vaihtoehdon. Toisaalta malli ennustaa oikein vain 37 prosenttia niistä, jotka valitsivat vapaata kauppaa arvostavan vaihtoehdon (Regressioanalyysin yksityiskohtaista SPSS-tulostaulua voit tarkastella harjoituksessa 1). Näin mallin ennustekyky on parhaimmillaankin vain kohtalainen. Toisin sanoen taulukon 1 sisältämien muuttujien avulla ei pystytä ennustamaan kovinkaan tarkasti vastaajien kantaa protektionismiin. Samalla on huomattava, että selitettävänä muuttujana ollut protektionismimittari on hyvin karkea, ja suhtautumista olisikin kannattanut mitata laajemmalla skaalalla. Logistista regressioanalyysia onkin tarkoituksenmukaisinta käyttää silloin, kun selitettävää ilmiötä ei ole mitattu tai ei voida mitata tarkemmin kuin kaksijakoisesti.

Multinomiaalinen logistinen regressio

Multinomiaalinen logistinen regressio (multinomial logistic regression) on tavallisen logistisen regressioanalyysin laajennus, jossa selitettävä muuttuja voi saada useampia kuin pelkästään kaksi vaihtoehtoa. Kuvitellaan esimerkiksi tilanne, jossa luokitteluasteikolla mitattu selitettävä muuttuja voi saada kolme eri vaihtoehtoa: A, B ja C. Multinomiaalisessa logistisessa regressioanalyysissa tutkitaan, mitkä tekijät vaikuttavat siihen, että vastaaja on valinnut tietyn vaihtoehdon suhteessa muihin vaihtoehtoihin. Käytännössä tämä tarkoittaa sitä, että tässä esimerkkitapauksessa tuloksena saadaan kolme erilaista mallia. Yhdessä verrataan vaihtoehdon A valintaa suhteessa vaihtoehtoon B, toisessa A:n valintaa suhteessa C:hen ja kolmannessa B:n valintaa suhteessa C:hen.

Tässä yhteydessä ei käsitellä multinomiaalista logistista regressioanalyysia tarkemmin. Menetelmästä kiinnostuneen kannattaa katsoa 'Lisätietoja' -osuudesta kirjallisuusvinkkejä.


viimeksi päivitetty 2009-06-12
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD