Regressioanalyysi - SPSS-harjoitus 2
Jos olet ensimmäistä kertaa aloittamassa SPSS-harjoitusta, on ennen varsinaisen harjoituksen tekemistä syytä tutustua opiskeluohjeisiin.
Tässä harjoituksessa käytetään Maailmanpankin -tilastoista koottua aineistoa.
Havaintoaineiston hakemisesta SPSS-ohjelmaan on erilliset ohjeet.
Tässä harjoituksessa tarkastellaan moderaatioita regressiomallissa eli standardoidaan mallin jatkuvat muuttujat ja luodaan interaktiomuuttuja ennen regressioanalyysin toteuttamista. Lisäksi harjoitellaan regressiomallin arviointia. Harjoituksessa käytetään samoja muuttujia kuin harjoituksessa 1 ja käsikirjan luvussa Moderaation tarkastelu regressioanalyysissa.
Standardointi ja interaktiotermin luominen
Regressiomallin jatkuvat muuttujat (sekä selittävät että selitettävät) yleensä standardoidaan tulosten tulkinnan helpottamiseksi ja interaktiotermin muodostamiseksi.
Standardointi onnistuu SPSS:llä valitsemalla Analyze – Descriptive Statistics – Descriptive. Valitse mallin jatkuvat muuttujat Variable(s) -laatikkoon, lisää valinta kohtaan "Save standardized values as variables" ja klikkaa OK. Standardoidut muuttujat ilmestyvät aineiston muuttujaluettelon loppuun.
Seuraavaksi luodaan interaktiotermi kaksiluokkaisesta HI-virusmuuttujasta (joka luotiin harjoituksessa 1) ja standardoidusta syntyvyysmuuttujasta. Valitaan Transform – Compute Variable ja kerrotaan dikotominen HI_virus -muuttuja standardoidulla jatkuvalla syntyvyysmuuttujalla. Klikkaamalla OK interaktiotermi lasketaan muuttujaluettelon loppuun.
Nyt regressioanalyysi voidaan ajaa standardoiduilla muuttujilla ja interaktiotermillä. Mukaan otetaan vielä dikotomisen HI-virus -muuttujan lisäksi BKTL-muuttujan kolme dummy-muuttujaa (alempi keskitaso, ylempi keskitaso ja korkea).
Statistics-valikosta voi jälleen valita Confidence intervals. Valitaan myös Collinearity diagnostics, joka lisää tuloksiin multikollineaarisuuden tarkasteluun soveltuvan toleranssin ja VIF-kertoimen.
Kun valinnat on tehty, paina Continue ja OK, jolloin regressioanalyysin tulokset tulostuvat Output-ikkunaan.
Standardoinnin jälkeen mallissa tulee tarkastella standardoimatonta (unstandardized) regressiokerrointa. Tuloksista havaitaan, että interaktiotermi on tilastollisesti merkitsevä (p-arvo = 0,02), eli moderaatio on tilastollisesti merkitsevä. Syntyvyyden kasvu yhdellä keskihajonnalla vähentää kuolleisuutta 1,18 keskihajonnalla, kun maassa on vähän HI-virustapauksia. Syntyvyys on yhteydessä matalampaan kuolleisuuteen erityisesti silloin, kun maassa esiintyy vähän HI-virustapauksia. Tämän regressioanalyysin tuloksia tulkitaan tarkemmin regressioanalyysin moderaatiota käsittelevän luvun osiossa Standardointi.
Moderaatiota voidaan havainnollistaa jakamalla aineisto moderaattorimuuttujan mukaisesti ryhmiin ja toteuttamalla regressioanalyysi erikseen näissä ryhmissä, kuten regressioanalyysin moderaatiota käsittelevässä luvussa (ks. taulukko 4). Tällöin aineisto jaetaan Split File -toiminnolla (Data - Split File) ja regressioanalyysi ajetaan uudelleen (ilman interaktiotermiä ja moderaattorimuuttujaa).
Regressiomallin arviointi
Multikollineaarisuutta voidaan tarkastella katsomalla muuttujien VIF-kertoimien arvoja. Edellisessä tulotaulukossa HI-virusmuuttujalla ja interaktiomuuttujalla on melko korkeat VIF-kertoimet, sillä moderaatiomalleissa alkuperäiset muuttujat korreloivat voimakkaasti interaktiotermin kanssa. Syntyvyyden kohdalla (VIF-kerroin = 6,83) korrelaatio muiden muuttujien välillä on myös melko korkea. Siksi voisi olla syytä selvittää tarkemmin, minkä muuttujien kanssa syntyvyys korreloi.
Regressiomallin arviointiin soveltuvia kuvioita voi luoda regressioanalyysin toteuttamisen yhteydessä Plots ja Save -valikoista. Siirrä Plots-valikossa ZRESID kenttään Y ja ZPRED kenttään X. Valitse kohdasta 'Standardized Residual Plots' Histogram. Näin luodaan regressiomallin residuaalien jakauman sirontakuvio ja histogrammi (esimerkin kuviot on luotu harjoituksessa 1 käytetyillä standardoimattomilla muuttujilla).
Klikkaa Continue ja valitse Save-valikko. Valitse sieltä Residuals-kohdasta Standardized. Tämä tallentaa aineistoon standardoidut residuaalit omana muuttujanaan, kun regressioanalyysi ajetaan.
Tästä residuaalimuuttujasta voidaan regressioanalyysin ajamisen jälkeen luoda kvantiilikuvio valitsemalla Analyze – Descriptive Statistics – QQ Plots, siirtämällä muuttuja 'Standardized Residual' Variables-kenttään ja painamalla OK.
Näillä kuvioilla voidaan arvioida muuttujien välisen yhteyden lineaarisuutta ja homoskedastisuutta (sirontakuvio) ja residuaalien normaalijakautuneisuutta (histogrammi ja kvantiilikuvio).
Sirontakuvion perusteella ei ilmene selkeää epälineaarista yhteyttä, mutta residuaalien jakauma (y-akseli) ei näytä tasaiselta eri ennustearvoilla (x-akseli). Residuaalien hajonta näyttäisi olevan isointa nollaa lähellä olevien ennustettujen arvojen kohdalla eli residuaalien jakauma on luultavasti heteroskedastinen.
Histogrammin ja kvantiilikuvion perusteella residuaalit eivät näytä noudattavan normaalijakaumaa. Histogrammissa jakauman pitäisi noudattaa jotakuinkin normaalijakauman käyrää ja kvantiilikuviossa pisteiden tulisi ryhmittyä kuvion poikki kulkevalle viivalle. Kvantiilikuviosta nähdään, että residuaalien jakauma poikkeaa normaalijakaumasta etenkin jakauman ylä- ja alakvantiileissa. Tässä tapauksessa voisi siis olla järkevää käyttää väljempiin oletuksiin perustuvia menetelmiä. (Ks. tarkemmin kuvioiden tulkinnasta luvusta Regressiomallin arviointi).