KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Korrelaatio ja riippuvuusluvut

  Korrelaatio
     Pearsonin korrelaatiokerroin
  Riippuvuusluvut
     Luokitteluasteikollisille muuttujille
        Kontingenssikerroin
        Yulen Q
        Phi kerroin
        Riski
        Cramerin V
        Lambda
        Epävarmuuskerroin
     Järjestysasteikollisille muuttujille
        Parien käsite
        Spearmanin rho
        Kendallin tau-b ja tau-c
        Goodmanin ja Kruskalin gamma
  Osittaiskorrelaatio
  Harjoituksia

Korrelaatio

Kahden muuttujan välisen riippuvuuden astetta voidaan nimittää yleisessä merkityksessä korrelaatioksi. Jos korrelaatio on voimakasta, voidaan toisen muuttujan arvoista päätellä toisen muuttujan arvot melko täsmällisesti. Jos korrelaatio on heikko, ei muuttujien välillä ole yhteisvaihtelua. Korrelaatiolla voidaan joskus viitata myös tavallisimmin käytettyyn Pearsonin tulomomenttikorrelaatioon, jota selvitetään seuraavassa. Tämä riippuvuuslukuja koskeva tietovarannon osuus esittelee erilaiset tunnusluvut hyvin tiiviisti keskittyen kuvaamaan esimerkein niiden laskentaperiaatteita.

Pearsonin korrelaatiokerroin, r

Yleisin käytetty korrelaatiota kuvaava tunnusluku on Pearsonin tulomomenttikorrelaatiokerroin (r). Se on vähintään kahden intervalliasteikollisen muuttujan keskinäisen lineaarisen riippuvuuden voimakkuutta kuvaava tilastollinen tunnusluku. Korrelaatiokerroin lasketaan kaavalla

korrelaatiokertoimen kaava

Tulomomenttikorrelaatiokertoimen arvo vaihtelee välillä -1 ... +1. Korrelaatiokertoimen ollessa 0, ei muuttujien välillä ole lineaarista riippuvuutta. Vastaavasti arvoilla (+/-) 1 muuttujien välillä on täydellinen positiivinen / negatiivinen lineaarinen riippuvuus. Täydellisen lineaarisen riippuvuuden tapauksessa muuttujien kaikki arvot sijoittuvat hajontakuviossa samalle suoralle viivalle. Yleensä muuttujien välinen korrelaatiokerroin poikkeaa nollasta. Tämä voi johtua myös sattumasta. Korrelaatiokertoimen merkitsevyystason avulla voidaan arvioida kertoimen tilastollista merkitsevyyttä. Usein raportoidaan myös Pearsonin korrelaatiokertoimen neliö (r2). Esimerkiksi jos r2 = 0.32 sanotaan, että selittävä muuttuja selittää 32 % selitettävän muuttujan varianssista.

Myös korrelaatiokertoimen käyttöön liittyy useita yleisiä tilastoanalyysin sudenkuoppia:

  • Korrelaatiokerroin ei automaattisesti anna informaatiota siitä vallitseeko, muuttujien välillä kausaalinen suhde.
  • Jos myös muut muuttujat kuin selittävä muuttuja vaikuttavat tarkasteltavaan muuttujaan, silloin kaikki yhteinen kovarianssi, jota niillä on selittävän muuttujan kanssa, luetaan ainoalle selittävälle muuttujalle.
  • Jos muuttujien välillä on epälineaarista riippuvuutta, sen määrä tulee huomattavasti aliarvioiduksi.
  • Yksittäiset poikkeavat havaintoarvot voivat vaikuttaa suuresti korrelaatiokertoimen arvoon, minkä vuoksi on suositeltavaa aina tulostaa tutkittavien muuttujien hajontakuvio.
  • Korrelaatiokerroin voi olla harhaanjohtava, esimerkiksi silloin, jos tarkasteltavat muuttujat eivät ole homoskedastisia.

 

Riippuvuusluvut

Riippuvuusluvut luokitteluasteikollisille muuttujille

Kontingenssikerroin (Contingency Coefficient)

Kontingenssikerroin C kuvaa kahden luokitteluasteikollisen muuttujan välistä riippuvuutta ja sen määrittelee kaava:

kontingenssikertoimen kaava

:n testisuureen arvon laskeminen ("khii toiseen testi") on selitetty ristiintaulukoinnin yhteydessä. Korrelaatiokertoimen arvot vaihtelevat välillä 0 ... 1. Kontingenssikertoimen tilastollista merkitsevyyttä testataan -testisuureen avulla, joka on -jakautunut vapausastein (l - 1)(m - 1), jossa l ja m ovat muuttujien luokkien lukumäärät.

Tarkastellaan sitten esimerkkiä, jossa tutkitaan kahden luokitteluasteikollisen muuttujan Y (vastaajan asuinmaakunta) ja X (vastaajan äidinkieli) riippuvuutta henkilöaineistossa. Näiden muuttujien kaksiulotteinen yhteisfrekvenssijakauma on seuraava:

  äidinkieli (X)
asuinmaakunta (Y)   suomi ruotsi
Uusimaa (a) 76 (b) 13
muu maakunta (c) 229 (d) 5

Taulukon perusteella arvoksi saadaan 19.053, joten kontingenssikertoimeksi saadaan (sijoittamalla edellä esitettyyn kaavaan):

kontingenssikerroin laskettuna

Asuinmaakunnalla ja äidinkielellä olisi siis verrattain pieni riippuvuus.

Kontingenssikertoimen käyttökelpoisuus empiirisenä riippuvuuslukuna perustuu ensisijaisesti siihen, että muuttujilta ei vaadita kuin luokitteluasteikollinen mittaustarkkuus. Myöskään jakaumaoletuksia ei ole. Kontingenssikertoimella on muutamia heikkouksia:

  • Kontingenssikerroin ei voi saada negatiivisia arvoja, joten sen avulla ei voi päätellä riippuvuuden suuntaa.
  • Kontingenssikertoimien keskinäinen vertailu ei ole mielekästä, mikäli ne perustuvat erikokoisiin taulukoihin.
  • Suurin arvo, jonka kontingenssikerroin voi saavuttaa, on aina pienempi kuin 1.
    Lisäksi taulukoille, joiden rivi- ja sarakemäärät ovat yhtä suuret, suurin arvo on sqrt((r-1)/r). Esimerkiksi taulukolle, jossa on kaksi saraketta ja riviä suurin saavutettavissa oleva kontingenssikertoimen arvo on siis sqrt((2 - 1)/2) = 0.71.
  • Kontingenssikerroin ei ole vertailukelpoinen järjestyskorrelaatiokertoimien eikä Pearsonin korrelaatiokertoimen kanssa.

Yulen Q

Käytetään kahden luokitteluasteikollisen dikotomisen muuttujan riippuvuuden tarkastelussa. Yulen Q määritellään 2x2 yhteisfrekvenssijakaumataulukon diagonaalisolujen tulojen erotuksen ja summan osamääränä. Siis:

 Yulen Q

Esimerkkitaulukon tapauksessa Q:n arvoksi saadaan:

 Yulen Q laskettuna

Phi kerroin,

Tätäkin kerrointa käytetään kahden luokitteluasteikollisen dikotomisen muuttujan riippuvuuden tarkastelussa. Jakaumaoletuksena vaaditaan, että muuttujat olisivat luonnollisesti dikotomisia. Phi -kerroin lasketaan kaavalla:

 Phi-kertoimen kaava

Esimerkkitaulukon tapauksessa Phi:n arvoksi saadaan:

 Phi-kerroin laskettuna

Tuloksesta huomataan, että tarkasteltavien muuttujien riippuvuus on suunnilleen samaa luokkaa kuin kontingenssikertoimella laskettuna. Lisäksi saadaan selville riippuvuuden suunta, joka on negatiivinen.

Riski (Relative Risk, RR)

Tämä suhdeluku sopii niin ikään kahden luokitteluasteikollisen dikotomisen muuttujan riippuvuuden tarkasteluun. Tunnusluku on yleinen terveystieteissä, mutta sopii myös sosiaalitieteiden tilanteisiin, joissa toinen muuttuja on käsittely/syy ja toinen vaikutus/seuraus. Riski ja ristitulosuhde (odds ratio) lasketaan kaavoilla:

 

 

Cramerin V

Cramerin V on suosittu -perustainen riippuvuusluku, jota käytetään kahden luokitteluasteikollisen muuttujan riippuvuuden tarkastelussa. Se lasketaan kaavalla:

Cramerin V:n kaava

V vaihtelee välillä 0 ... 1, riippumatta yhteisjakaumataulukon koosta. Koska V:n otosjakauma tunnetaan, sen keskivirhe ja merkitsevyys voidaan laskea. Esimerkkitaulukossa sen arvoksi saadaan:

 Cramerin V laskettuna

Lambda

Lambdaa käytetään kahden luokitteluasteikollisen muuttujan riippuvuuden tarkastelussa ja sen symmetrinen arvo lasketaan kaavalla:

Lambdan kaava (symmetrinen)

Lambda vaihtelee välillä 0 ... 1. Se kertoo, kuinka tarkasti voidaan ennustaa toisen muuttujan arvo, kun toisen muuttujan arvo tiedetään. Koska lambdalla on tunnettu otosjakauma, voidaan sen keskivirhe ja merkitsevyys laskea. Tilastolliset ohjelmistot, kuten esimerkiksi SPSS, laskevat asymptoottisen keskivirheen (ASE, Asymptotic Standart Error).

Esimerkkitaulukossa lambdan arvoksi saadaan:

 Lambda laskettuna

Lambdasta on myös asymmetrinen versio, jossa täytyy määritellä kumpi muuttuja on selittäjä ja kumpi selitettävä. Kaavaksi muodostuu tällöin:

Lambdan kaava (asymmetrinen)

Jos halutaan selittää asuinmaakuntaa (selitettävä) äidinkielellä (selittäjä), tulokseksi saadaan:

 Lambdan arvo laskettuna

Epävarmuuskerroin (Uncertainty, Entropy Coefficient)

Epävarmuuskerroin on lambdaa vastaava tunnusluku, joka vaihtelee välillä 0 ... 1. Sen keskivirhe ja merkitsevyys voidaan laskea. Tulkintana on, lambdaa vastaavasti, ennuste toisen muuttujan arvosta, jos tiedetään toisen muuttujan arvo. Epävarmuuskerroin on asymmetrinen riippuvuusluku. Kertoimen arvo riippuu siis siitä, kumpi muuttuja on selittävä/selitettävä. Useat tilastolliset ohjelmistot laskevat myös symmetrisen epävarmuuskertoimen, joka on keskiarvo kahdesta asymmetrisestä kertoimesta. Merkinnässä UC(R|C) rivimuuttuja (Y) on selitettävä ja sarakemuuttuja (X) selittäjä.

Epävarmuuskertoimen kaava

 

Riippuvuusluvut järjestysasteikollisille muuttujille

Tarkastellaan kahta järjestysasteikollista muuttujaa X (vastaajan koulutus) ja Y (vastaajan bruttotulot/kk) henkilöaineistossa. Näiden muuttujien kaksiulotteinen yhteisfrekvenssijakauma on seuraava:

  bruttotulot/kk (X)
koulutus (Y)   alle 1800 € 1800-2300 € yli 2300 €
perusaste (a) 33 (b) 25  (c)
väh. keskiaste (d) 54 (e) 102 (f) 56

Parien käsite

Ylläolevan taulukon perusteella voidaan määritellä:

Parin tyyppi Parien lukumäärä Symboli
 samansuuntainen  a(e+f) + b(f)  P
 vastakkaissuuntainen  c(d+e) + b(d)  Q
 sidos muuttujassa X  ad + be + cf  Xo
 sidos muuttujassa Y  a(b+c) + bc + d(e+f) + ef  Yo

Spearmanin rho,

Spearmanin on useimmin käytetty järjestyskorrelaatiokerroin vähintään järjestysasteikollisten muuttujien välillä. Kertoimen laskenta aloitetaan järjestämällä aineisto suuruusjärjestykseen toisen muuttujan suhteen. Tämän jälkeen annetaan muuttujille järjestysluvut (rank) (1, 2, ..., N) muuttujan arvojen mukaan ja lasketaan havaintopareittain järjestyslukujen erotus D . Itse kerroin saadaan tällöin kaavasta:

 Spearmanin rho:n kaava

Voidaan osoittaa, että Spearmanin on järjestysluvuista laskettu Pearsonin korrelaatiokerroin. Laskettaessa :ta edellytetään, että muuttujien järjestysluvuissa ei esiinny tasatuloksia eli sidoksia. Pieni sidosmäärä voidaan käsitellä käyttämällä tasatuloksista järjestyslukujen keskiarvoja. Esimerkkiaineistolla :n arvoksi tulee 0.345.

Kendallin tau-b ja tau-c

Kendallin tau-b on riippuvuusluku, jonka laskenta perustuu saman- ja vastakkaissuuntaisten parien erotukseen jaettuna X- ja Y-muuttujien ei sidottujen parien lukumäärien geometrisellä keskiarvolla eli:

 Kendallin tau-b

Tau-b:tä käytetään usein 2x2 jakaumataulun tilanteessa, mutta se sopii myös useampiluokkaisiin muuttujiin. Useampiluokkaisille muuttujille on kehitetty variaationa tau-c, joka lasketaan kaavalla

 Kendallin tau-c

Goodmanin ja Kruskalin gamma,

Gamma on symmetrinen riippuvuusluku, joka vaihtelee välillä -1 ... +1. Se perustuu saman- ja vastakkaissuuntaisten parien väliseen eroon, joka lasketaan kaavalla

 Goodmanin ja Kruskalin gamma

Koska gammalla on tunnettu otosjakauma, joka lähenee suurilla otoksilla normaalijakaumaa, voidaan sen keskivirhe ja merkitsevyys laskea.

Osittaiskorrelaatio

Osittaiskorrelaatio on kahden muuttujan välinen korrelaatio, kun yhden tai useamman muuttujan vaikutus on poistettu (vakioitu). Tämä voidaan tehdä myös laskemalla muuttujien korrelaatio kolmannen tekijän osajoukoissa. Esimerkiksi jäätelön kulutus ja hukkumiskuolemien määrä korreloivat voimakkaasti. Muuttujien välinen korrelaatio johtuu siitä, että molemmat korreloivat lämpötilan kanssa. Sisällöllisesti mielekäs korrelaatio saadaan laskemalla osittaiskorrelaatio jäätelön kulutuksen ja hukkumiskuolemien määrän välillä, kun lämpötilan vaikutus on poistettu. Osittaiskorrelaatiosta ei kuitenkaan näy, onko alkuperäinen kahden muuttujan yhteys samanlainen vai erilainen vakioitavan muuttujan eri arvoilla. Tulkinnan kannalta on tärkeää tietää muuttujien aikajärjestys. Osittaiskorrelaatiota merkitään usein luvulla r_xy.z niin, että vakioitava muuttuja erotetaan pisteellä alkuperäisen korrelaation muuttujista. Laskentakaava osoittaiskorrelaatiolle on:

 Osittaiskorrelaation kaava

Myös osittaiskorrelaatio kuvaa muuttujien lineaarista yhteyttä, joka vaihtelee välillä -1 ... +1. Osittaiskorrelaatio voidaan yleistää useamman muuttujan samanaikaiseen vakiointiin lisäämällä vakioitavia muuttujia ja soveltamalla kaavaa useita kertoja.

Harjoituksia

1. Kaksi professoria asettaa tutkijan virkaan hakijat seuraavaan paremmuusjärjestykseen.

hakija  | A | B | C | D | E | F | G |
-------------------------------------
prof. A | 3 | 1 | 7 | 2 | 4 | 5 | 6 |
prof. B | 1 | 3 | 2 | 4 | 7 | 6 | 5 |
-------------------------------------

Määritä Spearmanin rho. Ovatko professorien mielipiteet samansuuntaiset?

2. Laske Pearsonin korrelaatiokerroin oheisesta aineistosta. Jos aineistoon lisätään havainto (20,100), niin miten korrelaatiokerroin muuttuu?

ikä vuosina:
 5   8   9  10  10  11  11  12  12  13  14  14  14  15  18  18
testipistemäärä:
70 148 250 238 245 162 215 341 303 325 270 346 227 302 378 395


viimeksi päivitetty 2004-01-28
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD