KvantiMOTV

Ajankohtaista | MOTV-lista | Palaute

Menetelmäopetuksen tietovaranto - KvantiMOTV
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Graafinen esitys (kuviot)

Sektoridiagrammi vai pylväskuvio?
Pylväskuvio vai viivakuvio?
Korrelaatiodiagrammi vai pylväskuvio?
Laatikko-jana -kuvio

Kuviot ovat visuaalinen tapa havainnollistaa ilmiöitä. Niiden tarkoituksena on helpottaa oleellisen informaation hahmottamista. Tässä tekstissä kuviolla tarkoitetaan nimenomaan tilasto-ohjelmistolla aikaansaatavaa kuviota, ei esim. rakennekaaviota. Kuvioiden tekemisen taustalla on tietty näkökulma ja tarkasteltavat muuttujat, joiden jakaumia kuvataan, ovat luonteeltaan erilaisia. Ne asettavat kuviolle tiettyjä vaatimuksia, joiden huomioiminen lisää kuvioiden pätevyyttä. On olemassa vaara, että rutinoidutaan käyttämään yhtä kuviotyyppiä kaikissa tilanteissa. Tyypillisimpiä graafisia esitystapoja ovat pylväsdiagrammi ja viivadiagrammi. Joskus pylväsdiagrammi voitaisiin korvata sektoridiagrammilla ja joskus voisi olla informatiivisempaa käyttää laatikko-jana -esitystä tai korrelaatiodiagrammia. Analysointivaiheessa luonnollisesti tutkitaan muuttujien välisiä yhteyksiä useilla eri tavoilla, mutta julkaistavaksi valitaan kuvio, joka on luonteenomaisin ja selkein kussakin tilanteessa.

Yksiulotteisen jakauman eli yhden muuttujan arvojen jakautumisen tarkasteluun liittyy oleellisesti jakauman sijainnin ja hajonnan kuvaaminen. Kahta muuttujaa tarkasteltaessa ollaan yleensä kiinnostuneita niiden yhteisjakaumasta, ts. halutaan tietää, onko muuttujien välillä keskinäistä riippuvuutta. Tutkittavana voi olla esimerkiksi, millainen yhteys näyttäisi tuloilla olevan mielipiteeseen siitä, kuinka paljon henkilö on valmis käyttämään kunnan rahoja omaishoidon tukeen. Riippuvuutta voidaan tarkastella pylväs-, viiva- ja laatikko-jana -kuviolla sekä korrelaatiodiagrammilla.

Kahden muuttujan tilanteessa näkökulma voi olla myös se, että toinen muuttuja jakaa aineiston osa-aineistoiksi ja toisen muuttujan jakaumaa tarkastellaan näissä osa-aineistoissa. Verrataan esimerkiksi eri kuntien asukkaiden mielipiteitä: eroavatko tamperelaisten ja oululaisten asenteet suhteessa omaishoidon tukeen. Tällöin verrataan asennemuuttujien absoluuttisia tai prosenttijakaumia tai vertailua tehdään tunnusluvuilla. Mikäli käytetään pylväskuvioita, muuttujien jakauma- tai tunnuslukupylväät (esim. keskiarvopylväät) voidaan tehdä vierekkäin samaan kuvioon tai ne voivat olla erillisinä kuvioina.

Näiden kahden em. näkökulman raja ei selviä aina suoraa muuttujien perusteella, mutta tutkija voi itse valita näkökulman. On tärkeää tiedostaa tietyn näkökulman esille nostaminen myös kuviossa. Näkökulmapohdintoja voi harjoittaa esimerkkikuvioiden tilanteissa.

Pylväskuvio

Kuvio 1. Kahden muuttujan absoluuttisten jakaumien vertailun mahdollistava pylväskuvio.
(Suomalaisten luottamus eri instituutioihin.)

Keskiarvokuvio

Kuvio 2. Jopa kymmenen eri muuttujan sijainnin vertailu onnistuu keskiarvokuviolla.

Kolmea muuttujaa tarkasteltaessa voidaan myös valita kahden eri näkökulman välillä. Yhtäältä muuttujien väliset suhteet voidaan nähdä siten, että halutaan tarkastella kahden, yleensä taustamuuttujien, yhdysvaikutusta kolmanteen muuttujaan. Tässä voidaan hyödyntää ns. typologioiden muodostamista. Esimerkiksi iän ja sukupuolen ollessa taustamuuttujia ja asennemuuttujan riippuva muuttuja, saadaan selvitettyä nuorten naisten, vanhojen naisten, nuorten miesten ja vanhojen miesten välisten asenteiden eroja ja samanlaisuuksia, vaikkapa laatikko-jana -kuvioilla. Konkreettisesti typologiat saadaan muodostamalla tilasto-ohjelmassa uusi muuttuja, joka on yhdistelmä kahdesta muuttujasta: esimerkin tapauksessa tämän uuden muuttujan arvoja ovat 'nuoret naiset', 'vanhat naiset', 'nuoret miehet' ja 'vanhat miehet'. Tällöin palataan kuvioiden tekemisessä kahden muuttujan tilanteeseen.

Toisaalta voi olla tilanne, jossa yksi muuttuja jakaa tarkasteltavan aineiston ryhmiin, osa-aineistoihin, ja näissä ryhmissä vertaillaan kahden muuttujan riippuvuuksia. Verrataan esimerkiksi Tampereella ja Oulussa iän ja asenteiden välisiä riippuvuuksia. Jos riippuvuuksia halutaan verrata kahdessa tai useammassa osajoukossa, vertailuja voidaan tehdä suoraa jakaumakuvioilla tai tunnuslukukuvioilla (esim. keskiarvo tai mediaani, kvartiilit). Tällöin voidaan esimerkiksi verrata eri ryhmille (tamperelaisille ja oululaisille) tehtyjä 100 %:n pylväskuvioita toisiinsa.

Kuten kahta muuttujaa yhtä aikaa tarkasteltaessa, myös kolmen muuttujan tilanteessa, sekä osa-aineisto- että yhdysvaikutusnäkökulmasta katsottaessa, voidaan käyttää samojakin kuvioita. Myös osa-aineistotarkasteluissa voidaan käyttää mm. typologioita, esimerkiksi nuoret tamperelaiset, vanhat tamperelaiset ja nuoret oululaiset ja vanhat oululaiset. Jos halutaan korostaa osa-aineistoja, niille tehdään erilliset kuviot.

Kahden tai useamman muuttujan kuvioiden tulkintaa helpottaa, jos vaaka-akselilla on taustamuuttuja tai riippumaton muuttuja, mikäli tällainen asetelma muuttujien välillä on mahdollinen. Samoin prosenttiosuudet on syytä määritellä taustamuuttujan tai riippumattoman muuttujan ryhmissä. Näissä ryhmissä kussakin prosenttien summa on 100. Vaikka muuttujien välillä ei varsinaisesti voi määritellä, kumpi on taustamuuttuja, kysymyksen asettelu määrää, miten prosenttiosuudet lasketaan: Ollaanko kiinnostuneita ikäjakaumista sukupuolittain vai sukupuolista ikäluokittain. On myös tilanteita, joissa prosenttiosuus kokonaismäärästä on sisällöllisesti paras vaihtoehto.

Kuvion informatiivisuutta ajatellen siihen ei ole syytä laittaa liikaa tietoa - ei siis liian monta muuttujaa eikä liian useita luokkia. Julkaisuun valinnassa kannattaa erityisesti pohtia, onko kuviolla todella sille kuuluva erityismerkitys, jolla se palvelee lukijaa. Myös kuvioihin liittyvillä muotoseikoilla voidaan parantaa luettavuutta. Esimerkiksi keskenään vertailtaviksi tarkoitettujen kuvioiden asteikkojen on oltava samoja tai mahdollisimman vertailukelpoisia. On myös olemassa joitakin vakiintuneita ja hyväksi havaittuja käytäntöjä, kuten se, että kuvioiden otsikot kirjoitetaan julkaisuissa kuvioiden alapuolelle. (Ks. aiheesta luettavaa lisätiedoista.)

Seuraavassa muutamia pohdintoja erilaisiin kuvioihin liittyen sekä harvinaisemman laatikko-jana -kuvion tulkinnasta.

Sektoridiagrammi vai pylväskuvio?

Kun mietitään sektoridiagrammia ja pylväskuviota vaihtoehtoisina yksiulotteisen jakauman kuvaajina, voidaan huomioida seuraavia seikkoja. Pylväsdiagrammissa korostuu muuttujien arvojen järjestys enemmän kuin sektoridiagrammissa. Siinä on selvästi ensimmäinen ja viimeinen pylväs - olemmehan tottuneet lukemaan vasemmalta oikealle. Sektoridiagrammissa ei sen sijaan ole selvää alku- ja loppukohtaa. Pylväsdiagrammiin voidaan valita joko lukumäärät tai prosentit, mutta sektoridiagrammissa korostuvat prosenttiosuudet. Luokittelutasoiselle muuttujalle käytetään mielellään sektoridiagrammia, erityisesti silloin, kun halutaan korostaa prosenttiosuuksia: ympyrän koko ala on koko aineisto, 100 %, ja sen sektorien pinta-alat kuvaavat tarkasteltavan muuttujan arvojen jakautumista. Mikäli luokkia on kovin paljon, pylväskuvio on selkeämpi kuin sektoridiagrammi.

Sektoridiagrammi

Kuvio 3. Sektoridiagrammi soveltuu hyvin kuvaamaan sellaista muuttujaa, joka ei saa kovin paljon eri arvoja, ja arvojen järjestystä ei haluta erityisesti korostaa.

Pylväsdiagrammi

Kuvio 4. Pylväsdiagrammi soveltuu muuttujalle, joka saa useita arvoja. Se korostaa muuttujan diskreettisyyttä ja muuttujan arvojen järjestystä.

Pylväskuvio vai viivakuvio?

Mikäli halutaan kuvata kumulatiivisia eli summautuvia lukumääriä tai prosentteja, voidaan käyttää joko pylväskuviota tai viivakuviota. Pylväskuviota voidaan pitää näyttävämpänä, mutta viivoja paksuntamalla myös viivakuvioon saadaan voimaa. Muuttujan muutosta ajassa luonnehtii paremmin viivakuvio kuin pylväskuvio, sillä aika on ilmiönä jatkuva. Mittaukset, joihin kuvio perustuu, on luonnollisesti tehty tiettyinä ajanhetkinä. Jatkuvaa muuttujaa voi jatkuvuuden korostamiseksi myös kuvata yhteen liitetyillä pylväillä, joista käytetään nimitystä histogrammi. Erillisiä pylväitä käytettäessä aika ikään kuin pysähtyy tiettyinä ajanhetkinä. Kuvien tekemiseen käytettävä ohjelmisto voi kuitenkin asettaa rajoituksia esim. luokitusten tekemisessä histogrammiin.

Kumulatiivisten kuvioiden ideana on se, että vasemmalta oikealle siirryttäessä lukumäärä tai prosentti sisältää myös vasemmalla puolella olevat määrät. Voidaan esimerkiksi ilmoittaa, että enintään kaksilapsista perhettä pitää ihanteena hiukan yli puolet suomalaisista. Tällaisesta kuviosta ei ole päätarkoitus nähdä, kuinka moni ihannoi kahden lapsen perhettä, vaan nimenomaan lapsettoman, yhden lapsen ja kahden lapsen perhettä ihannoivien "kasautunut" eli yhteismäärä.

Kahden muuttujan välistä riippuvuuden tarkastelua voidaan havainnollistaa prosenttipylväillä, joko 100 %:n pylväskuvioina tai erillisistä prosenttipylväistä koostuvilla pylväiköillä. Tällöin vertaillaan toisen muuttujan luokissa toisen muuttujan prosenttijakaumia, esimerkiksi ikäluokittaisia asennejakaumia. Jakaumien vertaaminen lukumäärien avulla on hankalaa erityisesti silloin, kun ryhmittelevän muuttujan luokissa, esimerkiksi ikäluokissa on hyvin eri määrät tapauksia. Koska kahden muuttujan pylväsdiagrammissa on luettavuuden säilyttämiseksi oltava kohtuullinen määrä eri luokkia, paljon eri arvoja saavat muuttujat, esim. ikä, luokitellaan pylväsdiagrammin tekemistä varten.

Pylväskuvio

Kuvio 5. Kaksi vaihtoehtoista pylväskuviota prosenttijakaumien vertailuun.

Keskiarvo-, mediaani- ja moodipylväillä nähdään helposti jakaumien keskisijainti. Käytetyin ja kuvaavin on keskiarvokuvio. Vaikka tilastollisessa mielessä sitä ei voitaisi hyväksyä järjestystasoisille muuttujille, on kuitenkin todettava, että kuvattava ilmiö tulee yleensä paremmin esille keskiarvokuviossa kuin mediaani- tai moodikuviossa. Tästä syystä keskiarvo on yleisesti hyväksytty yhteiskuntatieteellisissä tutkimuksissa kuvaamaan järjestystasoisten muuttujien jakaumien sijaintia.

Viivakuvio ja pylväskuvioä

Kuvio 6. Samojen muuttujien keskiarvot kuvattuna viivakuviona ja pylväskuviona. Vaaka-akselilla on vastaajan syntymäaika. Lasten keskimääräistä lukumäärää on kuvattu keskiarvolla, vaikka ylimmät arvot on yhdistetty luokaksi, jota edustaa lukumäärä 8.

Pylväskuvio

Kuvio 7. Lasten keskimääräinen lukumäärä on kuvattu mediaanilla. Tätä kuviota verrattaessa edelliseen, voidaan pohtia keskiarvon ja mediaanin antaman informaation eroja.

Korrelaatiodiagrammi vai pylväskuvio?

Korrelaatiodiagrammissa näkyy kahden muuttujan arvojen yhteisjakauma. Kutakin tilastoyksikköä vastaa yksi piste. Isossa aineistossa useat pisteet menevät päällekkäin. Korrelaatiodiagrammissa tarkastellaan nimenomaan muuttujien alkuperäisiä jakaumia, jolloin esim. ikää ei luokitella. Muuttujien on oltava vähintään järjestystasoisia. Järjestystason muuttujien yhteydessä on hyvä muistaa, että mittayksikköä ei todellisuudessa ole olemassa. Näin ollen korrelaatiodiagrammissa suoraviivaiselta, lineaariselta näyttävä järjestystasoisten muuttujien välinen riippuvuus voidaan yhtä asteikkoväliä pidentämällä muuttaa käyräviivaiseksi, joka saattaakin paremmin vastata todellisuutta. Tilasto-ohjelmalla piirretyssä korrelaatiodiagrammissa kaikki asteikkovälit ovat samanpituisia, ja jos niitä muutettaisiin erimittaisiksi, muutosten täytyisi perustua muuttujan arvoihin. Joka tapauksessa korrelaatiodiagrammi antaa suuntaa muuttujien välisestä riippuvuudesta. Aina muuttujien välinen yhteys ei tule selkeästi esille, mikä saattaa johtua useista päällekkäisistä pisteistä tai riippuvuuden luonteesta. Tällöin kannattaa harkita jotakin muuta tapaa kuvata muuttujien välistä riippuvuutta. Joskus korrelaatiodiagrammi paljastaa mielenkiintoisesti muuttujien välisen riippuvuuden. Vaikka korrelaatiokertoimen arvo on likipitäen nolla, saattaa korrelaatiodiagrammista paljastua selkeä riippuvuus, joka on esimerkiksi alas- tai ylöspäin aukeavan paraabelin muotoista.

Korrelaatiodiagrammi ja 100%:n pylväskuvio

Kuvio 8. Todellisen ja ihanteellisen lasten lukumäärän riippuvuutta on kuvattu sekä korrelaatiodiagrammilla että 100 %:n pylväskuviolla. Lukijan tehtäväksi jää arvioida kuvioiden sopivuutta ja informatiivisuutta.

Laatikko-jana -kuvio

Laatikko-jana -kuvio on hyvin havainnollinen esitystapa tarkasteltaessa muuttujan jakauman sijaintia ja hajontaa. Se perustuu järjestysasteikon tasoisiin tunnuslukuihin ja sopii erityisesti silloin, kun muuttuja saa paljon eri arvoja. Esimerkiksi asenneväittämistä muodostettu summamuuttuja voi olla tällainen.

Laatikko-jana -kuvio sopii erityisesti jakaumien vertailuun. Vertailu tapahtuu toisen muuttujan ryhmissä, esim. asenteita tarkastellaan sukupuolittain. Ryhmitteleviä muuttujia voi olla kaksikin, jolloin voidaan tarkastella yhdysvaikutusta. Myös erillisten muuttujien kuvaaminen vierekkäisillä laatikko-janoilla on mahdollista. Tällöin helpottuu samaan ilmiöön liittyvien muuttujien jakaumien keskinäinen vertaaminen. Muutoksen tarkastelu esim. paneelitutkimuksissa on laatikko-jana -kuvioilla helppoa: samaa asiaa eri ajankohtina mittaavista muuttujista tehdään vierekkäiset laatikko-janat.

Kuviossa 9 tarkastellaan laatikko-jana -kuviolla naisten ja miesten ikäjakaumia. Laatikko-janat ovat lähes identtiset, mikä kertoo, että naisten ja miesten ikäjakaumissa ei ole suurta eroa. Tämän tuttuihin muuttujiin liittyvän esimerkkikuvion avulla perehdytään laatikko-jana -kuvioon.

Laatikko-jana -kuvio perustuu tunnuslukuihin, jotka jakavat tarkasteltavan ryhmän neljään yhtä suureen joukkoon. Tunnusluvut on siten minimi, alakvartiili, mediaani, yläkvartiili ja maksimi. Kuvion avulla voidaan ensin hahmottaa hajontaa minimien ja maksimien vertailulla. Yksinkertaisimmillaan laatikko-jana -kuviossa janojen päät kertovat minimin ja maksimin. Tilasto-ohjelma voi merkitä todelliset minimit ja maksimit erityismerkillä, kun arvo poikkeaa muista oleellisesti. Kuviosta näkee, että sekä miehistä että naisista nuorin on 17-vuotias, vanhin mies on 83 ja nainen 85 vuotta.

Ikäjakauman sijainnista kertoo tiivistetysti mediaani, joka on merkitty viivalla ja sijaitsee yleensä laatikon sisällä. Joskus se on sama kuin ala- tai yläkvartiili. Sekä miesten että naisten keski-ikä mediaanilla ilmoitettuna on 40 vuotta, ts. vähintään puolet miehistä ja naisista on alle 41-vuotiaita.

Alakvartiili-ikä on 28 vuotta eli vähintään 25 % miehistä on 28-vuotiaita tai nuorempia. Vastaavasti naisista on vähintään neljännes 29-vuotiaita tai nuorempia. Yläkvartiili miehillä on 52 vuotta ja naisilla 56 vuotta. Yleistäen naiset ovat siis hiukan vanhempia kuin miehet. Se näkyy myös siinä, että "keskimmäiset" 50 % eli kuvion laatikko-osuus on naisilla hiukan ylempänä ja hiukan korkeampi. Ala- ja yläkvartiilin rajoittama laatikko kertoo sekä jakauman sijainnista että hajonnasta.

Laatikko-jana -kuvio

Kuvio 9. Naisten ja miesten ikäjakaumat laatikko-jana -kuviolla esitettynä.

Laatikko-jana -kuvio

Kuvio 10. Laatikko-jana -kuvioon voidaan ottaa kaksi taustamuuttujaa, joiden muodostamissa typologioissa tarkastellaan kolmannen muuttujan jakaumaa. Tässä esimerkissä taustamuuttujiksi on valittu sukupuoli ja se, onko perheen pääasiallinen palkansaaja työssä vai työtön. Näiden muuttujien muodostamissa ryhmissä tarkastellaan luottamusta julkisen vallan instituutioihin. Kuvion perusteella näyttää siltä, että naiset, joiden perheessä pääasiallinen palkansaaja on työttömänä, eivät ole menettäneet luottamustaan, mutta miehillä tilanne on toinen.

Jos julkaistavan laatikko-jana -kuvion oletetaan olevan lukijakunnalle outo, on ensimmäisen kuvion yhteydessä syytä kirjoittaa alaviite, jossa kerrotaan kuvion tulkinnasta yleisesti.

Lähteet

Kuviot on tehty SPSS 10 -ohjelmalla käyttäen Suomen Gallupin kokoamaa World Value Survey 1996 -aineistoa.


viimeksi päivitetty 2004-09-20
 Lisäesimerkit   SPSS-harjoitukset   Lisätietoja 

Yhteiskuntatieteellinen tietoarkisto Menetelmäopetuksen tietovaranto
FSD