Tutkittavien informointi

Tunnisteellisuus ja anonymisointi

Mitä on henkilötieto?

Henkilötietolain 3.1 § mukaisesti henkilötiedolla tarkoitetaan kaikenlaisia luonnollista henkilöä taikka hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi.

Määritelmän mukaisesti henkilötiedot tutkimusaineistoissa eivät rajaudu vain tutkittavia koskeviin tietoihin. Tutkimusaineistoihin voi sisältyä tunnistetietoja tutkittavien lähipiiristä tai muista kolmansista henkilöistä. Myös heitä koskevat tunnistetiedot ovat aina henkilötietoja.

Henkilötiedon sisältöä tai luonnetta ei ole rajattu. Kaikki luonnolliseen henkilöön liittyvät tiedot voivat olla henkilötietoja. Tiedot voivat olla väitteitä, mielipiteitä tai arvoarvostelmia. Ne voivat olla objektiivisia tai subjektiivisia. Niiltä ei edellytetä totuutta tai todennettavuutta. Tiedot voivat koskea yksityiselämää, perhe-elämää, terveydentilaa, fyysisiä ominaisuuksia, ammatillista toimintaa tai taloudellista ja sosiaalista käyttäytymistä.

Milloin tieto on tunnisteellista?

Tieto on tunnisteellista, jos sen perusteella voidaan tunnistaa yksittäinen henkilö. Tunnistaminen voidaan tehdä yhden tai useamman henkilölle tunnusomaisen fyysisen, psyykkisen, taloudellisen, kulttuurisen tai sosiaalisen tekijän perusteella.

Tietoja, jotka yksin riittävät tunnistamaan henkilön ovat henkilön koko nimi, henkilötunnus, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet (sormenjälki, kasvokuva, ääni, silmän iiris, kämmenen muoto, käsin tehty allekirjoitus). Näistä käytetään nimitystä suorat tunnisteet tai välittömät tunnisteet.

Yksittäiset tiedot, joiden avulla henkilön voi kohtuullisen helposti tunnistaa ovat esimerkiksi postiosoite, puhelinnumero, auton rekisteri, henkilön julkaiseman teoksen viitetiedot, muu kuin henkilönimenmukainen sähköpostiosoite ja henkilöstä tunnistetietoja sisältävän verkkosivuston osoite, harvinainen ammattinimike, hyvin harvinainen sairaus tai vain yhdelle kerrallaan annettu asema (esimerkiksi puheenjohtajuus yhdistyksessä). Tietoarkistossa näistä käytetään nimitystä vahvat epäsuorat tunnisteet.

Vahvoiksi epäsuoriksi tunnisteiksi luetaan Tietoarkistossa myös yksilöivät koodit, joiden avulla rajatulla henkilöiden joukolla on mahdollisuus tunnistaa henkilö yksiselitteisesti. Tällaisia ovat esimerkiksi opiskelijatunnus, vakuutusnumero, tilinumero, tietokoneen IP-osoite ja vastaavat.

Epäsuoriksi tunnisteiksi luetaan tiedot, jotka yksin eivät riitä tunnistamiseen, mutta yhdistettynä voivat mahdollistaa henkilön tunnistamisen. Esimerkiksi sukupuoli, ikä, asuinkunta ja ammattinimike voivat yhdistettynä joissain tilanteissa mahdollistaa tunnistamisen. Tavallisimpia epäsuoria tunnisteita ovat taustamuuttujat.

Henkilötietolain mukaan tunnisteelliseksi aineistoksi tulkitaan myös pseudonyymit aineistot. Sellaisia ovat esimerkiksi pitkittäistutkimusten aineistot, joissa analysoitavissa aineistoissa on havaintotunnus henkilötunnuksen sijaan ja tutkimusryhmällä on hallussa koodi, jonka avulla tunnisteeton aineisto voidaan yhdistää tutkittaviin henkilöihin.

Milloin tieto on anonyymiä?

Tieto on anonyymiä eli tunnisteetonta, jos tunnusomaiset piirteet (esimerkiksi epäsuorat tunnisteet yhdistettynä) koskevat samanlaisina useampaa henkilöä ja jos katsotaan että henkilöä ei voida tunnistaa huomioiden kohtuullisesti toteutettavissa olevat toimenpiteet. Arviointi tutkimusaineiston tunnisteellisuudesta ja keinoista muuttaa aineisto anonyymiksi tehdään aina tapauskohtaisesti.

Esimerkiksi pitkittäistutkimuksen aineisto on henkilötietolain mukaisesti tunnisteellinen niin kauan kun tutkimusryhmällä on hallussa koodiavain tutkittavien henkilötietoihin. Aineistosta ei tule myöskään anonyymiä, vaikka alkuperäinen koodiavain olisi koodattu kahteen kertaan (ns. kaksoiskoodaus). Koodaus ja kaksoiskoodaus ovat kuitenkin hyödyllisiä tietosuoja- ja tietoturvamenetelmiä, kun halutaan estää yksilöivien tunnisteiden käyttö analyyseissä. Koodaus ja kaksoiskoodaus kuuluvat esimerkiksi lääketieteen tutkimuskäytäntöihin.

Aineisto on anonyymi vasta kun siitä ei voi millään kohtuullisesti toteutettavissa olevilla keinoilla tunnistaa yksittäisiä tutkittavia. Anonyymistä aineistosta ei voi tunnistaa yksittäisiä tutkittavia esimerkiksi epäsuorien tunnisteiden avulla tai yhdistämällä aineistoon muualta saatavia tietoja. Anonyymiin aineistoon ei voi myöskään yhdistää samoja tutkittavia koskevia uusia tietoja. Anonymisoinnin tulee olla peruuttamaton, jotta voidaan puhua anonyymistä aineistosta.

Tunnisteellisten aineistojen käsittely

Henkilötietolain mukaisesti tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua.

Tutkittavien näkökulmasta tunnisteellisen aineiston käsittely muodostaa riskin, jos heitä koskevat luottamukselliset tiedot vuotavat ulkopuolisille (esimerkiksi tutkittavan lähipiirille, työnantajalle tai viranomaisille). Tämän vuoksi tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista. Tutkittavien yksityisyyden suojaa ei saa vaarantaa esimerkiksi aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla.

» Lisätietoa tietoturvasta

Henkilötunnus, nimitiedot, osoitteet ja muut tarpeettomat tunnisteet poistetaan analysoitavasta aineistosta aina kun se on mahdollista. Erillään säilytettävät tunnistetiedot tulee hävittää lopullisesti, kun niitä ei tarvita analyysien tarkistukseen ja niiden säilyttämiselle ei ole lainsäädännöllistä perustetta. Kun tutkittavien tunnistetietojen säilyttämiselle on tutkimuksellinen peruste (esimerkiksi pitkittäistutkimus), lupa tunnistetietojen säilyttämiseen tulee saada tutkittavilta tutkimussuostumuksen yhteydessä. Tutkimuksessa tarvittavat tunnisteet ja niiden säilyttämisaika tulee määrittää myös tutkimusta koskevassa rekisteriselosteessa.

» Tieteellisen tutkimuksen rekisteriseloste (Tietosuojavaltuutetun toimisto 2009, pdf-lomake)

Tietosuojan turvaamiseksi isoissa tutkimuskonsortioissa tulee suunnitella hallittu arkaluonteisten aineistojen jakaminen. Yksi mahdollisuus on toimittaa kullekin tutkimusryhmälle anonymisoitu versio, joka poikkeaa hiukan toisten tutkimusryhmien saamasta aineistoista. Alkuperäinen aineisto tunnistetietoineen kuitenkin säilyy, joten anonymisoitu versiokin on henkilötietoja sisältävää dataa. Tekniikasta on monimutkaisia matemaattisia malleja (esim. Dwork & Roth 2014). Yksinkertaisimmillaan jokaisesta ulosluovutettavasta datasta voidaan poistaa yksi havaintoyksikkö, joka valitaan satunnaisesti. Muutos voi olla myös jonkin muuttujan yksittäinen arvo, jota muutetaan. Muutoksia tehtäessä on kiinnitettävä huomiota sekä muuttujien keskiarvojen muuttumiseen että muuttujien välisiin korrelaatioihin.

Etiikka

Yksittäisen henkilön tunnistaminen laillisesti kerätystä ja käsitellystä tutkimusaineistosta ei ole vahingollista, ellei kyseistä tietoa käytetä väärin. Tunnisteellisia tutkimusaineistoja ei saa käyttää ja luovuttaa muihin kuin tutkimussuostumuksessa yksilöityihin tarkoituksiin. Erityisen tuomittavaa on ilmaista tutkimusaineistojen sisältämistä tiedoista tai luovuttaa tietoja niin, että se voisi vaikuttaa yksittäisten tutkittavien arvioimiseen, kohteluun tai asemaan.

Tutkijan tehtävä on tuottaa tieteellistä tietoa terveyden, sairauksien, sosiaalisten ongelmien ja ylipäänsä yhteiskunnan ja kulttuurin ymmärtämiseksi. Tähän tehtävään ei kuulu yksittäisten tutkittavien asioiden paljastaminen viranomaisille tai muille ulkopuolisille. Yksityisyydensuoja perusoikeutena suojaa kansalaisia myös julkisen vallan toimenpiteiltä.

Mikäli tutkija törmää ennalta aavistamattaan aineistoyksikköön (lomake, haastattelu, kirjoitus, tutkimusta varten tuotettu päiväkirja tms.), joka koskee hänen henkilökohtaisesti tuntemaansa henkilöä, tutkijan tulee itse harkita, onko eettisesti syytä jättää kyseinen aineistoyksikkö kokonaan analyysin ulkopuolelle. Kaikissa tapauksissa tutkijaa sitoo vaitiolovelvollisuus.

Toisin kuin tutkimusaineistot, tutkimusjulkaisut ovat kaikkien saatavilla. Kvantitatiivisten tutkimusten tilastot ja taulukot tulee esittää niin, etteivät ne sisällä tunnistamisen mahdollisuutta, vaikka itse aineisto olisi analysoitu tunnisteellisena.

Kvalitatiivisten aineistojen tutkimusjulkaisuissa esitettävät suorat aineisto-otteet tulee aina arvioida erikseen tunnistamisen näkökulmasta: mitä epäsuoria tunnisteita julkaistavan otteen yhteyteen jätetään, mitä karkeistetaan ja mitä jätetään kokonaan pois, jotta yksittäinen tutkittava ei ole tunnistettavissa.

Historian ja kulttuurintutkimuksessa voi olla sekä tutkimuksellisesti että eettisesti perusteltua esittää tutkimusteksteissä tutkittavat omilla nimillään. Myös asiantuntijahaastatteluihin perustuva tutkimus voidaan tehdä ja julkaista niin, että tutkittavien nimet sisältyvät myös aineiston pohjalta julkaistaviin tuloksiin. Nimitietojen sisällyttämisestä tutkimusjulkaisuihin tulee sopia tutkittavien kanssa kirjallisesti.

Anonymisoinnin lähtökohdat

Tutkimusaineiston anonymisointiin ei ole olemassa valmista kaikkiin aineistoihin soveltuvaa menettelytapaa. Tunnisteiden poisto tulee suunnitella aina aineistokohtaisesti. Suorien ja vahvojen epäsuorien tunnisteiden poistaminen riittää vain hyvin harvoin tekemään aineistosta anonyymin. Niiden poistamisen lisäksi tulee tarkastella epäsuorien tunnisteiden poiston ja muokkaamisen tarve. Lisäksi tulee varmistaa, ettei aineistosta voi tunnistaa yksittäisiä henkilöitä muualta saatavien tietojen perusteella.

Anonymisoinnissa tavallisesti ensimmäinen toimenpide on poistaa aineistosta suorat ja vahvat epäsuorat tunnisteet (ks. tunnistetaulukko). Suorat ja vahvat epäsuorat tunnisteet eivät välttämättä sisälly vain kvantitatiivisen aineiston yksittäisiin muuttujiin tai kvalitatiivisen haastattelun alussa kerrottaviin henkilötietoihin. Kvantitatiivisissa aineistoissa niitä voi sisältyä satunnaisesti myös avomuuttujiin ja kvalitatiivisen haastattelun puheessa niitä voi tulla esiin useissa eri kohdissa.

Taustamuuttujia ja epäsuoria tunnisteita ovat esimerkiksi sukupuoli, ikä, koulutus, ammattiasema, pääasiallinen toiminta/työmarkkina-asema, sosioekonominen asema, kotitalouden koostumus, tulot, siviilisääty, kieli, kansallisuus, etninen tausta, työpaikka tai koulu ja asuinaluetta koskevat muuttujat. Asuinaluetta koskevat muuttujat kuuluvat niin sanottuihin aluemuuttujiin, joita voivat olla esimerkiksi postinumero, kaupunginosa, kunta, maakunta, seutukunta ja suuralue.

Epäsuorien tunnisteiden tarkkuus ja määrä vaikuttavat anonymisointiin. Mitä enemmän niitä on ja mitä yksityiskohtaisempia ne ovat, sitä huolellisemmin anonymisointi tulee suunnitella.

Taustamuuttujia tulee aina tarkastella suhteessa toisiinsa. Jos aineistoon haluaa jättää asuinkunnan, täytyy anonymisoinnin ratkaisut toteuttaa henkilöä koskevien taustatietojen osalta (ammatti, työpaikka, koulutus, ikä jne. luokitellaan riittävän karkealle tasolle). Jos taas on sisällöllisesti tärkeää jättää aineistoon tieto tutkittavien ammatista ja iästä, tulee tutkittavia koskevat aluetiedot karkeistaa (kuntatiedon sijaan suuralue ja/tai kuntatyyppi) ja arvioida myös muiden taustatietojen muokkaustarve.

Anonymisoinnin onnistumiseksi tulee tarkastella myös aineiston sisältämiä tietoja suhteessa muualta saatavissa oleviin tietoihin. Aineisto tulee muokata niin, ettei muualta saatavilla olevien tietojen perusteella voi tunnistaa yksittäistä tutkittavaa. Epäsuorien tunnisteiden osalta tulee arvioida tunnistamisriskiä esimerkiksi verkossa avoimesti saatavien tietojen perusteella (julkiset rekisterit, organisaatioiden verkkosivustot ja vastaavat). Koska avoimesti saatavilla oleva tieto lisääntyy koko ajan, on tärkeää tarkistaa säännöllisesti, onko kertaalleen anonymisoitu aineisto edelleen anonyymi (ns. jäännösriskin arviointi).

Kvantitatiivisen aineiston anonymisointikeinoja

Muuttujan poistaminen

Muuttujan poistaminen on selkein toimenpide suorien ja vahvojen epäsuorien tunnisteiden poistamisessa. Myös epäsuoria tunnisteita sisältäviä muuttujia voi poistaa. Mikäli esimerkiksi nuorten itse ilmoittamaa rikollisuutta koskevassa kyselyssä on kysytty vastaajan koulua, saattaa se muiden taustamuuttujien kanssa mahdollistaa tunnistamisriskin. Tällöin koulumuuttuja poistetaan.

Toisinaan tunnistamisriskin välttämiseksi voi poistaa avomuuttujan. Perustelluinta se on silloin, kun vastaava tieto löytyy aineistossa luokiteltuna muuttujana. Jos aineistossa on luokiteltu koulutusmuuttuja, poistetaan avomuuttuja tarkasta koulutuspaikasta.

Jos avomuuttujan vastausten tarkka sisältö on tutkimuksellisesti tärkeä, avomuuttujan voi myös irrottaa aineistosta erilliseksi tiedostoksi ja jättää avomuuttujan taustatiedoiksi vain analyysin mahdollistavat karkeistetut muuttujat. Näin tehty osa-aineisto tulee muokata ja järjestää niin, ettei sitä voi yhdistää alkuperäiseen aineistoon, mikäli avomuuttujan sisältö sen yhteydessä muodostaa tunnistamisriskin.

Muuttujan arvojen uudelleen luokittelu

Muuttujan poistamista parempi vaihtoehto on aina muuttujan saamien arvojen uudelleen luokittelu. Esimerkiksi vastaajan ilmoittaman koulun nimen tilalle voidaan muodostaa luokat yläaste, lukio, ammattikoulu jne. Myös tarkka ikä, asuinalue ja ammatti voidaan luokitella tunnistamisen estämiseksi. Esimerkiksi syntymäaika kuukauden ja päivän tarkkuudella voidaan luokitella joko iäksi tarkkana vuosimääränä tai tarvittaessa 3–5 vuoden välein rajattuihin ikäluokkiin.

Aluemuuttujista postinumeromuuttujan voi tarvittaessa muuttaa esimerkiksi viisinumeroisesta kolme- tai kaksinumeroiseksi. Samoin kuntamuuttujan voi tarvittaessa muuttaa kahdeksi eri muuttujaksi: tilastolliseksi kuntaryhmitykseksi (kaupunkimaiset kunnat, taajaan asutut kunnat, maaseutumaiset kunnat) ja maakunnaksi tai suuralueeksi. Näin tunnistettavuusriskiä pienennetään hävittämättä silti olennaisesti tärkeää taustatietoa.

» Tilastokeskuksen alueluokitukset

Ammattimuuttuja voidaan karkeistaa ammattiluokitukseksi (Johtajat; Erityisasiantuntijat; Asiantuntijat; Toimisto- ja asiakaspalvelutyöntekijät; Palvelu- ja myyntityöntekijät; Maanviljelijät, metsätyöntekijät ym.; Rakennus-, korjaus- ja valmistustyöntekijät; Prosessi- ja kuljetustyöntekijät; Muut työntekijät; Sotilaat) tai ammattiasemaluokitukseksi (Yrittäjät; Työnantajayrittäjät; Yksinäisyrittäjät; Palkansaajat; yrittäjäperheenjäsenet; Työnantajaperheenjäsenet; yksinäisyrittäjäperheenjäsenet; Muut).

» Tilastokeskuksen henkilöluokitukset

Tunnistamisriskiä voi pienentää myös luokittelemalla pelkästään muuttujan saamat ääriarvot. Tyypillisesti tällainen muuttuja on esimerkiksi tulomuuttuja, jossa suurimpien tulojen saajille tehdään oma luokka ja muut arvot pysyvät vastaajien ilmoittamina tarkkoina euromäärinä.

Tunnisteita voi poistaa myös luokittelemalla avomuuttujien vastaukset. Yksinkertaisinta se on avokysymyksillä saatujen taustatietojen osalta (asuinpaikka, käydyt koulut, työpaikka jne.) Esimerkiksi terveydenhuollon ammattilaisille suunnatussa kyselyssä on voitu avomuuttujalla kysyä erikoistumisalaa. Muiden taustamuuttujien perusteella useammalle alalle erikoistuneet lääkärit on mahdollista tunnistaa. Yksi ratkaisu on koodata kyseinen avomuuttuja ja tehdä yksi luokka nimellä 'kaksi tai useampi erikoistumisalaa'.

Toisinaan avomuuttujan tekstiarvot voi muuttaa dikotomiseksi muuttujaksi (vastattu – ei vastattu), jos tekstivastaukset voisivat johtaa muiden taustamuuttujien kanssa tunnistamisriskiin. Tällaisia ovat esimerkiksi lomakekysymykset, joiden vastauksista osa on luokiteltuja ja luokkiin kuulumattomille on muodostettu avomuuttuja "Muu, mikä?". Jos kysytään esimerkiksi tutkittavan äidinkieltä (suomi; ruotsi; muu mikä?) tai uskontokuntaa (evankelis-luterilainen; ortodoksinen; muu mikä?), avomuuttujan saamat tekstivastaukset voivat muiden taustamuuttujien kanssa muodostaa tunnistamisriskin. Tällöin poistetaan avomuuttujan saamat tekstivastaukset ja aineistoon jätetään vain tieto siitä, onko tähän vastattu vai ei.

Tavoitteena uudelleenluokittelussa on, että muuttujan jokaisessa luokassa on useampi havaintoyksikkö (K kappaletta) (El Emam & Dankar 2008). K:n on oltava vähintään 3, mutta 5–10 on varmempi anonymisoinnissa. Vielä pidemmälle vietynä tavoitteena on, että jokaisessa muuttujan A luokassa, toisessa arkaluonteisessa muuttujassa on vähintään L kpl erilaisia arvoja (Machanavajjhala Ashwin, Kifer et al. 2007). Siis jos esimerkiksi kaikilla klinikalla F käyvillä on diabetes, voisi päätellä, että henkilöllä, joka käy klinikassa F, on diabetes. Mutta jos klinikan F asiakkaissa on sekä diabeetikoita että terveitä, klinikkakäynnin perusteella ei voi päätellä onko henkilöllä diabetes vai ei.

Muuttujan arvojen harkinnanvarainen luokittelu

Muuttujien luokittelu tai karkeistaminen voi vähentää merkittävästikin tilastollisten päätelmien teon mahdollisuutta. Harkinnanvaraisesti toteutettu arvojen yhdistäminen voi olla hyvä keino tasapainoilla tunnistamisen ja tilastollisen hyödynnettävyyden välillä. Jos muuttujan jakauma on välillä 1–20 ja suurin osa havainnoista on välillä 1–12, hyvä vaihtoehto voi olla jättää alle 10 arvot sikseen ja yhdistää isommat arvot luokkiin esim. 13–15, 16–20. Huomiota on kiinnitettävä sekä muuttujan keskiarvon muuttumiseen että muuttujien väliseen korrelaatioon luokittelun yhteydessä.

Tunnisteiden poistaminen avointen kysymysten vastauksista

Avoimet kysymykset, joihin vastaajat voivat omin sanoin kirjoittaa vastauksensa, sisältävät toisinaan tunnisteita. Ne voivat koskea joko vastaajia itseään tai kolmansia henkilöitä. Vastauksista saatava informaatio ei kärsi ratkaisevasti, vaikka niiden sisällöstä poistetaan tunnistetiedot (nimet, puhelinnumerot, sähköpostiosoitteet jne.) Muilta osin avoimiin kysymyksiin perustuvien muuttujien tunnistamisriski tulee arvioida tapauskohtaisesti suhteessa aineiston aihepiiriin ja taustamuuttujiin.

Otoksen käyttäminen koko aineiston sijasta

Yksi Tilastokeskuksen usein käyttämä keino estää tunnistettavuus on luovuttaa tutkimuskäyttöön kokonaistutkimuksen sijasta otos aineistosta. Tällöin analysoidaan vain osajoukkoa koko perusjoukon sijaan ja otoksen satunnaisuus varmistetaan erilaisin otantamenetelmin.

Tietoarkiston aineistot ovat pääsääntöisesti otoksia.

Epäsuorien tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä ja satunnaisvaihtelun lisääminen

Harvinaisempia anonymisointikeinoja ovat tunnistamisriskin omaavien yksittäisten havaintoyksiköiden epäsuorien tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä sekä satunnaisvaihtelun lisääminen joihinkin epäsuoriin tunnistemuuttujiin. Osa tutkijoista pitää muuttujien arvojen vaihtamista ja satunnaisvaihtelun lisäämistä aineiston vääristelynä. Aineiston tilastolliseen analysointiin satunnaisvaihtelun lisääminen vaikuttaa negatiivisesti heikentämällä muuttujien välisiä korrelaatioita ja syy-yhteyksien selvittämistä. Muuttujan arvojen vaihtaminen havaintoyksiköiden välillä erityisesti terveystietoja sisältävässä aineistossa voi jopa johtaa vaarallisen virheellisiin korrelaatioihin. Molemmat keinot kyllä estävät kyseisten muuttujatietojen yhdistämisen rekisteritietoihin.

Kvalitatiivisen aineiston anonymisointi

Tässä esiteltäviä keinoja voi soveltaa sekä itse aineistoihin että julkaisuissa esitettäviin otteisiin aineistosta. Ohjeet koskevat vain tekstimuodossa olevaa aineistoa. Äänen ja videotallenteiden anonymisointiin Tietoarkisto ei tarjoa ohjeita.

Ensimmäinen lähtökohta kvalitatiivisen tekstiaineiston anonymisoinnissa on hävittää aineiston tunnisteita sisältävä taustamateriaalit. Sellaisia ovat esimerkiksi tutkittavien yhteystiedot ja taustatietolomakkeet.

Kun teet muutoksia tunnisteita poistaen tai muokkaamalla, merkitse muutokset selkeästi. Voit käyttää merkitsemiseen hakasulkeita: [muutettu teksti] tai tuplahakasulkeita [[muutettu teksti]].

Henkilönimien vaihtaminen peitenimiksi

Henkilönimien muuttaminen peitenimiksi eli pseudonyymeiksi on eniten käytössä oleva kvalitatiivisten aineistojen anonymisoinnin keino. Tutkimusprojekteissa peitenimien valinta ja käyttö täytyy suunnitella yhteisesti johdonmukaiseksi. Käytännön apuna voi käyttää yhteistä nimistöä esimerkiksi taulukkotiedostona. Anonymisoitavassa aineistossa käytetään samoja peitenimiä kuin julkaisuotteissa.

Henkilönimien anonymisoinnissa pseudonyymi on parempi vaihtoehto kuin nimen poistaminen kokonaisuudessaan tai jokaisen erisnimen korvaaminen esimerkiksi kirjainmerkillä tai lyhyellä merkkijonolla [x] tai [---]. Peitenimien käyttö ihmisistä puhuttaessa säilyttää aineiston sisäisen koherenssin. Mikäli aineistossa puhutaan toistuvasti useista eri ihmisistä, menetetään aineiston ymmärrettävyys, jos henkilönimet vain poistetaan.

Sekä etu- että sukunimen muodostavan pseudonyymin käyttö voi olla perusteltua translitteroidun puheen luontevuuden säilyttämiseksi tai tutkittavien erottamiseksi toisistaan, jos tutkittavien määrä on suuri. Tavallisesti aineistossa esiintyvien kokonimien sukunimet voi kuitenkin poistaa samalla, kun etunimet vaihdetaan peitenimiksi. Mikäli aineistossa puhutaan jostakusta vain sukunimellä, myös pseudonyymiksi valitaan sukunimi.

Aineistossa voidaan viitata nimeten henkilöihin, jotka ovat julkisesti tunnettuja politiikassa, elinkeinoelämässä tai muissa työtehtävissään. Tällöin nimiä ei vaihdeta peitenimiksi. Peitenimi tai kategorisointi (esim. [paikallinen kunnallispoliitikko]) tehdään kuitenkin, jos aineisto sisältää mainitun julkisuuden henkilön yksityiselämään liittyviä, entuudestaan ei-julkisia tietoja.

Erisnimien kategorisointi

Ilman peitenimeä voi kirjata henkilön, joka mainitaan vain kerran tai muutaman kerran ja jolla ei ole keskeistä merkitystä aineiston sisällön ymmärrettävyyden kannalta. Tällöin aineistoon kirjataan nimen tilalle kategoria [nainen], [mies], [sisko], [isä], [työtoveri, nainen], [naapuri, mies] jne. Muillekaan erisnimille ei välttämättä tarvitse keksiä peitenimeä. Mikäli aineistoyksikössä (henkilöhaastattelu, ryhmähaastattelu, elämäkerta, kirjoitus, kirje jne.) puhutaan/kirjoitetaan vain yhdestä koulusta tai asuinpaikasta, voidaan ne merkitä esimerkiksi [yläasteeksi] ja [kotikaupungiksi] tai [asuinlähiöksi].

Aineiston sisältämien yksilöivien työpaikkojen tai muutoin aineistossa epäsuoriksi tunnisteiksi muodostuvien yritysten ja toimipaikkojen karkeistamisen apuna voi käyttää Tilastokeskuksen toimialaluokitusta. Yhtä mahdollista on yksinkertaisesti muuttaa esimerkiksi Proximo Ab [tilitoimistoksi], Muoti-Titaani Oy [vaatetusliikkeeksi], Ceiko [konepajaksi], Koskikeskus [ostoskeskukseksi] jne.

» Tilastokeskuksen toimialaluokitus

Tekstin sisällä esiintyviä paikkoja voi karkeistaa muuttamalla ne esimerkiksi [taajamaksi], [kaupunginosaksi], [kyläksi]. Jos ei ole varmuutta, onko kyseessä kunta vai lähiö, voi apuna käyttää sähköisen MOT-sanakirjaston asutusnimihakemistoa, johon pääsee korkeakoulujen sisäverkosta tai Nelli-portaalin kautta.

On hyvä muistaa, että tutkittavan asuinpaikkatiedon hävittäminen koskee myös aineiston sisällä olevia paikkatunnisteita. Kun ei haluta paljastaa tutkittavan asuinkuntaa, tulee myös tekstin sisällä olevat täsmälliset paikkatiedon viitteet poistaa. Jos tutkittava kertoo käyvänsä usein kodistaan kävelymatkan päässä olevassa Tillikassa tai Kaivohuoneella muutetaan se [ravintolaksi], jos tutkittavien asuinkuntatieto halutaan muutoinkin poistaa.

Arkaluonteisten tietojen harkinnanvarainen poistaminen tai muuttaminen

Yksilöivät arkaluonteiset tiedot tulee poistaa, kategorisoida tai luokitella. Esimerkiksi AIDS:n voi kategorisoida aineiston ensimmäisessä kohdassa [vaikeaksi pitkäaikaissairaudeksi] ja sen jälkeen se voidaan korvata [sairaudella], mikäli aineistoa tutkiva voi kustakin yhteydestä päätellä, että kyseessä on aineiston alussa mainittu sairaus.

Arkaluonteisten tietojen poistaminen tai muuttaminen/karkeistaminen on perusteltua, kun a) tiedot paljastuvat sattumalta, b) kyseiset tiedot eivät ole tutkimuksen kohteena ja c) arkaluonteinen tieto muodostaa tunnistamisriskin. Kun tarkoitus onkin esimerkiksi tutkia erilaisia vakavia sairauksia sairastavien ihmisten elämää, tunnistettavuusriskit poistetaan käyttämällä muita anonymisointikeinoja sen sijaan että muutettaisiin aineistosta juuri tutkimuksen kohteena olevaa tietosisältöä.

Taustatietojen kategorisointi

Taustatiedot, kuten sukupuoli, ikä, ammatti, työpaikka, koulu, asuinpaikka voivat olla hyvin oleellisia aineiston ymmärtämiseksi. Taustatiedot ovat myös tärkeää kontekstitietoa jatkotutkimuksissa. Täsmällisiä taustatietoja voi luokitella kategorioihin samaan tapaan kuin kvantitatiivisessa aineistossa luokitellaan epäsuoria muuttujia. Apuna voi käyttää esimerkiksi Tilastokeskuksen luokitteluja. Itse laaditun luokituksen selitykset kirjataan aineiston kuvaustietoihin.

Luokittelu on aina parempi vaihtoehto kuin taustatietojen poistaminen kokonaan. Tutkimusta varten haastatellun Maija Mainion oikeat taustatiedot voisivat olla seuraavat: naimisissa oleva 43-vuotias Tampereella asuva Tampereen yliopiston tutkimuspalveluissa ammattinimikkeellä hankeasiantuntija työskentelevä, jolla on 8- ja 11-vuotiaat lapset. Tunnistamisen estämiseksi taustatiedot voitaisiin luokitella esimerkiksi seuraavalla tavalla:

  • Sukupuoli: Nainen
  • Ikä: 41–45
  • Työpaikka: yliopisto
  • Ammatti: tutkimushallinnon asiantuntija
  • Kotitalouden koostumus: mies ja kaksi kouluikäistä lasta
  • Asuinpaikka: kaupunkimainen kunta Länsi-Suomessa

Yllä olevassa luokitteluesimerkissä työpaikkaa eli yliopistoa ei tarvitse luokitella karkeammin julkisen sektorin toimipaikaksi, sillä muut jäljelle jäävät taustatiedot eivät mahdollista edes osittaista tunnistamista. Kyseessä voisi olla joko Tampereen tai Jyväskylän yliopisto tai Länsi-Suomen suuralueella sijaitseva muun yliopiston erillisyksikkö.

Taustatietojen luokittelun tarve arvioidaan suhteessa aiemmin mainittuihin muihin anonymisoinnin keinoihin ja aineiston sisältöön.

» Tilastokeskuksen henkilöluokitukset
» Tilastokeskuksen alueluokitukset
» Tilastokeskuksen toimialaluokitus

Tunnistetietojen vaihtaminen

Kvalitatiivisen aineiston anonymisointiin voi joskus käyttää myös tietojen vääristämistä (vrt. kvantitatiivisen datan tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä). Esimerkiksi tarkka syntymäaika - joka tunnisteena tulisi poistaa - voi joskus olla merkityksellinen aineiston sisällön ymmärtämiselle. Yksi kuvitteellinen tilanne voisi olla seuraava:

Haastateltava on itse syntynyt 1.5.1958 ja hän on istunut kuolemaa tekevän lapsensa sairaalavuoteen äärellä vappupäivänä 2005. Haastattelussa hän kuvaa laveasti ristiriitaisia tuntemuksia, mitä juhlinta kaduilla ja lapsen kuolema haastateltavan omana syntymäpäivänä liittävät yhteen.

Kuvatun kaltaisessa tapauksessa vappupäivän poistaminen aineistosta heikentäisi aineiston sisällön ymmärtämistä. Päivämäärä (vappu) voidaan säilyttää aineistossa, kun haastateltavan syntymävuosi muutetaan esimerkiksi kaksi vuotta todellista aiemmaksi tai myöhemmäksi.

Tiedostojen piilotetun teknisen metadatan poistaminen

Aineistojen anonymisoinnin yhteydessä on tärkeä muistaa tarkastaa, sisältävätkö arkistoitavat tiedostot sellaista piilotettua teknistä metadataa, joka voi mahdollisesti paljastaa tutkittavan henkilöllisyyden. Piilotettua teknistä metadataa ovat tiedostoihin usein automaattisesti tallentuvat tiedot esimerkiksi käytetyn laitteen omistajasta, sijainnista tai käyttäjäprofiilin haltijasta. Teknistä metadataa tallentuu tiedostoihin paitsi tiedostojen luomisvaiheessa, myös niitä muokattaessa.

Erityisesti aineistoissa, joissa tutkittava on itse luonut arkistoitavan tiedoston, on piilotettuun tekniseen metadataan perustuva tunnistamisriski suuri. Tällaisia aineistoja ovat esimerkiksi erilaiset kirjoitus- ja valokuva-aineistot. Koska kirjoitusaineistot ovat yleensä tutkittavien itsensä tiedostoiksi tallentamia tekstejä, viittaa tekstitiedostojen piilodata usein suoraan tutkittavaan. Tekstiaineistojen lisäksi myös digitaalisen valokuvan EXIF-data voi sisältää hyvinkin tarkkoja tunnistetietoja, esimerkiksi kuvauspaikan tarkat koordinaatit ja jopa kuvaajan nimen.

Piilotetun teknisen metadatan poistaminen onnistuu yleisimmillä tekstin- ja kuvankäsittelyohjelmilla (esim. MS Office, Windows File Explorer, Photoshop, GIMP, Irfanview). Valokuvien EXIF-tietojen poistoon on olemassa myös tarkoitukseen tehtyjä ohjelmia, joiden avulla piilotetun metadatan poisto onnistuu helposti (esim. Easy Exif Delete). Ohjeet piilotetun teknisen metadatan poistoon vaihtelevat riippuen käytettävästä ohjelmasta ja ohjelmaversiosta. Katso tarkemmat ohjeet käyttämäsi ohjelman omilta verkkosivuilta.

Käytännön vinkkejä

  • Tee kirjallinen anonymisointisuunnitelma tutkimusaineistollesi.
  • Tarkista aineistotiedostoihin liittyvät taustamateriaalit, sillä myös ne voivat myös sisältää tuhottavia tai anonymisoitavia tunnisteita (tutkittavien yhteystiedot, paperilomakkeet jne.)
  • Muista tarkistaa, ettei aineistoon jää myöskään tunnistetietoja kolmansista henkilöistä.
  • Toteuta kvantitatiivisen aineiston anonymisointi käyttämäsi tilasto-ohjelman syntaksin avulla (lisätietoa syntaksin käytöstä).
  • Käytä tekstitiedostojen anonymisoinnissa etsi--korvaa -komentoa tekemällä muutokset yksi kerrallaan.
  • Tarkista, esiintykö aineistossa sama henkilö eri nimillä, esimerkiksi Matti myös Masana tai Matsina.
  • Helpota tekstitiedoston anonymisoinnin suunnittelua kirjaamalla litteraattiin erikoismerkki jokaisen henkilö- ja erisnimen eteen.
  • Huolellisuus palkitaan.

Tunnistetaulukko

Alla olevaan taulukkoon on kirjattu erilaisia tunnisteita. Henkilötietolain mukaiset arkaluonteiset tiedot on merkitty tähdellä (*). Kunkin tunnistetiedon kohdalla näkyy tunnisteen luonne (suora tunniste; vahva epäsuora tunniste; epäsuora tunniste).

Taulukon viimeiseen sarakkeeseen on kirjattu kunkin tunnisteen yksinkertaisimmat anonymisointitekniikat. Poista tarkoittaa poistamista, muuta tarkoittaa muuttamista eli pseudonymisointia ja luokittele tarkoittaa luokittelua. Luokittelu vastaa laadullisen aineiston anonymisoinnissa tunnistetiedon karkeistamista eli kategorisointia.

Osa tunnisteista voi olla luonteeltaan sekä vahvoja epäsuoria tunnisteita että epäsuoria tunnisteita. Harvinainen ammatti tai asema on vahva epäsuora tunniste, kun taas yleinen ammattinimike on tavallinen epäsuora tunniste.

Taulukko ei ole tyhjentävä, mutta sitä tutkimalla voi löytää vinkkejä oman tutkimusaineiston tunnisteiden määrittämiseen ja anonymisointiin.

Taulukko 1.

Tunnistetieto Suora tunniste Vahva epäsuora tunniste Epäsuora tunniste Anonymisointitekniikka
Henkilötunnus x     Poista
Koko nimi x     Poista/Muuta
Sähköpostiosoite x x   Poista
Puhelinnumero   x   Poista
Postinumero     x Poista/Luokittele
Kaupunginosa     x Luokittele
Asuinkunta     x Luokittele
Maakunta     x (Luokittele)
Suuralue     x  
Tilastollinen kuntaryhmä     x  
Puhetallenne x     Poista
Videotallenne henkilö(i)stä x     Poista
Valokuva henkilöstä x     Poista
Syntymäaika   x   Luokittele
Ikä     x Luokittele
Sukupuoli     x  
Siviilisääty     x  
Perheen koostumus     x (Luokittele)
Ammatti   (x) x Luokittele
Toimiala     x  
Työmarkkina-asema     x  
Koulutus     x Luokittele
Koulutusala     x  
Äidinkieli     x Luokittele
Kansallisuus     x (Luokittele)
Työpaikka   (x) x Luokittele
Auton rekisteri   x   Poista
Tutkittavan julkaisun/teoksen nimike   x   Luokittele
Verkkosivun osoite   (x) x Poista
Opiskelijatunnus   x   Poista
Vakuutusnumero   x   Poista
Tilinumero   x   Poista
Tietokoneen IP-osoite   x   Poista
Terveyttä koskevat tiedot *   (x) x Luokittele/Poista
Etninen alkuperä *   (x) x Luokittele/Poista
Rikos tai saatu rangaistus *     x Luokittele/Poista
Ammattiliiton jäsenyys *     x Luokittele
Poliittinen tai uskonnollinen vakaumus *     x Luokittele
Muu luottamustoimi tai jäsenyys   (x) x Luokittele/Poista
Sosiaalihuollon tarve *     x Luokittele/Poista
Sosiaalihuollon tukitoimet ja etuudet *     x Luokittele/Poista
Seksuaalinen suuntautuminen *     x Poista

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2017-11-21