Tutkittavien informointi

Tunnisteellisuus ja anonymisointi

Mitä on henkilötieto?

EU:n tietosuoja-asetuksen määritelmän mukaan henkilötiedoilla tarkoitetaan kaikkia tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyviä tietoja. Tunnistettavissa olevana pidetään luonnollista henkilöä, joka voidaan suoraan tai epäsuorasti tunnistaa erityisesti tunnistetietojen, kuten nimen, henkilötunnuksen, sijaintitiedon, verkkotunnistetietojen taikka yhden tai useamman hänelle tunnusomaisen fyysisen, fysiologisen, geneettisen, psyykkisen, taloudellisen, kulttuurillisen tai sosiaalisen tekijän perusteella. (EU:n tietosuoja-asetus, artikla 4, kohta 1.) Määritelmän mukaisesti henkilötiedot tutkimusaineistoissa eivät rajaudu vain tutkittavia koskeviin tietoihin. Tutkimusaineistoihin voi sisältyä tunnistetietoja tutkittavien lähipiiristä tai muista kolmansista henkilöistä. Myös heitä tunnistettavasti käsittelevät tiedot ovat aina henkilötietoja.

Henkilötiedon sisältöä tai luonnetta ei ole rajattu. Kaikki luonnolliseen henkilöön liittyvät tiedot voivat olla henkilötietoja. Tiedot voivat olla väitteitä, mielipiteitä tai arvoarvostelmia. Ne voivat olla objektiivisia tai subjektiivisia. Niiltä ei edellytetä totuutta tai todennettavuutta. Tiedot voivat koskea yksityiselämää, perhe-elämää, terveydentilaa, fyysisiä ominaisuuksia, ammatillista toimintaa tai taloudellista ja sosiaalista käyttäytymistä.

Milloin tieto on tunnisteellista?

Tieto on tunnisteellista, jos sen perusteella voidaan tunnistaa yksittäinen henkilö tai havaintorypäs, kuten samaan kotitalouteen kuuluvat henkilöt. Tunnistaminen voidaan tehdä yhden tai useamman henkilölle tunnusomaisen fyysisen, psyykkisen, taloudellisen, kulttuurisen tai sosiaalisen tekijän perusteella. Ei-ihmisiä käsittelevä tieto (apersonal data) voi olla myös tunnisteellista, jos siinä on henkilöihin liittyviä tietoja (Elliot, Mackey, O´Hara & Tudor 2016). Esimerkiksi palolaitosten tiedot hälytyksistä voivat sisältää osoitetietoja.

Tietoja, jotka yksin riittävät tunnistamaan henkilön ovat henkilön koko nimi, henkilötunnus, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet (sormenjälki, kasvokuva, ääni, silmän iiris, kämmenen muoto, käsin tehty allekirjoitus). Näistä käytetään nimitystä suorat tunnisteet tai välittömät tunnisteet.

Yksittäiset tiedot, joiden avulla henkilön voi kohtuullisen helposti tunnistaa ovat esimerkiksi postiosoite, puhelinnumero, auton rekisteri, henkilön julkaiseman teoksen viitetiedot, muu kuin henkilönimenmukainen sähköpostiosoite ja henkilöstä tunnistetietoja sisältävän verkkosivuston osoite, harvinainen ammattinimike, hyvin harvinainen sairaus tai vain yhdelle kerrallaan annettu asema (esimerkiksi puheenjohtajuus yhdistyksessä). Myös harvinainen tapahtuma voi olla avain henkilön tunnistamiseen. Tietoarkistossa näistä käytetään nimitystä vahvat epäsuorat tunnisteet.

Vahvoiksi epäsuoriksi tunnisteiksi luetaan Tietoarkistossa myös yksilöivät koodit, joiden avulla rajatulla henkilöiden joukolla on mahdollisuus tunnistaa henkilö yksiselitteisesti. Tällaisia ovat esimerkiksi opiskelijatunnus, vakuutusnumero, tilinumero, tietokoneen IP-osoite ja vastaavat.

Epäsuoriksi tunnisteiksi luetaan tiedot, jotka yksin eivät riitä tunnistamiseen, mutta yhdistettynä voivat mahdollistaa henkilön tunnistamisen. Epäsuorista tunnisteista käytetään englanniksi termejä quasi-identifier ja indirect identifier. Taustamuuttujia ja epäsuoria tunnisteita ovat esimerkiksi sukupuoli, ikä, koulutus, ammattiasema, pääasiallinen toiminta/työmarkkina-asema, sosioekonominen asema, kotitalouden koostumus, tulot, siviilisääty, kieli, kansallisuus, etninen tausta, työpaikka tai koulu ja asuinaluetta koskevat muuttujat. Asuinaluetta koskevat epäsuorat muuttujat kuuluvat niin sanottuihin aluemuuttujiin, joita voivat olla esimerkiksi postinumero, kaupunginosa, kunta, maakunta, seutukunta ja suuralue.

Myös päivämäärä voi olla epäsuora tunniste. Tavallisin päivämäärä epäsuorana tunnisteena on syntymäaika, mutta myös kuolinpäivämäärät tai uutiskynnyksen ylittäneet tapahtumapäivämäärät ja vastaavat voivat olla epäsuoria tunnisteita tutkimusaineistoissa yhdistettynä muihin tietoihin. Lääke- ja terveystieteen aineistoissa epäsuoria tunnisteita muihin tietoihin yhdistettynä voivat toisinaan olla myös näytteenottoja ja muita hoitotapahtumia koskevat päivämäärät.

Myös pseudonyymit aineistot katsotaan henkilötiedoiksi. Sellaisia ovat esimerkiksi pitkittäistutkimusten aineistot, joissa analysoitavissa aineistoissa on havaintotunnus henkilötunnuksen sijaan ja tutkimusryhmällä on hallussa koodi, jonka avulla tunnisteeton aineisto voidaan yhdistää tutkittaviin henkilöihin.

Tunnisteellisten aineistojen käsittely

Tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua, asiallisesti perusteltua ja tietojen käsittelyyn on laillinen käsittelyperuste (esimerkiksi tutkittavan suostumus tai yleisen edun mukainen tutkimus).

Tutkittavien näkökulmasta tunnisteellisen aineiston käsittely muodostaa riskin, jos heitä koskevat luottamukselliset tiedot vuotavat ulkopuolisille, esimerkiksi tutkittavan lähipiirille, työnantajalle tai viranomaisille. Tämän vuoksi tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista. Tutkittavien yksityisyyden suojaa ei saa vaarantaa esimerkiksi aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla. Henkilötietojen käsittelyyn voi soveltaa tässä käsikirjassa selitettyjä suojatoimia kuten minimointia, pseudonymisointia ja anonymisointia. Lisäksi suojaamiseen voi käyttää käyttöoikeuksien hallinnollisia ja teknisiä tietoturvaratkaisuja.

» Lisätietoa tietoturvasta

Termit haltuun

Anonyymi tieto: Yksittäinen havainto (henkilö) ei ole kohtuullisin keinoin tunnistettavissa annettujen tietojen perusteella tai tietoja muihin tietoihin yhdistämällä. Täysin anonyymiä tietoa ei ole olemassa, mutta hyvin toteutetuin menetelmin voi päästä tulokseen, jossa kohtuullisin keinoin ei voi yksittäisiä henkilöitä tunnistaa. Anonymisoinnilla kuvataan niitä moninaisia tapoja ja välineitä, joilla anonyymi tieto saavutetaan.

Pseudonyymi tieto: Yksittäinen havainto ei ole tunnistettavissa pseudonymisoitujen tietojen perusteella ilman ulkopuolisia lisätietoja. Pseudonymisointi on aineiston tunnisteellisten tietojen korvaamista peitetiedolla, kuten peitenimillä tai koodeilla, jotka prosessin jälkeen säilytetään erillään aineistosta. Aineisto on pseudonyymi niin pitkään kuin erillään oleva tieto tuhotaan.

De-identifiointi (de-identification): Tunnisteellisten tietojen poistaminen tai muokkaaminen yksittäisen havainnon tunnistamisen ehkäisemiseksi datatiedoston sisällä. Usein de-identifioinnilla tarkoitetaan suorien tunnisteiden poistamista tai peittämistä (Elliot ym. 2016).

De-anonymisointi: Anonyymiksi luokitellun tiedon saattaminen tunnisteelliseksi yhdistämällä tietoja muista lähteistä saataviin tietoihin. Jos anonyymi aineisto onnistutaan de-anonymisoimaan, aineisto joko ei ole ollut alun perin anonyymi tai käytettävissä oleva teknologia on kehittynyt tai henkilöistä on saatavissa muualta aiempaa enemmän tietoja. Anonyymisoinnin kestävyyttä tuleekin arvioida määräajoin (niin sanottu jäännösriskin arviointi).

Minimointi: Henkilötietojen käsittelyn minimointi tarkoittaa käyttötarkoituksen kannalta ei-välttämättömien henkilötietojen hävittämistä. Esimerkiksi henkilötunnus, nimitiedot, osoitteet ja muut tarpeettomat tunnisteet hävitetään heti, kun ne eivät ole enää välttämättömiä tutkimuksen toteuttamisessa. Minimointi on yksi suojatoimi, jolla pyritään vähentämään tunnisteellisten aineistojen käsittelyyn sisältyviä riskejä.

Milloin tieto on anonyymiä, entä pseudonyymiä?

Tieto on anonyymiä eli tunnisteetonta, jos tunnusomaiset piirteet (esimerkiksi epäsuorat tunnisteet yhdistettynä) koskevat samanlaisina useampaa henkilöä ja jos katsotaan, että henkilöä ei voida tunnistaa huomioiden kohtuullisesti toteutettavissa olevat toimenpiteet.

EU:n tietosuoja-asetuksessa anonyymi tieto määritellään toiminnallisesti:

Jotta voidaan määrittää, onko luonnollinen henkilö tunnistettavissa, olisi otettava huomioon kaikki keinot, joita joko rekisterinpitäjä tai muu henkilö voi kohtuullisen todennäköisesti käyttää mainitun luonnollisen henkilön tunnistamiseen suoraan tai välillisesti, kuten kyseisen henkilön erottaminen muista. Jotta voidaan varmistaa, voidaanko keinoja kohtuullisen todennäköisesti käyttää luonnollisen henkilön tunnistamiseen, olisi otettava huomioon kaikki objektiiviset tekijät, kuten tunnistamisesta aiheutuvat kulut ja tunnistamiseen tarvittava aika sekä käsittelyajankohtana käytettävissä oleva teknologia ja tekninen kehitys.

Lähde: Eu: tietosuoja-asetus, johdantolause 26

Anonyymistä aineistosta ei voi tunnistaa yksittäisiä tutkittavia esimerkiksi epäsuorien tunnisteiden avulla tai yhdistämällä aineistoon muualta saatavia tietoja. Anonyymiin aineistoon ei voi myöskään yhdistää samoja tutkittavia koskevia uusia tietoja ja sen tulee olla peruuttamaton, jotta voidaan puhua anonyymistä aineistosta.

Pseudonyymiksi tiedoksi kutsutaan tietoa, jonka perusteella henkilöä ei voi tunnistaa ilman erillään säilytettäviä lisätietoja. Kun aineisto pseudonymisoidaan, aineiston tunnisteelliset tietosisällöt korvataan joko alkuperäisestä arvoista johdetuilla tai niistä riippumattomilla tiedoilla niin, ettei henkilö ole enää tunnistettavissa. Lisäksi tieto alkuperäisistä arvoista tai niiden muodostamistavoista pidetään erillään pseudonyymistä datasta. (Tarhonen 2016.)

Tieto ei ole pseudonyymiä, jos yksittäinen henkilö on tunnistettavissa aineiston tietojen perusteella ilman erillään pidettäviä lisätietoja (em.). Näin voi olla esimerkiksi tilanteessa, jossa aineiston epäsuorat muuttujat ja harvinaiset havainnot mahdollistavat tunnistamisen, vaikka henkilötunnus ja muut suorat tunnisteet säilytetään suojatusti erillään.

Pseudonyymistä aineistosta tulee anonyymi, kun erillään säilytettävät tunnistetiedot (koodiavain, henkilötiedot ja tiedot muutettujen arvojen muodostamistavoista) hävitetään. Jos pseudonymisoidun aineiston erillään säilytettäviä henkilötietoja ei voi hävittää, aineistosta voi tehdä anonyymin tuhoamalla koodiavain ja muutettujen arvojen muodostamistiedot sekä järjestämällä aineisto uudella tavalla, esimerkiksi arvottujen uusien havaintotunnusten mukaan. Aineisto on anonyymi, jos sitä ei voi kohtuullisin keinoin enää yhdistää alkuperäisiin henkilötietoihin.

Esimerkiksi pitkittäistutkimuksen aineisto on tunnisteellinen niin kauan kun tutkimusryhmällä on hallussa koodiavain tutkittavien henkilötietoihin. Aineistosta ei tule myöskään anonyymiä, vaikka alkuperäinen koodiavain olisi koodattu kahteen kertaan (ns. kaksoiskoodaus). Koodaus ja kaksoiskoodaus ja ylipäänsä aineistojen pseudonymisointi ovat kuitenkin hyödyllisiä suojausmenetelmiä, kun halutaan estää tunnisteellisten tietojen käyttö analyyseissä. Koodaus ja kaksoiskoodaus kuuluvat esimerkiksi lääketieteen tutkimuskäytäntöihin.

Anonymisoinnin lähtökohdat

Tutkimusaineiston anonymisointiin ei ole olemassa valmista kaikkiin aineistoihin soveltuvaa menettelytapaa. Anonymisointi tulee suunnitella aina aineistokohtaisesti ottaen huomioon aineiston ominaisuudet, käyttöympäristö ja käytettävyys. Ominaisuuksilla viitataan esimerkiksi aineiston ikään, arkaluonteisuuteen, vastaajajoukon kokoon ja sisällön yksityiskohtaisuuteen (Elliot ym. 2016). Käyttöympäristöllä tarkoitetaan aineiston käyttökontekstia, joka on aikaan ja paikkaan sidottua: ketkä dataa käyttävät ja missä? Mitä ulkopuolisia tietoja on saatavilla sillä hetkellä? Käyttöympäristöllä tarkoitetaan myös fyysistä säilyttämistä, josta löytyy lisätietoa täältä. Käytettävyyden arvioinnissa pohditaan, miten anonymiteetin ja aineiston käytettävyyden saa yhdistettyä niin, että aineisto olisi tilastollisesti käyttökelpoinen anonymisoinnin jälkeen. Anonymisointi kannattaa suunnitella huolellisesti ja dokumentoida tehdyt toimenpiteet perusteluineen.

Suunniteltaessa anonymisointia arvoidaan aluksi aineiston perusjoukkoa ja otantamenetelmää, jotka voivat antaa itsessään harvinaisia tai ainutlaatuisia tietoja tutkimukseen osallistuneista henkilöistä. Perusjoukko on aineistonkeruun kohteena oleva populaatio/asia ja otantamenetelmä kuvaa havaintoyksiköiden valikoitumista aineistoon. Näiden kohdilla tulee pohtia, kuinka satunnaisia kohdejoukkoon kuuluvat ja lopulta tutkimukseen valikoituneet ovat suhteessa laajempaan mittakaavaan, kuten esimerkiksi alueen väestöön. Kokonaisaineistossa voidaan jo etukäteen tietää henkilön sisältyvän mahdollisesti aineistoon, sillä tutkimuskutsu lähetetään jokaiselle perusjoukkoon kuuluvalle, kuten esimerkiksi kaikille suomalaisille alle 1-vuotiaiden keskoslasten vanhemmille. Satunnaisotantaa käytettäessä kaikki kohdejoukon havaintoyksiköt eivät kuulu dataan, vaan esimerkiksi joka 50:s, mikä tarkoittaa, että jo lähtökohtaisesti perusjoukkoon kuuluvalla on pienempi todennäköisyys sisältyä aineistoon. Riippumatta perusjoukosta tai otantamenetelmästä on kuitenkin aina tärkeä tärkeää tutkia, mitä suoria tai epäsuoria tunnisteita aineistossa on ja käydä läpi aineisto harvinaisten tai ainutkertaisten havaintojen varalta.

Vastausprosentin suuruuteen on myös hyvä kiinnittää huomiota, sillä se kertoo havaintoyksikön todennäköisyydestä kuulua aineistoon. Erityisesti kokonaisaineistoissa tieto on merkittävä anonymiteetin arvioinnissa. Mitä korkeampi vastausprosentti, sitä todennäköisemmin havaintoyksikkö on aineistossa.

Tiedot aineiston muodostamistavasta eli otannasta- tai poiminnasta eivät saa myöskään paljastaa tutkimukseen osallistuneita. Tällaiseen voi olla riski, jos tutkija on kerännyt osallistujat lähipiiristään esim. lumipallomenetelmällä tai väestöltään pieneltä alueelta.

Lisäksi aineiston ikä ja aikaulottuvuus vaikuttavat anonymisointitarpeeseen. Mitä vanhempi aineisto on, sitä hankalampaa henkilöiden tunnistaminen on tietojen muuttuessa aikojen saatossa. Aikaulottuvuudella viitataan pitkittäistutkimuksiin, jotka on kerätty esimerkiksi samoilta henkilöiltä tietyin aikavälein. Tarkat tiedot henkilöiden elämänkulusta muodostavat helposti uniikkeja, tunnistettavissa olevia havaintoja. (Elliot ym. 2016.)

Anonymisoinnissa tavallisesti ensimmäinen toimenpide on poistaa aineistosta suorat ja vahvat epäsuorat tunnisteet (ks. tunnistetaulukko). Huomaa, että suorat ja vahvat epäsuorat tunnisteet eivät välttämättä sisälly vain kvantitatiivisen aineiston yksittäisiin muuttujiin tai kvalitatiivisen haastattelun alussa kerrottaviin henkilötietoihin. Kvantitatiivisissa aineistoissa niitä voi sisältyä satunnaisesti myös avomuuttujiin ja kvalitatiivisen haastattelun puheessa niitä voi tulla esiin useissa eri kohdissa.

Suorien ja vahvojen epäsuorien tunnisteiden poistaminen riittää vain hyvin harvoin tekemään aineistosta anonyymin. Suorien tunnisteiden poiston jälkeen tulee tarkastella, mitä epäsuoria tunnisteita aineisto sisältää ja onko henkilö niiden perusteella tunnisteellinen. Epäsuorien tunnisteiden tarkkuus ja määrä vaikuttavat anonymisointiin. Mitä enemmän niitä on ja mitä yksityiskohtaisempia ja harvinaisempia ne ovat, sitä huolellisemmin anonymisointi tulee suunnitella.

Taustamuuttujia tulee aina tarkastella suhteessa toisiinsa. Jos aineistoon haluaa jättää asuinkunnan, täytyy anonymisoinnin ratkaisut toteuttaa henkilöä koskevien taustatietojen osalta (ammatti, työpaikka, koulutus, ikä jne. luokitellaan riittävän karkealle tasolle). Jos taas on sisällöllisesti tärkeää jättää aineistoon tieto tutkittavien ammatista ja iästä, tulee tutkittavia koskevat aluetiedot karkeistaa (kuntatiedon sijaan suuralue ja/tai kuntatyyppi) ja arvioida myös muiden taustatietojen muokkaustarve.

Anonymisoinnin onnistumiseksi tulee tarkastella myös aineiston sisältämiä tietoja suhteessa muualta saatavissa oleviin tietoihin. Aineisto tulee muokata niin, ettei muualta saatavilla olevien tietojen perusteella voi tunnistaa yksittäistä tutkittavaa. Epäsuorien tunnisteiden osalta tulee arvioida tunnistamisriskiä esimerkiksi verkossa avoimesti saatavien tietojen perusteella (julkiset rekisterit, organisaatioiden verkkosivustot ja vastaavat). Koska avoimesti saatavilla oleva tieto lisääntyy koko ajan, on tärkeää tarkistaa säännöllisesti, onko kertaalleen anonymisoitu aineisto edelleen anonyymi (ns. jäännösriskin arviointi).

Jo muutaman taustatiedon yhdistäminen voi tehdä henkilön tunnistettavaksi. Latanya Sweeneyn (2000) tutkimuksessa havaittiin, että yhdysvaltalaisista 87 % on tunnistettavissa syntymäajan, sukupuolen ja viisinumeroisen postinumeron (ZIP-koodin) perusteella. Tunnistaminen perustui äänestyslistoihin, jotka Sweeney tilasi tutkimustaan varten. Listat sisältävät henkilö- ja aluetietoja äänioikeutetuista. Hieman yli puolet Yhdysvaltojen populaatiosta eli 53 % on puolestaan tunnistettavissa vain sukupuolen, syntymäajan ja paikan kuten kaupungin tai kylän avulla (em.). Aineiston ulkopuolisilla tiedoilla on siis suuri merkitys anonymisoinnissa.

Anonymisointiprosessin hahmottamiseksi niin kvantitatiivisissa kuin kvalitatiivisissa aineistoissa voi käyttää apuna alla olevia kysymyksiä:

  1. Mitä suoria tai epäsuoria tunnisteita aineisto sisältää?
  2. Sisältääkö aineisto ainutlaatuisia tai harvinaisia havaintoja?
  3. Mitä aineiston tietoja yhdistelemällä henkilö saattaa henkilö voi olla tunnistettavissa?
  4. Onko saatavilla ulkopuolisia tietoja, jotka voidaan yhdistää aineistoon niin, että havainnot/tutkittavat voivat olla tunnistettavissa?
  5. Mitkä ovat juuri ne aineiston ominaisuudet, jotka halutaan säilyttää (jos mahdollista) ja mitkä voidaan "uhrata" anonymisointiprosessissa? Tässä mieti, mihin aineistoa tullaan käyttämään tutkimuksessa todennäköisimmin.

Kvantitatiivisen aineiston anonymisointi

Anonymisointi on kansainvälisessä alan kirjallisuudessa laaja yläkäsite, joka pitää sisällään erilaisia lähestymistapoja, kuten saatavuuden hallintaa tai tilastollista lähestymistapaa (Elliot ym. 2016). Tässä keskitymme dataan kohdistuviin anonymisointikeinoihin.

Kvantitatiivisten aineistojen anonymisoinnissa pyritään eroon aineiston harvinaisista havainnoista, jotka voivat muodostaa tunnistamisriskin. Siksi kvantitatiivisten aineistojen anonymisoinnissa on hyvä tarkastella harvinaisten tai ainutlaatuisten havaintojen suhdetta epäsuoriin tunnisteisiin. Yleensä tarkasteluun valitaan kaikki epäsuorat muuttujat ja ihanteellisimmassa tapauksessa harvinaisuuden määrittelyssä on mukana ovat kaikki aineiston muuttujat. (Cabrera 2017.) Ainutlaatuisia tai harvinaisia luokkia voi etsiä esimerkiksi tarkastelemalla epäsuorien tunnisteiden muuttujaluokkia ja muuttujien välisiä ristiintaulukoita. Jos aineisto sisältää jatkuvia muuttuja, ne on hyvä luokitella paljastumisriskin arviointia varten (em.). Jatkuvia muuttujia ovat juoksevina annetut luvut esimerkiksi ikä tai tulot.

On kuitenkin hyvä muistaa, että ristiintaulukoinnissa muuttujien pienet luokat eivät ole aina yksiselitteisesti anonymisointia vaativaa tunnisteellista tietoa. Esimerkiksi, jos viiden keskimäärin samankokoisen koulun oppilaille tehdyssä kyselyssä yhdestä koulusta on vastannut vain neljä oppilasta, nämä neljä eivät ole automaattisesti tunnisteellisia pienen frekvenssin vuoksi. Tämä johtuu siitä, että mahdollinen vastaajamäärä on ollut yhtä iso kuin muissa kouluissa. Toisin olisi, jos oppilaita olisi huomattavasti vähemmän verrattuna muihin kouluihin.

Kvantitatiivisten aineistojen dataan kohdistuvat anonymisointimenetelmät voidaan jakaa kahteen pääluokkaan: yleistäviin eli rajoittaviin ja sotkeviin eli satunnaistaviin. Yleistämällä poistetaan lopullisesti aineiston tietoja tai vähennetään tietojen yksityiskohtaisuutta arvoja luokittelemalla tai karkeistamalla eli muuttamalla niiden mittakaavaa tai suuruusluokkaa. Sotkevilla menetelmillä lisätään dataan nk. kohinaa, mikä kasvattaa epävarmuutta havaintojen oikeellisuudesta. (Cabrera 2017; EU:n WP 29 lausunto 05/2014). Onnistunut anonymisointi vaatii tavallisesti useiden anonymisointimenetelmien/tekniikoiden käyttöä ja arviointia anonymisoitavien tietojen ja datan käytettävyyden suhteesta.

Menetelmillä on omat hyvä ja huonot puolensa, joten niiden vaikutukset aineiston laatuun ja sitä kautta käytettävyyteen tulee tuntea ennen muokkaamista. Muuttujien luokittelu mahdollistaa tiedon säilyttämisen aineistossa ja käytön tutkimuksissa tietyillä menetelmillä. Luokittelu siis vähentää aineiston käytettävyyttä, mutta vain hieman (Purdam & Elliot 2007). Anonymiteetin kannalta ongelmallista on, että luokittelu mahdollistaa edelleen henkilön yhdistämisen tiettyyn luokkaan (EU:n WP 29 lausunto 05/2014). Lisäksi muuttujan kaikkien arvojen luokittelu voi tehdä muuttujien välisten suhteiden arvioinnin hankalaksi ja estää myös tiettyjen analyysimenetelmien käytön jatkuvien muuttujien kohdalla (Anguli, Blitzstein & Waldo 2015).

Sotkevat menetelmät voivat olla hyödyllisiä, kun aineistossa havaitaan suhteellisen vähän (vähemmän kuin 1 %) harvinaisia havaintoja. Sotkevia menetelmiä käytettäessä tulee kuitenkin tarkasti arvioida menetelmän vaikutukset aineiston laatuun, sillä niillä voi olla merkittäviä vaikutuksia esimerkiksi muuttujien jakaumiin, korrelaatioihin ja syy-yhteyksien selvittämisiin, jotka puolestaan vaikuttavat analyysien tuloksiin. Sotkevat menetelmät ovat käyttökelpoisia anonymisoinnissa, vaikka osa tutkijoista pitää muuttujien arvojen vaihtamista ja satunnaisvaihtelun lisäämistä aineiston vääristelynä.

Seuraavissa kappaleissa esitellään tavallisimmat yleistävät ja sotkevat menetelmät. Yleistäviin menetelmiin kuuluvat tietojen poistaminen, luokittelu, karkeistaminen, otosten käyttäminen koko aineiston sijasta sekä k-anonymiteetti ja l-diversiteetti. Sotkevissa menetelmissä muutetaan muuttujien täsmälliset arvot epätarkoiksi muun muassa kertomalla ja permutaatiota apuna käyttäen. Lopuksi luetellaan keinoja anonymisointimenetemän valinnan arviointiin.

Muuttujan, yksittäisten arvojen ja havaintoyksiköiden poistaminen

Muuttujan poistaminen on selkein toimenpide suorien ja vahvojen epäsuorien tunnisteiden poistamisessa. Myös epäsuoria tunnisteita sisältäviä muuttujia voi poistaa. Mikäli esimerkiksi nuorten itse ilmoittamaa rikollisuutta koskevassa kyselyssä on kysytty vastaajan koulua, saattaa se muiden taustamuuttujien kanssa mahdollistaa tunnistamisriskin. Tällöin koulumuuttuja poistetaan.

Toisinaan tunnistamisriskin välttämiseksi voi poistaa avomuuttujan. Perustelluinta se on silloin, kun vastaava tieto löytyy aineistossa luokiteltuna muuttujana. Jos aineistossa on luokiteltu koulutusmuuttuja, poistetaan avomuuttuja tarkasta koulutuspaikasta.

Jos avomuuttujan vastausten tarkka sisältö on tutkimuksellisesti tärkeä, avomuuttujan voi myös irrottaa aineistosta erilliseksi tiedostoksi ja jättää avomuuttujan taustatiedoiksi vain analyysin mahdollistavat karkeistetut muuttujat. Näin tehty osa-aineisto tulee muokata ja järjestää niin, ettei sitä voi yhdistää alkuperäiseen aineistoon, mikäli avomuuttujan sisältö sen yhteydessä muodostaa tunnistamisriskin.

Yksittäisten arvojen poistaminen epäsuorista muuttujista on perusteltua, jos arvo muodostaa tunnistamisriskin eli toisin sanoen ominaisuus on harvinainen. Tällainen voi olla esimerkiksi muista havainnoista poikkeavat korkeat tulot tai harvinaiset ammattiasemat kuten ministerit. Arvojen poistamisessa tulee ottaa huomioon, ettei anonymisointi onnistu, jos poistettu arvo on kohtuullisin keinoin pääteltävissä.

Myös kokonainen havaintoyksikkö voidaan poistaa, jos henkilön tunnistamattomaksi tekeminen ei ole muuten mahdollista. Toisinaan tämä on parempi ratkaisu kuin rajoittavien menetelmien käyttö koko aineistoon yhden harvinaisen havaintoyksikön tunnistamisriskin poistamiseksi.

Tiedon poistamisessa on tärkeää arvioida poistetun tiedon pääteltävyyttä. Esimerkiksi, työpaikalta x kerätyssä kokonaisaineistossa on kaikkien työntekijöiden ammattinimikkeet, joista yhteen luokkaan kuuluu vain kaksi henkilöä. Tämän luokan muuttaminen esimerkiksi sysmis-arvoksi ei ole hyvä anonymisointiratkaisu, sillä alkuperäinen arvo voi olla pääteltävissä helposti. Poistamisen sijaan tilanteessa voisi käyttää ammattinimikkeiden karkeistusta tai luokkien yhdistämistä.

Avomuuttujien tekstivastauksien muokkaus

Avoimet kysymykset, joihin vastaajat voivat omin sanoin kirjoittaa vastauksensa, sisältävät toisinaan tunnisteita. Ne voivat koskea joko vastaajia itseään tai kolmansia henkilöitä. Vastauksista saatava informaatio ei kärsi ratkaisevasti, vaikka niiden sisällöstä poistetaan tunnistetiedot (nimet, puhelinnumerot, sähköpostiosoitteet jne.) Muilta osin avoimiin kysymyksiin perustuvien muuttujien tunnistamisriski tulee arvioida tapauskohtaisesti suhteessa aineiston aihepiiriin ja taustamuuttujiin.

Anonymisoidut kohdat voi merkitä hakasulkeilla ja sisään voi kirjoittaa karkeamman luokittelun tai [tieto poistettu]. Avovastausten anonymisoinnissa tulee tarkistaa, ettei poistettu arvo ole harvinainen pääteltävissä oleva tieto. Esimerkiksi aineistossa, joka on tehty kaikille koulun x opettajille, eräs opettaja kertoo avovastauksessa työskentelevänsä koulun ainoassa henkilökunnaltaan pienessä sivuopetusyksikössä y. Koska opettajia sivuyksikössä on vain kolme, tieto on harvinainen ja se tulee poistaa esim. tapaan: [tieto poistettu]. Tulee huomata, ette sivuyksikön y anonymisointi tapaan: [koulun x sivuyksikkö y poistettu] ei riitä, sillä tieto yksiköstä on pääteltävissä sivuyksikön ollessa ainoa laatuaan. Avovastauksista tulee poistaa myös kaikki tiedot, joiden perusteella voidaan päätellä opettajan työskentelevän erillisyksikössä y, ei ainoastaan erillisyksikön nimi. Avomuuttujien anonymisoinnissa voi käyttää apuna kvalitatiivisten aineistojen anonymisointiohjeita.

Otoksen käyttäminen koko aineiston sijasta

Yksi Tilastokeskuksen usein käyttämä keino estää tunnistettavuus on luovuttaa tutkimuskäyttöön kokonaistutkimuksen sijasta otos aineistosta. Tällöin analysoidaan vain osajoukkoa koko perusjoukon sijaan ja otoksen satunnaisuus varmistetaan erilaisin otantamenetelmin.

Tietoarkiston aineistot ovat pääsääntöisesti otoksia.

Muuttujan arvojen uudelleen luokittelu

Muuttujan poistamista parempi vaihtoehto on usein muuttujan saamien arvojen uudelleen luokittelu. Esimerkiksi vastaajan ilmoittaman koulun nimen tilalle voidaan muodostaa luokat yläaste, lukio, ammattikoulu jne. Myös tarkka ikä, asuinalue ja ammatti voidaan luokitella tunnistamisen estämiseksi. Esimerkiksi syntymäaika kuukauden ja päivän tarkkuudella voidaan luokitella joko iäksi tarkkana vuosimääränä tai tarvittaessa 3–5 vuoden välein rajattuihin ikäluokkiin.

Aluemuuttujista postinumeromuuttujan voi tarvittaessa muuttaa esimerkiksi viisinumeroisesta kolme- tai kaksinumeroiseksi. Samoin kuntamuuttujan voi tarvittaessa muuttaa kahdeksi eri muuttujaksi: tilastolliseksi kuntaryhmitykseksi (kaupunkimaiset kunnat, taajaan asutut kunnat, maaseutumaiset kunnat) ja maakunnaksi tai suuralueeksi. Näin tunnistettavuusriskiä pienennetään hävittämättä silti olennaisesti tärkeää taustatietoa.

» Tilastokeskuksen alueluokitukset

Ammattimuuttuja voidaan karkeistaa ammattiluokitukseksi (Johtajat; Erityisasiantuntijat; Asiantuntijat; Toimisto- ja asiakaspalvelutyöntekijät; Palvelu- ja myyntityöntekijät; Maanviljelijät, metsätyöntekijät ym.; Rakennus-, korjaus- ja valmistustyöntekijät; Prosessi- ja kuljetustyöntekijät; Muut työntekijät; Sotilaat) tai ammattiasemaluokitukseksi (Yrittäjät; Työnantajayrittäjät; Yksinäisyrittäjät; Palkansaajat; yrittäjäperheenjäsenet; Työnantajaperheenjäsenet; yksinäisyrittäjäperheenjäsenet; Muut).

» Tilastokeskuksen henkilöluokitukset

Tunnistamisriskiä voi pienentää myös luokittelemalla pelkästään muuttujan saamat ääriarvot. Tyypillisesti tällainen muuttuja on esimerkiksi tulomuuttuja, jossa suurimpien tulojen saajille tehdään oma luokka ja muut arvot pysyvät vastaajien ilmoittamina tarkkoina euromäärinä. Menelmästä käytetään myös termiä TOP-koodaus.

Tunnisteita voi poistaa myös luokittelemalla avomuuttujien vastaukset. Yksinkertaisinta se on avokysymyksillä saatujen taustatietojen osalta (asuinpaikka, käydyt koulut, työpaikka jne.) Esimerkiksi terveydenhuollon ammattilaisille suunnatussa kyselyssä on voitu avomuuttujalla kysyä erikoistumisalaa. Muiden taustamuuttujien perusteella useammalle alalle erikoistuneet lääkärit on mahdollista tunnistaa. Yksi ratkaisu on koodata kyseinen avomuuttuja ja tehdä yksi luokka nimellä 'kaksi tai useampi erikoistumisalaa'.

Toisinaan avomuuttujan tekstiarvot voi muuttaa dikotomiseksi muuttujaksi (vastattu – ei vastattu), jos tekstivastaukset voisivat johtaa muiden taustamuuttujien kanssa tunnistamisriskiin. Tällaisia ovat esimerkiksi lomakekysymykset, joiden vastauksista osa on luokiteltuja ja luokkiin kuulumattomille on muodostettu avomuuttuja "Muu, mikä?". Jos kysytään esimerkiksi tutkittavan äidinkieltä (suomi; ruotsi; muu mikä?) tai uskontokuntaa (evankelis-luterilainen; ortodoksinen; muu mikä?), avomuuttujan saamat tekstivastaukset voivat muiden taustamuuttujien kanssa muodostaa tunnistamisriskin. Tällöin poistetaan avomuuttujan saamat tekstivastaukset ja aineistoon jätetään vain tieto siitä, onko tähän vastattu vai ei.

Muuttujan arvojen harkinnanvarainen luokittelu

Muuttujien luokittelu tai karkeistaminen voi vähentää merkittävästikin tilastollisten päätelmien teon mahdollisuutta. Harkinnanvaraisesti toteutettu arvojen yhdistäminen voi olla hyvä keino tasapainoilla tunnistamisen ja tilastollisen hyödynnettävyyden välillä. Jos muuttujan jakauma on välillä 1–20 ja suurin osa havainnoista on välillä 1–12, hyvä vaihtoehto voi olla jättää alle 10 arvot sikseen ja yhdistää isommat arvot luokkiin esim. 13–15, 16–20. Huomiota on kiinnitettävä sekä muuttujan keskiarvon muuttumiseen että muuttujien väliseen korrelaatioon luokittelun yhteydessä.

K-anonymiteetti ja l-diversiteetti

Tunnistamisriskin arviointia varten on tilastollisia anonymisointityökaluja, jotka auttavat tutkijaa alussa hahmottamaan ja lopussa perustelemaan oman aineiston anonymiteettiä. Yksi tunnetuin on k-anonymiteettiperiaate, jossa pyritään yhdistämään parhaimmat ominaisuudet tilastollisesta anonymisoinnista sekä anonymiteetistä (Elliot ym. 2016). K-anonymiteettiperiaattetta ja l-diversiteettiä voi käyttää esimerkiksi silloin, kun aineisto on kokonaisaineisto ja aineistoon sisältyy epäsuoria muuttujia, joiden perusteella voidaan tunnistaa yksittäinen henkilö tai rypäs. Tällaisia voivat olla esim. potilasaineistot. K-anonymiteettiperiaatetta ja l-diversiteettiä voi käyttää myös anonymisoinnin onnistumisen varmistamiseen, kun muilla tavoin anonymisointia on jo tehty. Internetistä on saatavilla ilmaisia ohjelmia k-anonymiteetin toteuttamiseksi, kuten ARX ja µ-ARGUS (em.).

K-anonymiteettiperiaatteella pyritään estämään havaintoyksikön paljastumista muodostamalla ryhmä, jossa on vähintään k määrä tunnisteellisilta epäsuorilta muuttujiltaan samanlaista henkilöä (El Emam & Dankar 2008). Toisin sanoen jokaisessa muuttujan luokassa on oltava vähintään k-määrä havaintoyksiköitä. Esimerkiksi tilanteessa, jossa aineisto sisältää vain yhden yli 100-vuotiaan miehen Tampereelta, mies tulee luokitella niin, ettei hän ole ryhmänsä ainoa. Jos aineistossa on muita yli 90-vuotiaita miehiä Tampereelta, mies voidaan luokitella tähän ryhmään. K:lle ei ole eksaktia lukua, vaan se määritetään aineistokohtaisesti. Toisinaan voi riittää, että k on 2 (Cabrera 2017), mutta on varmempaa, jos k on vähintään 3. On myös esitetty ajatus, että k:n on oltava mielellään 5–10. (Anguli, Blitzstein & Waldo 2015; Machanavajjhala Ashwin, Kifer et al. 2007.)

K-anonymiteetin ongelma on, ettei se estä päättelemästä arkaluonteista arvoa, jos kaikki k-anonymiteettiryhmän henkilöt saavat tietyssä muuttujassa saman arkaluonteisen arvon. Arkaluonteisen tiedon paljastumista varten on kehitetty l-diversiteetin käsite. L-diversiteetillä varmistetaan, että samanlaisten havaintojen ryhmässä on arkaluonteisen muuttujan kohdalla vähintään l-määrä eri arvoja. Toisin sanoen arkaluonteisen muuttujan arvoilla tulee olla keskinäistä vaihtelua, jotta k-anonyymin ryhmän arvo ei ole pääteltävissä yksiselitteisesti tietyksi arkaluonteiseksi tiedoksi. (EU:n WP 29 lausunto 05/2014.) Tulee huomata, ettei l-diversiteetti ole yleensä tunnistamista hankaloittava menetelmä, vaan se estää arkaluonteisen tiedon paljastumisen, jos henkilö on jo tunnistettu aineistosta (Cabrera 2017).

Esimerkki l-diversiteetistä: Klinikan kaikille syömishäiriöisille tehdyssä aineistossa on arkaluonteinen tieto siitä, onko henkilö yrittänyt itsemurhaa viimeisen kahden vuoden aikana (vastaus: kyllä/ei). Vastaajista muodostetaan k-anonyymejä ryhmiä, niin että k on vähintään kolme valituissa tunnisteellisissa epäsuorissa muuttujissa (ikäluokka, sukupuoli ja paikkakunta). Tästä voidaan käyttää ilmaisua 3-anonymiteetti (Cabrera 2017). Tarkasteltaessa arkaluonteista tietoa itsemurhayrityksistä huomataan, että ikäluokassa 25–34 olevat tamperelaiset miehet ovat kaikki yrittäneet itsemurhaa viimeisen kahden vuoden aikana. Voidaan siis päätellä, että jos ikäluokkaan kuuluva tamperelainen mies on ollut klinikalla hoidossa kyselyn aikaan, hän on yrittänyt itsemurhaa. Jotta l-diversiteetin vaatimus (esim. l=2) toteutuisi, 25–34-vuotiaiden ryhmässä tulisi olla niin itsemurhaa yrittäneitä kuin niitä, jotka eivät ole sitä yrittäneet. Jos arvoja löytyy kahdenlaisia, siitä voidaan käyttää nimitystä 2-diversiteetti (em.). Koska edellisessä esimerkissä l-diversiteetti ei toteudu, yksi vaihtoehto on karkeistaa taustamuuttujia esim. luokitella kuntamuuttuja maakunnaksi.

Jos halutaan säilyttää alkuperäisen aineiston tiedot mahdollisimman tarkasti l-diversiteetin toteuttamisessa, voidaan käyttää t-läheisyyden periaatetta. T-läheisyyden periaate toteutuu, kun kussakin luokassa on vähintään l eri arvoa ja lisäksi arvot esiintyvät niin monta kertaa, että se vastaa kunkin arvon alkuperäistä jakaumaa. Näitä asioita on avannut myös EU:n tietosuojatyöryhmä (EU:n WP 29 lausunto 05/2014).

Kohinan lisääminen (adding noise)

Kohinan lisäämisellä vähennetään muuttujien arvojen tarkkuutta niin, että syntyy epävarmuus havaintojen oikeellisuudesta. Kohinaa voidaan tehdä usealla eri tavalla. Muuttujien arvot voidaan muuttaa esimerkiksi ilmoittamalla ikä +-2 vuoden tarkkuudella. Datan käyttäjä siis luulee, että kyseessä on muuttujan oikea arvo, vaikka todellisuudessa näin ei ole. Kohinaa voi lisätä myös kertomalla alkuperäiset arvot tietyllä satunnaisluvulla tai muuttamalla luokiteltuja arvoja toisiksi ennalta määrättyjen muutostodennäköisyyksien perusteella. Jälkimmäisestä esimerkki on aineisto, jossa vaihdetaan 15 % pohjoiskarjalaisista kainuulaisiksi. Lisäksi tunnisteellisia jatkuvien muuttujien arvoja voi aggregoida esimerkiksi ryhmäkeskiarvoiksi. Samalla tulee huolehtia, että jokaiseen ryhmään tulee riittävästi havaintoja. (Cabrera 2017.) Esimerkiksi sairaalan arkaluonteisten potilasryhmien lääkekulut korvataan ryhmään kuuluvien potilaiden keskimääräisillä lääkekuluilla.

Permutaatio

Permutaatio tarkoittaa epäsuorien tunnistemuuttujien saamien arvojen vaihtamista havaintoyksiköiden välillä. Vaihtamalla arvoja vastaajien välillä muuttujan varianssi ja jakauma eivät muutu, mutta muuttujan ja yksilön muiden muuttujien välinen korrelaatio häviää. Permutaatioon kannattaakin valita sellaiset muuttujat, joilla ei ole keskinäistä yhteyttä. Menetelmä on puutteellinen, jos aineistossa on tiettyjen muuttujien välillä loogiset yhteydet ja valheellisiksi muutettujen arvojen oikeat arvot voidaan päätellä niiden perusteella. (EU:n WP 29 lausunto 05/2014.) Esimerkiksi tilanteessa, jossa tiedetään entuudestaan kahdella tekijällä olevan vahva korrelaatio ja anonymisaation pitäisi kohdistua toiseen näistä, kannattaa miettiä toisen anonymisointitekniikan hyödyntämistä. Permutaatiolla poistettu tieto voi olla pääteltävissä korrelaation perusteella, ja näin anonymisoinnin purkamisen mahdollisuus kasvaa.

Anonymisoinnin varmistus

Elliotin ym. (2016 ) sanoin ”anonymisointi ei ole eksaktia tieteen harjoittamista”, joten riittävän anonymisoinnin arviointi voi olla joskus ongelmallista. Anonymisoinnin menetelmän valintaa ja toteutuksen onnistumista voi kuitenkin arvioida tehokkaasti seuraavien EU:n tietoryhmän lausunnosta (WP 29 lausunto 05/2014) poimittujen kysymysten avulla. Jos vastaus kahteen ensimmäiseen on kielteinen ja viimeisessä todennäköisyys päättelyyn hyvin pieni, aineiston anonymiteetti on hyvällä mallilla.

  1. Havainnon erottaminen joukosta: Voiko anonymisoinnin jälkeen henkilö olla edelleen tunnistettavissa aineistosta?
  2. Yhdistettävyys: Voiko vastaajien tiedot yhdistää toiseen aineistoon tai ulkopuoliseen tietoon, ja mahdollisesti sitä kautta tehdä henkilöitä tunnistettaviksi?
  3. Päättely: Millä todennäköisyydellä anonymisoitujen muuttujien arvoista voi päätellä muuttujan alkuperäisen arvon?

Kvalitatiivisen aineiston anonymisointi

Tässä esiteltäviä keinoja voi soveltaa sekä itse aineistoihin että julkaisuissa esitettäviin otteisiin aineistosta. Ohjeet koskevat vain tekstimuodossa olevaa aineistoa. Äänen ja videotallenteiden anonymisointiin Tietoarkisto ei tarjoa ohjeita.

Ensimmäinen lähtökohta kvalitatiivisen tekstiaineiston anonymisoinnissa on hävittää aineiston tunnisteita sisältävä taustamateriaalit. Sellaisia ovat esimerkiksi tutkittavien yhteystiedot ja taustatietolomakkeet.

Kun teet muutoksia tunnisteita poistaen tai muokkaamalla, merkitse muutokset selkeästi. Voit käyttää merkitsemiseen hakasulkeita: [muutettu teksti] tai tuplahakasulkeita [[muutettu teksti]].

Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa alla kuvatuista keinoista.

Henkilönimien vaihtaminen peitenimiksi

Henkilönimien muuttaminen peitenimiksi eli pseudonyymeiksi on eniten käytössä oleva kvalitatiivisten aineistojen anonymisoinnin keino. Pseudonymisointi tekee ainiestosta kuitenkin anonyymin vasta, kun pseudonyymien alkuperäiset arvot on hävitetty kokonaan. Tutkimusprojekteissa peitenimien valinta ja käyttö täytyy suunnitella yhteisesti johdonmukaiseksi. Käytännön apuna voi käyttää yhteistä nimistöä esimerkiksi taulukkotiedostona. Anonymisoitavassa aineistossa käytetään samoja peitenimiä kuin julkaisuotteissa.

Henkilönimien anonymisoinnissa pseudonyymi on parempi vaihtoehto kuin nimen poistaminen kokonaisuudessaan tai jokaisen erisnimen korvaaminen esimerkiksi kirjainmerkillä tai lyhyellä merkkijonolla [x] tai [---]. Peitenimien käyttö ihmisistä puhuttaessa säilyttää aineiston sisäisen koherenssin. Mikäli aineistossa puhutaan toistuvasti useista eri ihmisistä, menetetään aineiston ymmärrettävyys, jos henkilönimet vain poistetaan.

Sekä etu- että sukunimen muodostavan pseudonyymin käyttö voi olla perusteltua translitteroidun puheen luontevuuden säilyttämiseksi tai tutkittavien erottamiseksi toisistaan, jos tutkittavien määrä on suuri. Tavallisesti aineistossa esiintyvien kokonimien sukunimet voi kuitenkin poistaa samalla, kun etunimet vaihdetaan peitenimiksi. Mikäli aineistossa puhutaan jostakusta vain sukunimellä, myös pseudonyymiksi valitaan sukunimi.

Aineistossa voidaan viitata nimeten henkilöihin, jotka ovat julkisesti tunnettuja politiikassa, elinkeinoelämässä tai muissa työtehtävissään. Tällöin nimiä ei vaihdeta peitenimiksi. Peitenimi tai kategorisointi (esim. [paikallinen kunnallispoliitikko]) tehdään kuitenkin, jos aineisto sisältää mainitun julkisuuden henkilön yksityiselämään liittyviä, entuudestaan ei-julkisia tietoja.

Erisnimien kategorisointi

Ilman peitenimeä voi kirjata henkilön, joka mainitaan vain kerran tai muutaman kerran ja jolla ei ole keskeistä merkitystä aineiston sisällön ymmärrettävyyden kannalta. Tällöin aineistoon kirjataan nimen tilalle kategoria [nainen], [mies], [sisko], [isä], [työtoveri, nainen], [naapuri, mies] jne. Muillekaan erisnimille ei välttämättä tarvitse keksiä peitenimeä. Mikäli aineistoyksikössä (henkilöhaastattelu, ryhmähaastattelu, elämäkerta, kirjoitus, kirje jne.) puhutaan/kirjoitetaan vain yhdestä koulusta tai asuinpaikasta, voidaan ne merkitä esimerkiksi [yläasteeksi] ja [kotikaupungiksi] tai [asuinlähiöksi].

Aineiston sisältämien yksilöivien työpaikkojen tai muutoin aineistossa epäsuoriksi tunnisteiksi muodostuvien yritysten ja toimipaikkojen karkeistamisen apuna voi käyttää Tilastokeskuksen toimialaluokitusta. Yhtä mahdollista on yksinkertaisesti muuttaa esimerkiksi Proximo Ab [tilitoimistoksi], Muoti-Titaani Oy [vaatetusliikkeeksi], Ceiko [konepajaksi], Koskikeskus [ostoskeskukseksi] jne.

» Tilastokeskuksen toimialaluokitus

Tekstin sisällä esiintyviä paikkoja voi karkeistaa muuttamalla ne esimerkiksi [taajamaksi], [kaupunginosaksi], [kyläksi]. Jos ei ole varmuutta, onko kyseessä kunta vai lähiö, voi apuna käyttää sähköisen MOT-sanakirjaston asutusnimihakemistoa, johon pääsee korkeakoulujen sisäverkosta tai Nelli-portaalin kautta.

On hyvä muistaa, että tutkittavan asuinpaikkatiedon hävittäminen koskee myös aineiston sisällä olevia paikkatunnisteita. Kun ei haluta paljastaa tutkittavan asuinkuntaa, tulee myös tekstin sisällä olevat täsmälliset paikkatiedon viitteet poistaa. Jos tutkittava kertoo käyvänsä usein kodistaan kävelymatkan päässä olevassa Tillikassa tai Kaivohuoneella muutetaan se [ravintolaksi], jos tutkittavien asuinkuntatieto halutaan muutoinkin poistaa.

Arkaluonteisten tietojen harkinnanvarainen poistaminen tai muuttaminen

Yksilöivät arkaluonteiset tiedot tulee poistaa, kategorisoida tai luokitella. Esimerkiksi AIDS:n voi kategorisoida aineiston ensimmäisessä kohdassa [vaikeaksi pitkäaikaissairaudeksi] ja sen jälkeen se voidaan korvata [sairaudella], mikäli aineistoa tutkiva voi kustakin yhteydestä päätellä, että kyseessä on aineiston alussa mainittu sairaus.

Arkaluonteisten tietojen poistaminen tai muuttaminen/karkeistaminen on perusteltua, kun a) tiedot paljastuvat sattumalta, b) kyseiset tiedot eivät ole tutkimuksen kohteena ja c) arkaluonteinen tieto muodostaa tunnistamisriskin. Kun tarkoitus onkin esimerkiksi tutkia erilaisia vakavia sairauksia sairastavien ihmisten elämää, tunnistettavuusriskit poistetaan käyttämällä muita anonymisointikeinoja sen sijaan että muutettaisiin aineistosta juuri tutkimuksen kohteena olevaa tietosisältöä.

Taustatietojen kategorisointi

Taustatiedot, kuten sukupuoli, ikä, ammatti, työpaikka, koulu, asuinpaikka voivat olla hyvin oleellisia aineiston ymmärtämiseksi. Taustatiedot ovat myös tärkeää kontekstitietoa jatkotutkimuksissa. Täsmällisiä taustatietoja voi luokitella kategorioihin samaan tapaan kuin kvantitatiivisessa aineistossa luokitellaan epäsuoria muuttujia. Apuna voi käyttää esimerkiksi Tilastokeskuksen luokitteluja. Itse laaditun luokituksen selitykset kirjataan aineiston kuvaustietoihin.

Luokittelu on usein parempi vaihtoehto kuin taustatietojen poistaminen kokonaan. Tutkimusta varten haastatellun Maija Mainion oikeat taustatiedot voisivat olla seuraavat: naimisissa oleva 43-vuotias Tampereella asuva Tampereen yliopiston tutkimuspalveluissa ammattinimikkeellä hankeasiantuntija työskentelevä, jolla on 8- ja 11-vuotiaat lapset. Tunnistamisen estämiseksi taustatiedot voitaisiin luokitella esimerkiksi seuraavalla tavalla:

  • Sukupuoli: Nainen
  • Ikä: 41–45
  • Työpaikka: yliopisto
  • Ammatti: tutkimushallinnon asiantuntija
  • Kotitalouden koostumus: mies ja kaksi kouluikäistä lasta
  • Asuinpaikka: kaupunkimainen kunta Länsi-Suomessa

Yllä olevassa luokitteluesimerkissä työpaikkaa eli yliopistoa ei tarvitse luokitella karkeammin julkisen sektorin toimipaikaksi, sillä muut jäljelle jäävät taustatiedot eivät mahdollista edes osittaista tunnistamista. Kyseessä voisi olla joko Tampereen tai Jyväskylän yliopisto tai Länsi-Suomen suuralueella sijaitseva muun yliopiston erillisyksikkö.

Taustatietojen luokittelun tarve arvioidaan suhteessa aiemmin mainittuihin muihin anonymisoinnin keinoihin ja aineiston sisältöön.

» Tilastokeskuksen henkilöluokitukset
» Tilastokeskuksen alueluokitukset
» Tilastokeskuksen toimialaluokitus

Tunnistetietojen vaihtaminen

Kvalitatiivisen aineiston anonymisointiin voi joskus käyttää myös tietojen vääristämistä (vrt. kvantitatiivisen datan tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä). Esimerkiksi tarkka syntymäaika - joka tunnisteena tulisi poistaa - voi joskus olla merkityksellinen aineiston sisällön ymmärtämiselle. Yksi kuvitteellinen tilanne voisi olla seuraava:

Haastateltava on itse syntynyt 1.5.1958 ja hän on istunut kuolemaa tekevän lapsensa sairaalavuoteen äärellä vappupäivänä 2005. Haastattelussa hän kuvaa laveasti ristiriitaisia tuntemuksia, mitä juhlinta kaduilla ja lapsen kuolema haastateltavan omana syntymäpäivänä liittävät yhteen.

Kuvatun kaltaisessa tapauksessa vappupäivän poistaminen aineistosta heikentäisi aineiston sisällön ymmärtämistä. Päivämäärä (vappu) voidaan säilyttää aineistossa, kun haastateltavan syntymävuosi muutetaan esimerkiksi kaksi vuotta todellista aiemmaksi tai myöhemmäksi.

Tiedostojen piilotetun teknisen metadatan poistaminen

Aineistojen anonymisoinnin yhteydessä on tärkeä muistaa tarkastaa, sisältävätkö arkistoitavat tiedostot sellaista piilotettua teknistä metadataa, joka voi mahdollisesti paljastaa tutkittavan henkilöllisyyden. Piilotettua teknistä metadataa ovat tiedostoihin usein automaattisesti tallentuvat tiedot esimerkiksi käytetyn laitteen omistajasta, sijainnista tai käyttäjäprofiilin haltijasta. Teknistä metadataa tallentuu tiedostoihin paitsi tiedostojen luomisvaiheessa, myös niitä muokattaessa.

Erityisesti aineistoissa, joissa tutkittava on itse luonut arkistoitavan tiedoston, on piilotettuun tekniseen metadataan perustuva tunnistamisriski suuri. Tällaisia aineistoja ovat esimerkiksi erilaiset kirjoitus- ja valokuva-aineistot. Koska kirjoitusaineistot ovat yleensä tutkittavien itsensä tiedostoiksi tallentamia tekstejä, viittaa tekstitiedostojen piilodata usein suoraan tutkittavaan. Tekstiaineistojen lisäksi myös digitaalisen valokuvan EXIF-data voi sisältää hyvinkin tarkkoja tunnistetietoja, esimerkiksi kuvauspaikan tarkat koordinaatit ja jopa kuvaajan nimen.

Piilotetun teknisen metadatan poistaminen onnistuu yleisimmillä tekstin- ja kuvankäsittelyohjelmilla (esim. MS Office, Windows File Explorer, Photoshop, GIMP, Irfanview). Valokuvien EXIF-tietojen poistoon on olemassa myös tarkoitukseen tehtyjä ohjelmia, joiden avulla piilotetun metadatan poisto onnistuu helposti (esim. Easy Exif Delete). Ohjeet piilotetun teknisen metadatan poistoon vaihtelevat riippuen käytettävästä ohjelmasta ja ohjelmaversiosta. Katso tarkemmat ohjeet käyttämäsi ohjelman omilta verkkosivuilta.

Käytännön vinkkejä

  • Tee kirjallinen anonymisointisuunnitelma tutkimusaineistollesi.
  • Tarkista aineistotiedostoihin liittyvät taustamateriaalit, sillä myös ne voivat myös sisältää tuhottavia tai anonymisoitavia tunnisteita (tutkittavien yhteystiedot, paperilomakkeet jne.)
  • Muista tarkistaa, ettei aineistoon jää myöskään tunnistetietoja kolmansista henkilöistä.
  • Toteuta kvantitatiivisen aineiston anonymisointi käyttämäsi tilasto-ohjelman syntaksin avulla (lisätietoa syntaksin käytöstä).
  • Käytä tekstitiedostojen anonymisoinnissa etsi--korvaa -komentoa tekemällä muutokset yksi kerrallaan.
  • Tarkista, esiintykö aineistossa sama henkilö eri nimillä, esimerkiksi Matti myös Masana tai Matsina.
  • Helpota tekstitiedoston anonymisoinnin suunnittelua kirjaamalla litteraattiin erikoismerkki jokaisen henkilö- ja erisnimen eteen.
  • Huolellisuus palkitaan.

Tunnistetaulukko

Alla olevaan taulukkoon on kirjattu erilaisia tunnisteita. Henkilötietolain mukaiset arkaluonteiset tiedot on merkitty tähdellä (*). Kunkin tunnistetiedon kohdalla näkyy tunnisteen luonne (suora tunniste; vahva epäsuora tunniste; epäsuora tunniste).

Taulukon viimeiseen sarakkeeseen on kirjattu kunkin tunnisteen yksinkertaisimmat anonymisointitekniikat. Poista tarkoittaa poistamista, muuta tarkoittaa tiedon muuttamista (Helena muutetaan Merviksi) ja luokittele tarkoittaa luokittelua.

Osa tunnisteista voi olla luonteeltaan sekä vahvoja epäsuoria tunnisteita että epäsuoria tunnisteita. Harvinainen ammatti tai asema on vahva epäsuora tunniste, kun taas yleinen ammattinimike on tavallinen epäsuora tunniste.

Taulukko ei ole tyhjentävä, mutta sitä tutkimalla voi löytää vinkkejä oman tutkimusaineiston tunnisteiden määrittämiseen ja anonymisointiin.

Taulukko 1.

Tunnistetieto Suora tunniste Vahva epäsuora tunniste Epäsuora tunniste Anonymisointitekniikka
Henkilötunnus x     Poista
Koko nimi x     Poista/Muuta
Sähköpostiosoite x x   Poista
Puhelinnumero   x   Poista
Postinumero     x Poista/Luokittele
Kaupunginosa     x Luokittele
Asuinkunta     x Luokittele
Maakunta     x (Luokittele)
Suuralue     x  
Tilastollinen kuntaryhmä     x  
Puhetallenne x     Poista
Videotallenne henkilö(i)stä x     Poista
Valokuva henkilöstä x     Poista
Syntymäaika   x   Luokittele
Ikä     x Luokittele
Sukupuoli     x  
Siviilisääty     x  
Perheen koostumus     x (Luokittele)
Ammatti   (x) x Luokittele
Toimiala     x  
Työmarkkina-asema     x  
Koulutus     x Luokittele
Koulutusala     x  
Äidinkieli     x Luokittele
Kansallisuus     x (Luokittele)
Työpaikka   (x) x Luokittele
Auton rekisteri   x   Poista
Tutkittavan julkaisun/teoksen nimike   x   Luokittele
Verkkosivun osoite   (x) x Poista
Opiskelijatunnus   x   Poista
Vakuutusnumero   x   Poista
Tilinumero   x   Poista
Tietokoneen IP-osoite   x   Poista
Terveyttä koskevat tiedot *   (x) x Luokittele/Poista
Etninen alkuperä *   (x) x Luokittele/Poista
Rikos tai saatu rangaistus *     x Luokittele/Poista
Ammattiliiton jäsenyys *     x Luokittele
Poliittinen tai uskonnollinen vakaumus *     x Luokittele
Muu luottamustoimi tai jäsenyys   (x) x Luokittele/Poista
Sosiaalihuollon tarve *     x Luokittele/Poista
Sosiaalihuollon tukitoimet ja etuudet *     x Luokittele/Poista
Seksuaalinen suuntautuminen *     x Poista

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2018-02-19