Tunnisteellisuus ja anonymisointi

Tunnisteellisuus ja anonymisointi

Mitä on henkilötieto?

EU:n tietosuoja-asetuksen määritelmän mukaan henkilötiedoilla tarkoitetaan kaikkia tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyviä tietoja. Tunnistettavissa olevana pidetään luonnollista henkilöä, joka voidaan suoraan tai epäsuorasti tunnistaa erityisesti tunnistetietojen, kuten nimen, henkilötunnuksen, sijaintitiedon, verkkotunnistetietojen taikka yhden tai useamman hänelle tunnusomaisen fyysisen, fysiologisen, geneettisen, psyykkisen, taloudellisen, kulttuurillisen tai sosiaalisen tekijän perusteella. (EU:n tietosuoja-asetus, artikla 4, kohta 1.) Määritelmän mukaisesti henkilötiedot tutkimusaineistoissa eivät rajaudu vain tutkittavia koskeviin tietoihin. Tutkimusaineistoihin voi sisältyä tunnistetietoja tutkittavien lähipiiristä tai muista kolmansista henkilöistä. Myös heitä tunnistettavasti käsittelevät tiedot ovat aina henkilötietoja.

Henkilötiedon sisältöä tai luonnetta ei ole rajattu. Kaikki luonnolliseen henkilöön liittyvät tiedot voivat olla henkilötietoja. Tiedot voivat olla väitteitä, mielipiteitä tai arvoarvostelmia. Ne voivat olla objektiivisia tai subjektiivisia. Niiltä ei edellytetä totuutta tai todennettavuutta. Tiedot voivat koskea yksityiselämää, perhe-elämää, terveydentilaa, fyysisiä ominaisuuksia, ammatillista toimintaa tai taloudellista ja sosiaalista käyttäytymistä.

Milloin tieto on tunnisteellista?

Tieto on tunnisteellista, jos sen perusteella voidaan tunnistaa yksittäinen henkilö tai havaintorypäs, kuten samaan kotitalouteen kuuluvat henkilöt. Tunnistaminen voidaan tehdä yhden tai useamman henkilölle tunnusomaisen fyysisen, psyykkisen, taloudellisen, kulttuurisen tai sosiaalisen tekijän perusteella. Ei-ihmisiä käsittelevä tieto voi olla myös tunnisteellista, jos siinä on henkilöihin liittyviä tietoja (Elliot, Mackey, O´Hara & Tudor 2016). Esimerkiksi palolaitosten tiedot hälytyksistä voivat sisältää osoitetietoja.

Tietoja, jotka yksin riittävät tunnistamaan henkilön ovat henkilön koko nimi, henkilötunnus, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet (sormenjälki, kasvokuva, ääni, silmän iiris, kämmenen muoto, käsin tehty allekirjoitus). Näistä käytetään nimitystä suorat tunnisteet tai välittömät tunnisteet.

Yksittäiset tiedot, joiden avulla henkilön voi kohtuullisen helposti tunnistaa ovat esimerkiksi postiosoite, puhelinnumero, auton rekisteri, henkilön julkaiseman teoksen viitetiedot, muu kuin henkilönimenmukainen sähköpostiosoite ja henkilöstä tunnistetietoja sisältävän verkkosivuston osoite, harvinainen ammattinimike, hyvin harvinainen sairaus tai vain yhdelle kerrallaan annettu asema (esimerkiksi puheenjohtajuus yhdistyksessä). Myös harvinainen tapahtuma voi olla avain henkilön tunnistamiseen. Tietoarkistossa näistä käytetään nimitystä vahvat epäsuorat tunnisteet.

Vahvoiksi epäsuoriksi tunnisteiksi luetaan Tietoarkistossa myös yksilöivät koodit, joiden avulla rajatulla henkilöiden joukolla on mahdollisuus tunnistaa henkilö yksiselitteisesti. Tällaisia ovat esimerkiksi opiskelijatunnus, vakuutusnumero, tilinumero, tietokoneen IP-osoite ja vastaavat.

Epäsuoriksi tunnisteiksi luetaan tiedot, jotka yksin eivät riitä tunnistamiseen, mutta yhdistettynä voivat mahdollistaa henkilön tunnistamisen. Epäsuorista tunnisteista käytetään englanniksi termejä quasi-identifier ja indirect identifier. Taustamuuttujia ja epäsuoria tunnisteita ovat esimerkiksi sukupuoli, ikä, koulutus, ammattiasema, pääasiallinen toiminta/työmarkkina-asema, sosioekonominen asema, kotitalouden koostumus, tulot, siviilisääty, kieli, kansallisuus, etninen tausta, työpaikka tai koulu ja asuinaluetta koskevat muuttujat. Asuinaluetta koskevat epäsuorat muuttujat kuuluvat niin sanottuihin aluemuuttujiin, joita voivat olla esimerkiksi postinumero, kaupunginosa, kunta, maakunta, seutukunta ja suuralue.

Myös päivämäärä voi olla epäsuora tunniste. Tavallisin päivämäärä epäsuorana tunnisteena on syntymäaika, mutta myös kuolinpäivämäärät tai uutiskynnyksen ylittäneet tapahtumapäivämäärät ja vastaavat voivat olla epäsuoria tunnisteita tutkimusaineistoissa yhdistettynä muihin tietoihin. Lääke- ja terveystieteen aineistoissa epäsuoria tunnisteita muihin tietoihin yhdistettynä voivat toisinaan olla myös näytteenottoja ja muita hoitotapahtumia koskevat päivämäärät.

Myös pseudonyymit aineistot katsotaan henkilötiedoiksi. Sellaisia ovat esimerkiksi pitkittäistutkimusten aineistot, joissa analysoitavissa aineistoissa on havaintotunnus henkilötunnuksen sijaan ja tutkimusryhmällä on hallussa koodi, jonka avulla tunnisteeton aineisto voidaan yhdistää tutkittaviin henkilöihin.

Tunnisteellisten aineistojen käsittely

Tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua, asiallisesti perusteltua ja tietojen käsittelyyn on laillinen käsittelyperuste (esimerkiksi tutkittavan suostumus tai yleisen edun mukainen tutkimus).

Tutkittavien näkökulmasta tunnisteellisen aineiston käsittely muodostaa riskin, jos heitä koskevat luottamukselliset tiedot vuotavat ulkopuolisille, esimerkiksi tutkittavan lähipiirille, työnantajalle tai viranomaisille. Tämän vuoksi tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista. Tutkittavien yksityisyyden suojaa ei saa vaarantaa esimerkiksi aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla. Henkilötietojen käsittelyyn voi soveltaa tässä käsikirjassa selitettyjä suojatoimia kuten minimointia, pseudonymisointia ja anonymisointia. Anonymisointi on yksi mahdollisuus avata aineistot uudelleenkäyttöön. Tarvittaessa aineistojen suojaamiseen voi käyttää myös käyttöoikeuksien hallinnollisia ja teknisiä tietoturvaratkaisuja.

» Lisätietoa tietoturvasta

Termit haltuun

Anonyymi tieto: Yksittäinen havainto (henkilö) ei ole kohtuullisin keinoin tunnistettavissa annettujen tietojen perusteella tai tietoja muihin tietoihin yhdistämällä. Täysin anonyymiä tietoa ei ole olemassa, mutta hyvin toteutetuin menetelmin voi päästä tulokseen, jossa kohtuullisin keinoin ei voi yksittäisiä henkilöitä tunnistaa. Anonymisoinnilla kuvataan niitä moninaisia tapoja ja välineitä, joilla anonyymi tieto saavutetaan.

Pseudonyymi tieto: Yksittäinen havainto ei ole tunnistettavissa pseudonymisoitujen tietojen perusteella ilman ulkopuolisia lisätietoja. Pseudonymisointi on aineiston tunnisteellisten tietojen poistamista tai korvaamista peitetiedolla tai koodeilla, jotka prosessin jälkeen säilytetään erillään aineistosta ja suojataan organisatorisesti ja teknisesti. Aineisto on pseudonyymi niin pitkään kuin erillään oleva tieto tuhotaan.

De-identifiointi (de-identification): Tunnisteellisten tietojen poistaminen tai muokkaaminen yksittäisen havainnon tunnistamisen ehkäisemiseksi datatiedoston sisällä. Usein de-identifioinnilla tarkoitetaan suorien tunnisteiden poistamista tai peittämistä (Elliot ym. 2016).

De-anonymisointi: Anonyymiksi luokitellun tiedon saattaminen tunnisteelliseksi yhdistämällä tietoja muista lähteistä saataviin tietoihin. Jos anonyymi aineisto onnistutaan de-anonymisoimaan, aineisto joko ei ole ollut alun perin anonyymi tai käytettävissä oleva teknologia on kehittynyt tai henkilöistä on saatavissa muualta aiempaa enemmän tietoja. Anonyymisoinnin kestävyyttä tuleekin arvioida määräajoin (niin sanottu jäännösriskin arviointi).

Erityiset henkilötietoryhmät: Tietosuojalainsäädännön mukaisia henkilötietoja, joista ilmenee rotu tai etninen alkuperä, poliittisia mielipiteitä, uskonnollinen tai filosofinen vakaumus tai ammattiliiton jäsenyys, geneettiset tiedot, henkilön tunnistamista varten käsitellyt biometriset tiedot, terveyttä koskevat tiedot ja seksuaalista käyttäytymistä ja suuntautumista koskevat tiedot.

Minimointi: Henkilötietoja kerätään alun alkaen vain siinä määrin kuin on välttämätöntä tutkimuksen toteuttamiseksi. Henkilötietoja ei saa kerätä vain siltä varalta, että ne saattavat olla hyödyllisiä. Henkilötietojen keräämiselle tulee olla suunniteltu tutkimuksellinen tarve.

Säilytyksen rajoittaminen: Tutkimuksen toteuttamiselle tarpeettomat henkilötiedot poistetaan heti, kun se on mahdollista. Esimerkiksi aineiston keruuvaiheessa tarvitut nimitiedot, osoitteet ja vastaavat tunnisteet hävitetään heti, kun ne eivät ole enää välttämättömiä tutkimuksessa. Samoin tietojen yhdistämiseen tarvittu henkilötunnus voidaan hävittää, kun sitä ei enää tarvita. Säilytyksen rajoittaminen vähentää tunnisteellisten aineistojen käsittelyyn sisältyviä riskejä.

Milloin tieto on anonyymiä, entä pseudonyymiä?

Tieto on anonyymiä eli tunnisteetonta, jos tunnusomaiset piirteet (esimerkiksi epäsuorat tunnisteet yhdistettynä) koskevat samanlaisina useampaa henkilöä ja jos katsotaan, että henkilöä ei voida tunnistaa huomioiden kohtuullisesti toteutettavissa olevat toimenpiteet.

EU:n tietosuoja-asetuksessa anonyymi tieto määritellään toiminnallisesti:

Jotta voidaan määrittää, onko luonnollinen henkilö tunnistettavissa, olisi otettava huomioon kaikki keinot, joita joko rekisterinpitäjä tai muu henkilö voi kohtuullisen todennäköisesti käyttää mainitun luonnollisen henkilön tunnistamiseen suoraan tai välillisesti, kuten kyseisen henkilön erottaminen muista. Jotta voidaan varmistaa, voidaanko keinoja kohtuullisen todennäköisesti käyttää luonnollisen henkilön tunnistamiseen, olisi otettava huomioon kaikki objektiiviset tekijät, kuten tunnistamisesta aiheutuvat kulut ja tunnistamiseen tarvittava aika sekä käsittelyajankohtana käytettävissä oleva teknologia ja tekninen kehitys.

Lähde: Eu: tietosuoja-asetus, johdantolause 26

Anonyymistä aineistosta ei voi tunnistaa yksittäisiä tutkittavia tai kolmansia henkilöitä esimerkiksi epäsuorien tunnisteiden avulla tai yhdistämällä aineistoon muualta saatavia tietoja. Anonyymiin aineistoon ei voi myöskään yhdistää samoja tutkittavia koskevia uusia tietoja ja sen tulee olla peruuttamaton, jotta voidaan puhua anonyymistä aineistosta.

Pseudonyymiksi tiedoksi kutsutaan tietoa, jonka perusteella henkilöä ei voi tunnistaa ilman erillään säilytettäviä lisätietoja. Kun aineisto pseudonymisoidaan, aineiston tunnisteelliset tietosisällöt korvataan joko alkuperäisistä arvoista johdetuilla tai niistä riippumattomilla tiedoilla niin, ettei henkilö ole enää tunnistettavissa. Lisäksi tieto alkuperäisistä arvoista ja muutettujen arvojen muodostamistavoista pidetään erillään pseudonyymistä datasta organisatorisesti ja teknisesti. Organisatorisilla toimenpiteillä tarkoitetaan tietojen suojattua fyysistä käyttöympäristöä ja hallinnollisesti rajattua ja valvottua käyttöoikeutta. Teknisillä toimenpiteillä viitataan tietoturvallisiin tallennusratkaisuihin, kuten tietojen salausjärjestelmiin. (Tarhonen 2016.)

Tieto ei ole pseudonyymiä, jos yksittäinen henkilö on tunnistettavissa aineiston tietojen perusteella ilman erillään pidettäviä lisätietoja. Näin voi olla esimerkiksi tilanteessa, jossa aineiston epäsuorat muuttujat ja harvinaiset havainnot mahdollistavat tunnistamisen, vaikka henkilötunnus ja muut suorat tunnisteet säilytetään suojatusti erillään. Pseudonymisointi ei ole onnistunut myöskään, jos ulkopuolinen pystyy valituista pseudonyymeistä päättelemään alkuperäiset arvot. Näin voi käydä, jos osa alkuperäisistä tunnistetiedoista vain peitetään, esimerkiksi "Arja Kuula-Luumi" muutetaan muotoon "Arxx Kuxx-Luxx" tai henkilötunnus 123456-789E muutetaan muotoon 123456-XXXX. Henkilötunnuksen alkuosa kertoo täsmällisen syntymäpäivän ja vuoden ja on siten jo itsessään varsin vahva epäsuora tunniste. Pseudonymisoinnissa tulee tavoitella ratkaisuja, joiden perusteella ulkopuolinen ei mitenkään pysty päättelemään henkilötietoja.

Pseudonyymistä aineistosta tulee anonyymi, kun erillään säilytettävät tunnistetiedot (koodiavain, henkilötiedot ja tiedot muutettujen arvojen muodostamistavoista) hävitetään. Jos pseudonymisoidun aineiston erillään säilytettäviä henkilötietoja ei voi hävittää, aineistosta voi tehdä anonyymin tuhoamalla koodiavain ja muutettujen arvojen muodostamistiedot sekä järjestämällä aineisto uudella tavalla, esimerkiksi arvottujen uusien havaintotunnusten mukaan. Aineisto on anonyymi, jos sitä ei voi kohtuullisin keinoin enää yhdistää alkuperäisiin henkilötietoihin.

Esimerkiksi pitkittäistutkimuksen aineisto on tunnisteellinen niin kauan kun tutkimusryhmällä on hallussa koodiavain tutkittavien henkilötietoihin. Aineistosta ei tule myöskään anonyymiä, vaikka alkuperäinen koodiavain olisi koodattu kahteen kertaan (ns. kaksoiskoodaus). Koodaus ja kaksoiskoodaus ja ylipäänsä aineistojen pseudonymisointi ovat kuitenkin hyödyllisiä suojausmenetelmiä, kun halutaan estää tunnisteellisten tietojen käyttö analyyseissä. Koodaus ja kaksoiskoodaus kuuluvat esimerkiksi lääketieteen tutkimuskäytäntöihin.

Lisätietoa pseudonymisoinnista ja sen toteuttamiseen käytettävistä menetelmistä, voi lukea esimerkiksi Euroopan unionin verkko- ja tietoturvaviraston (ENISA) raportista: Recommendations on shaping technology according to GDPR provisions. An overview on data pseudonymisation  (November 2018).

Minimointi eli miten kerätä aineisto niin, ettei se sisällä turhia tunnisteita?

Ydinajatus anonymisointityön helpottamisessa on alkujaan välttää turhien, yksityiskohtaisten tai tutkimuksen kannalta merkityksettömien tietojen keräämistä. Huolellisessa suunnittelussa punnitaan, mitä taustatietoja henkilöstä tarvitaan tutkimukseen ja millä tarkkuudella. Lisäksi kysymysten muotoilulla vaikutetaan vastausten yksityiskohtaisuuteen. Määrällisissä tutkimuksissa kerättäviä tietoja pystyy kontrolloimaan helpommin verrattuna laadulliseen tutkimukseen valmiiksi luokiteltujen vastausvaihtoehtojen vuoksi.

Tulee muistaa, että myös tietosuoja-asetus kieltää tarpeettomien henkilötietojen keruun. Ole erityisen tarkka tietojen keruussa, jos keräät erityisiin henkilötietoryhmiin kuuluvia henkilötietoja, joista ilmenee esim. etninen alkuperä, poliittinen mielipide, uskonnollinen tai filosofinen vakaumus, terveystietoja tai seksuaalista käyttäytymistä ja suuntautumista koskevia tietoja.

Alla on vinkkejä aineiston keruuseen määrällisille ja laadullisille aineistoille minimoinnin näkökulmasta.

Kvantitatiiviset aineistot

  • Älä kerää tietoja, jotka ovat harvinaisia kohdejoukossa. Jos harvinaisesta asiasta halutaan tietoa, tieto kannattaa kysyä valmiiksi luokiteltuna tai karkeistettuna, niin että harvinaisten joukossa on useampi harvinainen asia. Käytä luokittelussa hyödyksi tutkimuksessa yleensä käytettyjä henkilöluokituksia, joista voi katsoa mallia esim. Tilastokeskuksen sivuilta .
  • Jos haluat minimoida henkilötiedot, älä käytä avokysymyksiä. Et voi kontrolloida niiden sisältöä. Jos silti haluat käyttää avokysymyksiä, mieti miten kysymyksen asettelulla voi vaikuttaa saataviin tietoihin. Älä kysy myöskään taustatietoja, kuten ammattia tai koulutusta avokysymyksillä, vaan luokiteltujen muuttujien avulla. Pohdi tarkkaan avokysymyksellä saatavan tiedon hyödyllisyyttä ja käytettävyyttä tulevaisuuden tutkimuksessa. Esim. kysymyspatteristojen jälkeen tulevat muu, mikä -tyyppiset avovastaukset tuottavat usein ainutlaatuisia tai harvinaisia tietoja, joiden perusteella henkilön voi tunnistaa.
  • Luokiteltuna kannattaa kerätä muun muassa seuraavia tietoja: ammatti, tulot, ammattiasema, koulutus, kansalaisuus ja lasten lukumäärä. Arvoja ei tarvitse aina luokitella kokonaan vaan voi käyttää myös ääriarvojen luokittelua (esimerkiksi lasten lukumäärä: 0; 1; 2; 3; 4-tai enemmän).

Kvalitatiiviset aineistot

  • Jos aineistonkeruutilanne ja sen luonne antaa mahdollisuuden, voit ystävällisesti muistuttaa tutkittavia ennen materiaalin keruuta, että henkilöiden nimiä, tarkkoja päivämääriä, työpaikkojen nimiä ja etenkin kolmansiin (ulkopuolisiin) henkilöihin liittyviä yksityiskohtaisia tietoja kannattaa välttää. Ihmiset ovat yllättävän hyviä anonymisoimaan kokemuksiaan ja tapahtumia.
  • Mieti tarkkaan mitä taustatietoja keräät tutkittavasta ja miten sen toteutat. Taustatiedot voi kerätä strukturoidun lomakkeen avulla, jotta vältetään haastatteluiden alussa olevat haastateltavan vapaamuotoiset (ja usein tunnistettavat) esittelyt itsestään. Käytä luokittelussa hyödyksi tutkimuksessa yleensä käytettyjä henkilöluokituksia, joista voi katsoa mallia esim. Tilastokeskuksen sivuilta .
  • Älä kysy haastatteluissa tai kirjoituskutsuissa tarkentavia kysymyksiä asioihin, jotka tuottavat hyvin todennäköisesti tietoa, jotka vaativat paljon anonymisointia (Ei näin: "Kertoisitko missä työpaikoissa äitisi ja isäsi ovat olleet töissä elämänsä aikana...")

Anonymisoinnin lähtökohdat

Anonymisointi on kansainvälisessä alan kirjallisuudessa laaja yläkäsite, joka pitää sisällään erilaisia lähestymistapoja, kuten saatavuuden hallintaa tai tilastollista lähestymistapaa (Elliot ym. 2016). Tietosuoja-asetuksen määritelmän mukaisesti saatavuuden hallinta on suojatoimi, mutta se ei ole anonymisointia. Tässä keskitymmekin dataan kohdistuviin anonymisointikeinoihin, joilla pyritään poistamaan kaikki tiedot, jotka mahdollistavat henkilön tunnistamisen.

Tutkimusaineiston anonymisointiin ei ole olemassa yhtä valmista kaikkiin aineistoihin soveltuvaa menettelytapaa. Anonymisointi tulee suunnitella aina aineistokohtaisesti ottaen huomioon aineiston ominaisuudet, käyttöympäristö ja käytettävyys.

Aineiston ominaisuuksilla viitataan esimerkiksi aineiston ikään, arkaluonteisuuteen, vastaajajoukon kokoon ja sisällön yksityiskohtaisuuteen (Elliot ym. 2016). Käyttöympäristöllä tarkoitetaan aineiston käyttökontekstia, joka on aikaan ja paikkaan sidottua: ketkä dataa käyttävät ja missä? Mitä ulkopuolisia tietoja on saatavilla sillä hetkellä? Käyttöympäristöllä tarkoitetaan myös fyysistä säilyttämistä. Käytettävyyden arvioinnissa pohditaan, miten anonymisoinnin saa tehtyä niin, että aineisto olisi edelleen käyttökelpoinen tilastollisessa tutkimuksessa tai laadullisessa tutkimuksessa.

Anonymisointi kannattaa suunnitella huolellisesti ja dokumentoida tehdyt toimenpiteet perusteluineen. Varaa anonymisointiin myös aikaa. Anonymisointi kannattaa huomioida jo aineistonkeruuvaiheessa, sillä huolellisella suunnittelulla anonymisointiin kuluvia resursseja voi säästää huomattavasti. Tutkijan kannattaa miettiä anonymisoinnista etukäteen seuraavat asiat:

  • Varmista, että aineistonkeruuvaiheessa tietoja kerätään minimoinnin periaatteen mukaisesti.
  • Päätä, kuka anonymisoinnin suunnittelee ja toteuttaa sekä missä vaiheessa ne tapahtuvat.

Anonymisointisuunnitelma

Anonymisointisuunnitelmaan kuvataan anonymisointitoimet ja arvioidaan henkilöiden paljastumisriskiä. Samalla suunnitelma toimii dokumenttina siitä, miten aineistoa on muokattu. Tiedot ovat tärkeitä esimerkiksi aineiston jatkokäyttöön arkistoimista varten tai kollegoille tutkimusyhteistyötä tehdessä. Myös tietosuoja-asetus edellyttää dokumentointia henkilötietojen käsittelyä koskevista päätöksistä. Suunnitelman teko voi alkaa jo aineistonkeruuvaiheessa.

Anonymisointisuunnitelmaan on hyvä koota seuraavia tietoja: suunnitelman tekijät, anonymisoinnin toteuttajat, anonymisointiin vaikuttavien aineiston ominaisuuksien kartoitus, vastaajien paljastumisriskin arvionti ja anonymisointitoimenpiteet perusteluineen. Lopussa voi myös arvioida henkilöiden tunnistamisen mahdollisuutta anonymisoinnin jälkeen ja tarvetta jäännösriskin arviointiin tulevaisuudessa.

Alla on esitetty Tietoarkiston esimerkit kvantitatiivisille ja kvalitatiivisille aineistoille tehdyistä anonymisointisuunnitelmista. Lisäksi saatavilla on anonymisointisuunnitelman tekoa helpottava mallipohja.

  1. Esimerkki kvantitatiivisen aineiston anonymisointisuunnitelmasta (PDF)
  2. Esimerkki kvalitatiivisen aineiston anonymisointisuunnitelmasta (PDF)
  3. Anonymisointisuunnitelman mallipohja (PDF)

Anonymisointi aloitetaan kartoittamalla aineiston ominaisuuksia, jotka esitellään seuraavassa osiossa. Tärkeimmät suunnittelussa huomioon otettavat seikat määrällisissä ja laadullisissa tutkimusaineistoissa on esitetty seuraavassa kuviossa.

Anonymisoinnissa huomioonotettava aineiston ominaisuudet

1. Perusjoukko ja otanta

Ketkä olivat tutkimuksen kohteena ja miten otanta tehtiin? Kuinka moni lopulta päätyi aineistoon perusjoukosta? Mitä perusjoukon ominaisuuksista tiedetään jo etukäteen, esim. sukupuoli- ja ikäjakauma? Yhdistääkö kohdejoukkoa jokin harvinainen ilmiö?

Perusjoukko on aineistonkeruun kohteena oleva populaatio/asia ja otantamenetelmä kuvaa havaintoyksiköiden valikoitumista aineistoon. Suunniteltaessa anonymisointia arvioidaan aluksi aineiston perusjoukkoa ja otantamenetelmää, jotka voivat antaa itsessään harvinaisia tai ainutlaatuisia tietoja tutkimukseen osallistuneista henkilöistä. Perusjoukko voi olla tarkoin määritelty ja ulkoapäin tunnistettava ryhmä, kuten Tampereen kunnanvaltuutetut vuonna 2009 tai satunnainen ei-ulkoapäin määriteltävissä oleva ryhmä, kuten seksuaalista häirintää kokeneet suomalaiset. Perusjoukon koko on tärkeä, sillä mitä pienempi perusjoukko tai tutkittava ilmiö ovat, sitä suurempi mahdollisuus henkilö on tunnistaa.

Perusjoukon ja otannan osalta tulee pohtia, kuinka satunnaisia kohdejoukkoon kuuluvat ja lopulta tutkimukseen valikoituneet ovat suhteessa laajempaan mittakaavaan, kuten alueen väestöön. Seuraavassa on esitetty joitain esimerkkejä.

Kokonaisaineisto: Tutkimuskutsu lähetetään jokaiselle perusjoukkoon kuuluvalle, kuten kaikille suomalaisille alle 1-vuotiaiden keskoslasten vanhemmille tai tietyn kunnan täysi-ikäisille kuntalaisille. Näin voidaan jo etukäteen tietää henkilön sisältyvän mahdollisesti aineistoon.

Satunnaisotanta: Perusjoukkoon kuuluvalla on lähtökohtaisesti pienempi todennäköisyys sisältyä aineistoon verrattuna kokonaisaineistoon, koska kaikki perusjoukon havaintoyksiköt eivät valikoidu otokseen, vaan esimerkiksi joka 50:s.

Itsevalikoitunut otos: Etukäteen ei voi päätellä kuka tutkimukseen osallistuu, esim. netissä olevan linkin kautta. Tutkimuksilla tavoitellaan kuitenkin usein henkilöitä, joilla on kokemusta tutkittavasta asiasta. Näin tutkittavan asian laajuus vaikuttaa siihen, kuinka todennäköistä on, että voi päätellä jonkun henkilön kuuluvan aineistoon. Mieti esim. kokemuksia järjestötoiminnan johtamisesta vs. kokemuksia terveyskeskuspalvelusta.

Riippumatta perusjoukosta tai otantamenetelmästä on kuitenkin aina tärkeää tutkia, mitä suoria tai epäsuoria tunnisteita aineistossa on ja käydä läpi aineisto harvinaisten tai ainutkertaisten havaintojen varalta.

Vastausprosentin suuruuteen on myös hyvä kiinnittää huomiota, sillä se kertoo havaintoyksikön todennäköisyydestä kuulua aineistoon. Erityisesti kokonaisaineistoissa tieto on merkittävä anonymiteetin arvioinnissa. Mitä korkeampi vastausprosentti, sitä todennäköisemmin havaintoyksikkö on aineistossa.

Tiedot aineiston muodostamistavasta eli otannasta- tai poiminnasta eivät saa paljastaa tutkimukseen osallistuneita. Tällaiseen voi olla riski, jos tutkija on kerännyt osallistujat lähipiiristään esim. lumipallomenetelmällä tai väestöllisesti pieneltä alueelta.

2. Aineiston sisältö

Voit kysyä:

a. Mitä suoria ja epäsuoria tunnisteita aineisto sisältää? Mitä aineiston tietoja yhdistelemällä henkilö saattaa olla tunnistettavissa?

Kartoita mitkä ovat ne tiedot, joiden perusteella henkilö voidaan mahdollisesti tunnistaa aineistoista. Tunnistamisen voi tehdä yksittäisen tiedon perusteella (suora tunniste) tai yhdistämällä tietoja. Ks. enemmän kohdasta Milloin tieto on tunnisteellista. Voit jopa koittaa selvittää, voiko tietoja yhdistämällä henkilön tunnistaa. Huomaa, että tunnisteet eivät välttämättä sisälly vain kvantitatiivisen aineiston yksittäisiin muuttujiin tai kvalitatiivisen haastattelun alussa kerrottaviin henkilötietoihin. Kvantitatiivisissa aineistoissa niitä voi sisältyä satunnaisesti myös avomuuttujiin ja kvalitatiivisen haastattelun puheessa niitä voi tulla esiin useissa eri kohdissa.

Anonymisoinnissa tavallisesti ensimmäinen toimenpide on poistaa aineistosta suorat ja vahvat epäsuorat tunnisteet (ks. tunnistetaulukko). Suorien ja vahvojen epäsuorien tunnisteiden poistaminen riittää vain hyvin harvoin tekemään aineistosta anonyymin. Epäsuorien tunnisteiden tarkkuus ja määrä vaikuttavat anonymisointiin. Aineistoon sisältyvien henkilöiden tietoja tulee aina tarkastella suhteessa toisiinsa. Jo muutaman taustatiedon yhdistäminen voi tehdä henkilön tunnistettavaksi. Esimerkiksi sukupuoli, ikä, kunta ja tulot voivat paljastaa pienessä kunnassa suurituloiset henkilöt.

b. Sisältääkö aineisto kolmansiin henkilöihin liittyviä tietoja ja voiko niiden perusteella tunnistaa henkilöitä?

Kiinnitä huomio myös tietoihin, joita aineistossa tulee esiin kolmansista osapuolista. Joissain tilanteissa vastaajan henkilöllisyys voi paljastua kolmannen henkilön tietojen perusteella ja toisissa taasen kolmannen henkilön voi päätellä vastaajan tietojen perusteella. Yleisellä tasolla viitatut julkisuuden henkilöt voidaan jättää aineistoon. Jos on epävarma julkisesti tunnetun henkilön nimen jättämisestä aineistoon, voi arvioida, onko kerrottu tieto julkisesti tiedossa ja yhteiskunnallisesti niin merkittävä, että sen voi jättää aineistoon.

Ei me olla oltu mitenkään kovin uskonnollisia, vaikka tätini oli ensimmäisiä naispappeja, joita vihittiin Suomessa.

Tieto siitä, että täti oli ensimmäisiä naispappeja voi lisätä vastaajan tunnistamisriskiä, sillä ensimmäisistä naispapeista on julkisuudessa tietoa. Tosin ensimmäisessä pappisvihkimyksessä naisia oli 94, mikä on suhteellisen paljon. Riippuu aineistoon sisältyvistä tutkittavan muista taustatiedoista, tuleeko tieto poistaa vai ei.

Kaupungilla kävellessäni törmäsin usein Satu Hassiin ja joskus hänen kanssaan vaihdoinkin pari sanaa.

Kansanedustajan voi jättää nimellä tekstiin, jos kansanedustajasta ei kerrota yksityisiä tietoja ja kaupungin mahdollinen paljastuminen ei uhkaa vastaajan anonymiteettiä. Kaupungin voitaisiin päätellä olevan julkisuudessa olevien tietojen perusteella Hassin asuinkaupunki Tampere tai työpaikan kaupunki Helsinki.

c. Sisältääkö aineisto harvinaisia tai ainutlaatuisia tietoja?

Havainnon harvinaisuus muodostuu yksittäisen tiedon tai kumuloituvien tietojen perusteella ja on aina riippuvainen kohdejoukosta. Tieto on harvinainen, jos sen esiintyvyys kohdejoukossa on pieni. Harvinainen tieto tulee anonymisoida etenkin, jos tiedon voi saada selville ulkopuolelta saatavia tietoja hyväksi käyttäen.

Seuraavan kuvion avulla havainnollisestaan vastaajien ja kohdejoukon välistä tietojen arviointia. Vastaajista kertyy aineistoissa monenlaista toisistaan poikkeavaa tietoa, kuten että vastaajalla on isäpuoli, Peppi-niminen koira, hän sairastaa masennusta tai että hän on bloggari tai kilpaurheilija. Vastaajista saatavien tietojen kohdalla tulee arvioida, onko tieto yleinen vai harvinainen kohdejoukossa.

Vastaajien ja kohdejoukon välinen tietojen arviointi

Jos kohdejoukko on 2000 vastaajan otos Suomen väestöstä, tiedot isäpuolesta ja masennuksesta ovat yleisiä kohdejoukossa eli koko väestössä. Harvinaisempia tietoja ovat Peppi-nimisen koiran omistaminen, kilpaurheilu ja bloggaus. Riippuen muista henkilöistä saatavista tiedoista, edellä mainittuja tietoja tulee anonymisoida. Jos kohdejoukko on tarkemmin rajattu joukko henkilöitä kuten pienen kyläkoulun oppilaat, tieto isäpuolesta, puhumattakaan kilpaurheilusta, bloggaamisesta tai Peppi-koirasta tekevät henkilön hyvin todennäköisesti tunnistettavaksi.

Masennus on esimerkki tiedosta, joka ei yleensä tarvitse anonymisointia, koska tiedon luonne on näkymätön. Sitä ei ulkopuolelta voi välttämättä nähdä ihmisestä, eikä tietoa useinkaan jaeta kuin vain läheisimmille ihmisille. Tieto masennuksesta voi olla silti tunnisteellinen esimerkiksi työpaikkakyselyissä, jos henkilö on joutunut olemaan masennuksen vuoksi pitkään sairaslomalla.

Harvinainen tieto ei ole siis automaattisesti tunnisteellista, sillä harvinainen tieto ei ole aina julkisesti saatavilla olevaa tietoa.

Väestötason aineistossa selviää, että yhdellä vastaajalla on katoptrofobia eli peiliin kohdistuva pelko.

Tieto on harvinainen, mutta ei välttämättä tunnisteellinen, sillä tiedon yhdistäminen tiettyyn henkilöön on vaikeaa, koska kyseistä tietoa ei ole saatavilla julkisesti.

Väestötason tutkimuksissa harvinaisia tietoja voivat olla esimerkiksi henkilön harvinainen ammatti tai asema esimerkiksi organisaation tai yrityksen johtajana tai korkeassa asemassa olevana poliitikkona. Harvinaisia tietoja voivat olla myös, suuret tulot tai omaisuus, sairaudet, kilpaurheilu tietyssä lajissa, harrastus tai osallisuus jossain tapahtumassa, josta on ollut tietoa mediassa.

Väestötutkimuksissa anonymiteettiä voi rajata tehokkaasti aluetietoja muokkaamalla.

Golfin harrastaja väestötason tutkimuksessa ei ole harvinainen.

Golfin harrastaminen Pirkanmaan alueen rehtoreiden keskuudessa on suurella todennäköisyydellä jo harvinainen tieto. Sitä saattaa harrastaa esimerkiksi vain pari rehtoria. Golf-harrastus saattaa olla mainittu myös esimerkiksi paikallislehden rehtorin haastattelussa.

Joissain tutkimuksissa itse tutkittava ilmiö on harvinainen ja tällöin tulee huolehtia kohdejoukon riittävästä suuruudesta. Esimerkiksi tutkittaessa talvilajien huippu-urheilijoita alueen kattavuudella on suuri merkitys anonymiteetille, sillä urheilijoiden määrä vaihtelee yksittäisen kunnan, maakunnan, Suomen tai koko maailman mittakaavassa. Sitä anonyymimmän aineiston saa, mitä laajempi harvinaisen ilmiön tutkimuksen maantieteellinen alue on.

Käytännössä jokaisen vastaajan kyselytutkimuksen arvot tai laadullinen aineisto voivat tuottaa ainutlaatuisia tietokokonaisuuksia, jollaisia ei ole missään muualla maailmassa. Jos tiedot olisivat saatavilla ulkopuolelta, henkilön voisi tunnistaa. Kyselytutkimusten mielipiteitä ja asenteita koskevia väittämiä on kuitenkin hankala saada ulkopuolelta selville, sillä ihmiset myös unohtavat kyselyihin valitsemansa vastausarvot. Ihmiset myös saattavat muistaa ja kertoa tutkimushaastattelussa selittämänsä tapahtuman vuoden kuluttua toisella tavalla. Tärkeintä onkin arvioida, voiko henkilön tunnistaa tietoja yhdistämällä tai yhdistämällä niitä ulkopuolella oleviin tietoihin.

d. Ovatko aineiston tiedot sensitiivisiä?

Tiedot ovat sensitiivisiä, mikäli ne käsittelevät tietosuojalainsäädännön mukaisiin erityisiin henkilötietoryhmiin lukeutuvia tietoja, joista ilmenee etninen alkuperä, poliittisia mielipiteitä, uskonnollinen tai filosofinen vakaumus tai ammattiliiton jäsenyys, geneettiset tiedot, henkilön tunnistamista varten käsitellyt biometriset tiedot, terveyttä koskevat tiedot ja seksuaalista käyttäytymistä ja suuntautumista koskevat tiedot. Myös muut tiedot voivat olla luonteeltaan sensitiivisiä. Arkaluonteisuutta voi mitata esimerkiksi sillä, onko asia yhteiskunnassa tabu tai kuinka paljon asian paljastumisesta voi koitua haittaa henkilölle, organisaatiolle tai muulle havaintoyksikölle.

Esimerkkejä muista arkaluonteisista asioista ovat: rikostapahtumat kuten perheväkivaltakuvaukset, muihin henkilöihin kohdistuvat arvostelut, yksityiskohtaiset kuvaukset kolmansien henkilöiden elämänkulusta tai yrityssalaisuuksien piiriin kuuluvat asiat.

3. Aineiston ikä

Aineiston ikä vaikuttaa anonymisointitarpeeseen. Mitä vanhempi aineisto on, sitä hankalampaa henkilöiden tunnistaminen on, koska tiedot muuttuvat aikojen kuluessa. Yli sata vuotta vanhoja tai kuolleiden henkilöiden tietoja ei tarvitse enää suojella.

4. Vastaajista muualta saatavat tiedot

Anonymisoinnin onnistumiseksi aineiston sisältämiä tietoja tulee tarkastella myös suhteessa muualta saatavissa oleviin tietoihin. Aineisto tulee muokata niin, ettei muualta saatavilla olevien tietojen perusteella voi tunnistaa yksittäistä henkilöä.

Oman aineiston tietoja kannattaa pohtia suhteessa neljään eri tietotyyppiin (Elliot ym. 2016):

  1. samasta kohdejoukosta muualta löytyviin tietoihin ja tutkimusaineistoihin
  2. julkisesti saatavilla oleviin tietoihin (esim. julkiset rekisterit ja sosiaalinen media)
  3. ihmisten paikallistietämykseen (miltä asuinpaikat näyttävät ja mitä alueella tapahtuu)
  4. henkilökohtaisiin tietoihin muista ihmisistä (mitä tiedän esim. naapureistani).

Mitä todennäköisemmin tiedot ovat saatavilla tai niistä tiedetään yleisesti, sitä enemmän aineiston sisältämiä tietoja tulee rajoittaa. Seuraavassa esitetään esimerkkejä erilaisista aineistosta ja niihin yhdistettävistä ulkopuolisista tietolähteistä:

a. Aineistossa käsitellään suomalaisten urapolkuja. Ulkopuolisia tietoja suomalaisten urapoluista on saatavilla internetistä mm. Linkedinistä, sosiaalisesta mediasta kuten Facebookista ja työpaikan nettisivujen henkilöstötiedoista.

b. Aineistossa käsitellään suomalaisten päivän ateriarytmiä. Ulkopuolisia tietoja ei ole helposti saatavilla, vaikka ateriarytmin tutkiminen voi tuottaa hyvin yksityiskohtaistakin tietoa henkilön arjesta. Olennaista on kysyä, miten muiden ihmisten ateriarytmiin liittyviä tietoja voi saada selville. Ei kovinkaan helposti tai ne muistuttavat toinen toistaan.

c. Aineistossa käsitellään suomalaisten ja tansanialaisten naapurussuhteita. Tässä tulee selvittää, miten suomalaisessa ja tansanialaisessa kulttuurissa tiedetään naapureiden asioista. Suomessa vuorovaikutus naapureiden kanssa voi olla hyvinkin vähäistä, mutta Tansaniassa voi olla toisin. Näin anonymisoitavaa on todennäköisesti enemmän Tansanian aineistossa.

Jos aineistosta on julkaistu jo raportteja tai julkaisuja, ota huomioon, kuinka yksityiskohtaisesti aineiston tiedot on esitetty niissä.

Eräässä määrällisessä aineistossa anonymisoinnissa on päätetty muokata kuntamuuttujaa niin, että muuttujasta poistetaan kunnan nimi ja se jää aineistoon pelkkänä numeroarvona (1, 2, 3...) esim. monitasoanalyysejä varten. Sitten huomataan, että aineistosta aikaisemmin tehdyssä julkaisussa kerrotaan vastaajien määrät eri kunnissa. Anonymisointitoimenpide on näin epäonnistunut, sillä kuntien nimet ovat palautettavissa vastaajien määrän avulla takaisin.

Aineiston ulkopuolisilla tiedoilla on siis suuri merkitys anonymisoinnissa. Eräs valaiseva erimerkki ulkopuolisten tietojen yhdistettävyydestä on Latanya Sweeneyn (2000) tutkimus, jossa havaittiin, että yhdysvaltalaisista 87 % on tunnistettavissa syntymäajan, sukupuolen ja viisinumeroisen postinumeron (ZIP-koodin) perusteella. Tunnistaminen perustui äänestyslistoihin, jotka Sweeney tilasi tutkimustaan varten. Listat sisältävät henkilö- ja aluetietoja äänioikeutetuista. Hieman yli puolet Yhdysvaltojen populaatiosta eli 53 % on puolestaan tunnistettavissa vain sukupuolen, syntymäajan ja paikan, kuten kaupungin tai kylän, avulla (em.).

5. Käytettävyys vs. anonymiteetti

Anonymisointi poistaa aina tietoja aineistosta. Mitä enemmän anonymisointia, sitä enemmän aineiston käytettävyys ja tulosten tarkkuus kärsivät. Ihannetapauksessa aineistoon tehdään mahdollisimman pieniä muutoksia välttäen tutkimuksellisesti tärkeimpien muuttujien muokkaamista. Usein se on helpommin sanottu kuin tehty.

Onnistuneessa anonymisoinnissa aineiston käsittelijän tunnistaa tutkimuksen kannalta erittäin merkittävät ja vähemmän merkittävät tiedot nykyisen ja tulevaisuuden tutkimuksen kannalta. Tunnisteiden poistoa pyritään tekemään vähemmän merkityksellisiin tietoihin. Joskus esimerkiksi määrällisissä aineistoissa avomuuttujien pudottaminen poistaa useat harvinaiset ja ainutlaatuiset tiedot. Numeeriset muuttujat ovat määrällisessä tutkimuksessa usein myös helpommin käytettäviä kuin avovastaukset. Usein anonymisointia joutuu tekemään myös merkittäville muuttujille, kuten iälle anonymiteetin saavuttamiseksi.

Jos aineistoon haluaa jättää asuinkunnan, täytyy anonymisoinnin ratkaisut toteuttaa henkilöä koskevien muiden taustatietojen osalta. Siten ammatti, työpaikka, koulutus, ikä, jne. luokitellaan riittävän karkealle tasolle. Jos taas on sisällöllisesti tärkeää jättää aineistoon tieto tutkittavien ammatista ja iästä, tulee tutkittavia koskevat aluetiedot karkeistaa (kuntatiedon sijaan suuralue ja/tai kuntatyyppi) ja arvioida myös muiden taustatietojen muokkaustarve.

Anonymisoinnin varmistus

Elliotin ym. (2016 ) sanoin "anonymisointi ei ole eksaktia tieteen harjoittamista", joten riittävän anonymisoinnin arviointi voi olla joskus ongelmallista. Anonymisoinnin menetelmän valintaa ja toteutuksen onnistumista voi kuitenkin arvioida tehokkaasti seuraavien kysymysten avulla (sovellettu EU:n WP 29 lausuntoa 05/2014). Jos vastaus kahteen ensimmäiseen on kielteinen ja viimeisessä todennäköisyys päättelyyn hyvin pieni, aineiston anonymiteetti on hyvällä mallilla.

  1. Havainnon erottaminen joukosta: Voiko anonymisoinnin jälkeen henkilö olla edelleen tunnistettavissa aineistosta?
  2. Yhdistettävyys: Voiko vastaajien tiedot yhdistää toiseen aineistoon tai ulkopuoliseen tietoon, ja mahdollisesti sitä kautta tehdä henkilöitä tunnistettaviksi?
  3. Päättely: Voiko tietojen päätellä koskevan tiettyä henkilöä? Onko muokattujen tai poistettujen tietojen alkuperäiset arvot pääteltävissä?

 

Muista! Koska avoimesti saatavilla oleva tieto lisääntyy koko ajan, on tärkeää tarkistaa säännöllisesti, onko kertaalleen anonymisoitu aineisto edelleen anonyymi (ns. jäännösriskin arviointi).

Kvantitatiivisen aineiston anonymisointi

Käytännön vinkkejä kvantitatiivisten aineistojen anonymisointiin:

  1. Toteuta kvantitatiivisen aineiston anonymisointi käyttämäsi tilasto-ohjelman syntaksin avulla.
  2. Anonymisoi ensin numeeriset muuttujat ja viimeisenä avomuuttujat, koska numeeristen muuttujien anonymisointilinja määrää usein avomuuttujien anonymisointilinjan.
  3. Merkitse avomuuttujien anonymisoinnit [hakasulkein].
  4. Anonymisoi sarjat mahdollisimman yhdenmukaisesti, jotta vertailu on mahdollista.
  5. Kun anonymisointi on valmis, tuhoa alkuperäiset datatiedostot ja syntaksin tms. avovastausten anonymisoinnit, joista paljastuu alkuperäinen tieto.
  6. Tarkista aineistotiedostoihin liittyvät taustamateriaalit, sillä myös ne voivat myös sisältää tuhottavia tai anonymisoitavia tunnisteita (tutkittavien yhteystiedot, paperilomakkeet jne.).

Kvantitatiivisten aineistojen anonymisoinnissa pyritään eroon aineiston harvinaisista havainnoista, jotka voivat muodostaa tunnistamisriskin. Siksi kvantitatiivisten aineistojen anonymisoinnissa on hyvä tarkastella harvinaisten tai ainutlaatuisten havaintojen suhdetta epäsuoriin tunnisteisiin. Yleensä tarkasteluun valitaan kaikki epäsuorat muuttujat ja ihanteellisimmassa tapauksessa harvinaisuuden määrittelyssä on mukana ovat kaikki aineiston muuttujat. (Cabrera 2017.) Ainutlaatuisia tai harvinaisia luokkia voi etsiä esimerkiksi tarkastelemalla epäsuorien tunnisteiden muuttujaluokkia ja muuttujien välisiä ristiintaulukoita. Jos aineisto sisältää jatkuvia muuttuja, ne on hyvä luokitella paljastumisriskin arviointia varten (em.). Jatkuvia muuttujia ovat juoksevina annetut luvut, esimerkiksi ikä tai tulot.

On kuitenkin hyvä muistaa, että ristiintaulukoinnissa muuttujien pienet luokat eivät ole aina yksiselitteisesti anonymisointia vaativaa tunnisteellista tietoa. Esimerkiksi, jos viiden keskimäärin samankokoisen koulun oppilaille tehdyssä kyselyssä yhdestä koulusta on vastannut vain neljä oppilasta, nämä neljä eivät ole automaattisesti tunnisteellisia pienen frekvenssin vuoksi. Tämä johtuu siitä, että mahdollinen vastaajamäärä on ollut yhtä iso kuin muissa kouluissa. Toisin olisi, jos oppilaita olisi huomattavasti vähemmän verrattuna muihin kouluihin.

Anonymisointimenetelmät

Aineistoon kohdistuvat anonymisointimenetelmät voidaan jakaa kahteen pääluokkaan: yleistäviin eli rajoittaviin ja sotkeviin eli satunnaistaviin. Yleistämällä poistetaan lopullisesti aineiston tietoja tai vähennetään tietojen yksityiskohtaisuutta arvoja luokittelemalla tai karkeistamalla, siis muuttamalla niiden mittakaavaa tai suuruusluokkaa. Sotkevilla menetelmillä lisätään dataan nk. kohinaa, mikä kasvattaa epävarmuutta havaintojen oikeellisuudesta. (Cabrera 2017; EU:n WP 29 lausunto 05/2014). Onnistunut anonymisointi vaatii tavallisesti useiden anonymisointimenetelmien tai -tekniikoiden käyttöä ja arviointia anonymisoitavien tietojen ja datan käytettävyyden suhteesta.

Menetelmillä on omat hyvät ja huonot puolensa, joten niiden vaikutukset aineiston laatuun ja sitä kautta käytettävyyteen tulee tuntea ennen muokkaamista. Muuttujien luokittelu mahdollistaa tiedon säilyttämisen aineistossa ja käytön tutkimuksissa tietyillä menetelmillä. Luokittelu siis vähentää aineiston käytettävyyttä, mutta vain hieman (Purdam & Elliot 2007). Anonymiteetin kannalta ongelmallista on, että luokittelu mahdollistaa edelleen henkilön yhdistämisen tiettyyn luokkaan (EU:n WP 29 lausunto 05/2014). Lisäksi muuttujan kaikkien arvojen luokittelu voi tehdä muuttujien välisten suhteiden arvioinnin hankalaksi ja estää myös tiettyjen analyysimenetelmien käytön jatkuvien muuttujien kohdalla (Anguli, Blitzstein & Waldo 2015).

Sotkevat menetelmät voivat olla hyödyllisiä, kun aineistossa havaitaan suhteellisen vähän (vähemmän kuin 1 %) harvinaisia havaintoja. Sotkevia menetelmiä käytettäessä tulee kuitenkin tarkasti arvioida menetelmän vaikutukset aineiston laatuun, sillä niillä voi olla merkittäviä vaikutuksia esimerkiksi muuttujien jakaumiin, korrelaatioihin ja syy-yhteyksien selvittämisiin, jotka puolestaan vaikuttavat analyysien tuloksiin. Sotkevat menetelmät ovat käyttökelpoisia anonymisoinnissa, vaikka osa tutkijoista pitää muuttujien arvojen vaihtamista ja satunnaisvaihtelun lisäämistä aineiston vääristelynä.

Seuraavissa kappaleissa esitellään tavallisimmat yleistävät ja sotkevat menetelmät. Yleistäviin menetelmiin kuuluvat tietojen poistaminen, luokittelu, karkeistaminen, otosten käyttäminen koko aineiston sijasta sekä k-anonymiteetti ja l-diversiteetti. Sotkevissa menetelmissä muutetaan muuttujien täsmälliset arvot epätarkoiksi muun muassa kertomalla ja permutaatiota apuna käyttäen.

Menetelmät:

  1. Muuttujan, yksittäisten arvojen tai havaintoyksiköiden poistaminen
  2. Muuttujan arvojen uudelleen luokittelu
  3. Avomuuttujien tekstivastauksien muokkaus
  4. K-anonymiteetti ja l-diversiteetti
  5. Kohinan lisääminen (adding noise)
  6. Permutaatio

1. Muuttujan, yksittäisten arvojen ja havaintoyksiköiden poistaminen

Muuttujan poistaminen on selkein toimenpide suorien ja vahvojen epäsuorien tunnisteiden poistamisessa. Myös epäsuoria tunnisteita sisältäviä muuttujia voi poistaa. Mikäli esimerkiksi nuorten itse ilmoittamaa rikollisuutta koskevassa kyselyssä on kysytty vastaajan koulua, saattaa se muiden taustamuuttujien kanssa mahdollistaa tunnistamisriskin. Tällöin koulumuuttuja poistetaan.

Toisinaan tunnistamisriskin välttämiseksi voi poistaa avomuuttujan. Perustelluinta se on silloin, kun vastaava tieto löytyy aineistossa luokiteltuna muuttujana. Jos aineistossa on luokiteltu koulutusmuuttuja, poistetaan avomuuttuja tarkasta koulutuspaikasta. Jos avomuuttujan vastausten tarkka sisältö on tutkimuksellisesti tärkeä, avomuuttujan voi myös irrottaa aineistosta erilliseksi tiedostoksi ja jättää avomuuttujan taustatiedoiksi vain analyysin mahdollistavat karkeistetut muuttujat. Näin tehty osa-aineisto tulee muokata ja järjestää niin, ettei sitä voi yhdistää alkuperäiseen aineistoon, mikäli avomuuttujan sisältö sen yhteydessä muodostaa tunnistamisriskin.

Yksittäisten arvojen poistaminen epäsuorista muuttujista on perusteltua, jos arvo muodostaa tunnistamisriskin eli toisin sanoen ominaisuus on harvinainen. Tällainen voi olla esimerkiksi muista havainnoista poikkeavat korkeat tulot tai harvinaiset ammattiasemat kuten ministerit. Yksittäisten arvojen poistamisessa on tärkeää arvioida poistetun tiedon pääteltävyyttä. Esimerkiksi, työpaikalta x kerätyssä kokonaisaineistossa on kaikkien työntekijöiden ammattinimikkeet, joista yhteen luokkaan kuuluu vain kaksi henkilöä. Tämän luokan muuttaminen esimerkiksi sysmis-arvoksi ei ole hyvä anonymisointiratkaisu, sillä alkuperäinen arvo voi olla pääteltävissä helposti. Poistamisen sijaan tilanteessa voisi käyttää ammattinimikkeiden karkeistusta tai luokkien yhdistämistä.

Myös kokonainen havaintoyksikkö voidaan poistaa, jos henkilön tunnistamattomaksi tekeminen ei ole muuten mahdollista. Toisinaan tämä on parempi ratkaisu kuin rajoittavien menetelmien käyttö koko aineistoon yhden harvinaisen havaintoyksikön tunnistamisriskin poistamiseksi.

2. Muuttujan arvojen uudelleen luokittelu

Muuttujan poistamista parempi vaihtoehto on usein muuttujan saamien arvojen uudelleen luokittelu. Esimerkiksi vastaajan ilmoittaman koulun nimen tilalle voidaan muodostaa luokat yläaste, lukio, ammattikoulu jne. Myös tarkka ikä, asuinalue ja ammatti voidaan luokitella tunnistamisen estämiseksi. Esimerkiksi syntymäaika kuukauden ja päivän tarkkuudella voidaan luokitella joko iäksi tarkkana vuosimääränä tai tarvittaessa 3-5 vuoden välein rajattuihin ikäluokkiin.

Aluemuuttujista postinumeromuuttujan voi tarvittaessa muuttaa esimerkiksi viisinumeroisesta kolme- tai kaksinumeroiseksi. Samoin kuntamuuttujan voi tarvittaessa muuttaa maakunnaksi, suuralueeksi, tilastolliseksi kuntaryhmitykseksi, suurimmat kaupungit sisältäväksi muuttujaksi tai muuksi hyödylliseksi aluemuuttujaksi. Näin tunnistettavuusriskiä pienennetään hävittämättä silti olennaisesti tärkeää taustatietoa. Käytä luokittelun apuna Tilastokeskuksen kansallisia henkilö- ja alueluokituksia.

» Tilastokeskuksen henkilöluokitukset
» Tilastokeskuksen alueluokitukset

Tunnistamisriskiä voi pienentää myös luokittelemalla pelkästään muuttujan saamat ääriarvot. Tyypillisesti tällainen muuttuja on esimerkiksi tulomuuttuja, jossa suurimpien tulojen saajille tehdään oma luokka ja muut arvot pysyvät vastaajien ilmoittamina tarkkoina euromäärinä. Menetelmästä käytetään myös termiä TOP- ja BOTTOM-koodaus riippuen siitä, tehdäänkö luokittelu arvojen alku- vai loppupäähän.

Tunnisteita voi poistaa myös luokittelemalla avomuuttujien vastaukset. Yksinkertaisinta se on avokysymyksillä saatujen taustatietojen osalta (asuinpaikka, käydyt koulut, työpaikka jne.) Esimerkiksi terveydenhuollon ammattilaisille suunnatussa kyselyssä on voitu avomuuttujalla kysyä erikoistumisalaa. Muiden taustamuuttujien perusteella useammalle alalle erikoistuneet lääkärit on mahdollista tunnistaa. Yksi ratkaisu on koodata kyseinen avomuuttuja ja tehdä yksi luokka nimellä 'kaksi tai useampi erikoistumisalaa'.

Toisinaan avomuuttujan tekstiarvot voi muuttaa dikotomiseksi muuttujaksi (vastattu - ei vastattu), jos tekstivastaukset voisivat johtaa muiden taustamuuttujien kanssa tunnistamisriskiin. Tällaisia ovat esimerkiksi lomakekysymykset, joiden vastauksista osa on luokiteltuja ja luokkiin kuulumattomille on muodostettu avomuuttuja "Muu, mikä?". Jos kysytään esimerkiksi tutkittavan äidinkieltä (suomi; ruotsi; muu mikä?) tai uskontokuntaa (evankelis-luterilainen; ortodoksinen; muu mikä?), avomuuttujan saamat tekstivastaukset voivat muiden taustamuuttujien kanssa muodostaa tunnistamisriskin. Tällöin poistetaan avomuuttujan saamat tekstivastaukset ja aineistoon jätetään vain tieto siitä, onko tähän vastattu vai ei.

Harkinnanvaraisesti toteutettu arvojen yhdistäminen voi olla hyvä keino tasapainoilla tunnistamisen ja tilastollisen hyödynnettävyyden välillä. Jos muuttujan jakauma on välillä 1-20 ja suurin osa havainnoista on välillä 1-12, hyvä vaihtoehto voi olla jättää alle 10 arvot sikseen ja yhdistää isommat arvot luokkiin esim. 13-15, 16-20. Huomiota on kiinnitettävä sekä muuttujan keskiarvon muuttumiseen että muuttujien väliseen korrelaatioon luokittelun yhteydessä.

Muista luokitellessa kategorisia muuttujia luokittelussa luokittelu pyritään tekemään jonkun luokkia yhdistävän tekijän mukaan.

3. Avomuuttujien tekstivastauksien muokkaus

Avoimet kysymykset, joihin vastaajat voivat omin sanoin kirjoittaa vastauksensa, sisältävät toisinaan tunnisteita. Ne voivat koskea joko vastaajia itseään tai kolmansia henkilöitä. Vastauksista saatava informaatio ei kärsi ratkaisevasti, vaikka niiden sisällöstä poistetaan tunnistetiedot (nimet, puhelinnumerot, sähköpostiosoitteet jne.) Muilta osin avoimiin kysymyksiin perustuvien muuttujien tunnistamisriski tulee arvioida tapauskohtaisesti suhteessa aineiston aihepiiriin ja taustamuuttujiin.

Anonymisoidut kohdat voi merkitä hakasulkeilla ja sisään voi kirjoittaa karkeamman luokittelun tai [tieto poistettu]. Avovastausten anonymisoinnissa tulee tarkistaa, ettei poistettu arvo ole harvinainen pääteltävissä oleva tieto. Esimerkiksi aineistossa, joka on kerätty kaikilta Hakkaraisen koulun opettajilta, eräs opettaja kertoo avovastauksessa opettavansa koulun ainoassa henkilökunnaltaan pienessä Peukku-sivuyksikössä. Koska opettajia Peukussa on vain kolme, tieto on harvinainen ja se tulee poistaa esim. tapaan: [tieto poistettu]. Tulee huomata, että sivuyksikön anonymisointi tapaan: [Hakkaraisen koulun sivuyksikkö x poistettu] ei tuota tunnisteetonta tietoa, sillä tieto yksiköstä on pääteltävissä sivuyksikön ollessa ainoa laatuaan. Avovastauksista tulee poistaa myös kaikki tiedot, joiden perusteella voidaan päätellä opettajan työskentelevän Peukku-sivuyksikössä. Avomuuttujien anonymisoinnissa voi käyttää apuna kvalitatiivisten aineistojen anonymisointiohjeita.

4. K-anonymiteetti ja l-diversiteetti

Tunnistamisriskin arviointia varten on tilastollisia anonymisointityökaluja, jotka auttavat tutkijaa alussa hahmottamaan ja lopussa perustelemaan oman aineiston anonymiteettiä. Yksi tunnetuin on k-anonymiteettiperiaate, jossa pyritään yhdistämään parhaimmat ominaisuudet tilastollisesta anonymisoinnista sekä anonymiteetistä (Elliot ym. 2016). K-anonymiteettiperiaattetta ja l-diversiteettiä voi käyttää esimerkiksi silloin, kun aineisto on kokonaisaineisto ja aineistoon sisältyy epäsuoria muuttujia, joiden perusteella voidaan tunnistaa yksittäinen henkilö tai rypäs. Tällaisia voivat olla esim. potilasaineistot. K-anonymiteettiperiaatetta ja l-diversiteettiä voi käyttää myös anonymisoinnin onnistumisen varmistamiseen, kun muilla tavoin anonymisointia on jo tehty. Verkosta on saatavilla ilmaisia ohjelmia k-anonymiteetin toteuttamiseksi, kuten ARX ja µ-ARGUS (em.).

K-anonymiteettiperiaatteella pyritään estämään havaintoyksikön paljastumista muodostamalla ryhmä, jossa on vähintään k määrä tunnisteellisilta epäsuorilta muuttujiltaan samanlaista henkilöä (El Emam & Dankar 2008). Toisin sanoen jokaisessa muuttujan luokassa on oltava vähintään k-määrä havaintoyksiköitä. Esimerkiksi tilanteessa, jossa aineisto sisältää vain yhden yli 100-vuotiaan miehen Tampereelta, mies tulee luokitella niin, ettei hän ole ryhmänsä ainoa. Jos aineistossa on muita yli 90-vuotiaita miehiä Tampereelta, mies voidaan luokitella tähän ryhmään. K:lle ei ole eksaktia lukua, vaan se määritetään aineistokohtaisesti. Toisinaan voi riittää, että k on 2 (Cabrera 2017), mutta on varmempaa, jos k on vähintään 3. On myös esitetty ajatus, että k:n on oltava mielellään 5-10. (Anguli, Blitzstein & Waldo 2015; Machanavajjhala Ashwin, Kifer et al. 2007.)

K-anonymiteetin ongelma on, ettei se estä päättelemästä arkaluonteista arvoa, jos kaikki k-anonymiteettiryhmän henkilöt saavat tietyssä muuttujassa saman arkaluonteisen arvon. Arkaluonteisen tiedon paljastumista varten on kehitetty l-diversiteetin käsite. L-diversiteetillä varmistetaan, että samanlaisten havaintojen ryhmässä on arkaluonteisen muuttujan kohdalla vähintään l-määrä eri arvoja. Toisin sanoen arkaluonteisen muuttujan arvoilla tulee olla keskinäistä vaihtelua, jotta k-anonyymin ryhmän arvo ei ole pääteltävissä yksiselitteisesti tietyksi arkaluonteiseksi tiedoksi. (EU:n WP 29 lausunto 05/2014.) Tulee huomata, ettei l-diversiteetti ole yleensä tunnistamista hankaloittava menetelmä, vaan se estää arkaluonteisen tiedon paljastumisen, jos henkilö on jo tunnistettu aineistosta (Cabrera 2017).

Esimerkki l-diversiteetistä: Klinikan kaikille syömishäiriöisille tehdyssä aineistossa on arkaluonteinen tieto siitä, onko henkilö yrittänyt itsemurhaa viimeisen kahden vuoden aikana (vastaus: kyllä/ei). Vastaajista muodostetaan k-anonyymejä ryhmiä, niin että k on vähintään kolme valituissa tunnisteellisissa epäsuorissa muuttujissa (ikäluokka, sukupuoli ja paikkakunta). Tästä voidaan käyttää ilmaisua 3-anonymiteetti (Cabrera 2017). Tarkasteltaessa arkaluonteista tietoa itsemurhayrityksistä huomataan, että ikäluokassa 25-34 olevat tamperelaiset miehet ovat kaikki yrittäneet itsemurhaa viimeisen kahden vuoden aikana. Tämä tieto johtaa siihen, että jos joku tuntee klinikalla tutkimusajankohtana olleen ikäluokkaan kuuluvan tamperelaisen miehen, voidaan suoraan päätellä hänen yrittäneen itsemurhaa. Jotta l-diversiteetin vaatimus (esim. l=2) toteutuisi, 25-34-vuotiaiden ryhmässä tulisi olla niin itsemurhaa yrittäneitä kuin niitä, jotka eivät ole sitä yrittäneet. Tällöin itsemurhayritystä ei voi automaattisesti päätellä ko. henkilöillä. Kun arvoja löytyy kahdenlaisia käytetään nimitystä 2-diversiteetti (em.). Jos l-diversiteetti ei toteudu, yksi vaihtoehto on karkeistaa taustamuuttujia esim. luokitella kuntamuuttuja maakunnaksi.

Jos halutaan säilyttää alkuperäisen aineiston tiedot mahdollisimman tarkasti l-diversiteetin toteuttamisessa, voidaan käyttää t-läheisyyden periaatetta. T-läheisyyden periaate toteutuu, kun kussakin luokassa on vähintään l eri arvoa ja lisäksi arvot esiintyvät niin monta kertaa, että se vastaa kunkin arvon alkuperäistä jakaumaa. Näitä asioita on avannut myös EU:n tietosuojatyöryhmä (EU:n WP 29 lausunto 05/2014).

5. Kohinan lisääminen (adding noise)

Kohinan lisäämisellä vähennetään muuttujien arvojen tarkkuutta niin, että syntyy epävarmuus havaintojen oikeellisuudesta. Kohinaa voidaan tehdä usealla eri tavalla. Muuttujien arvot voidaan muuttaa esimerkiksi ilmoittamalla ikä +-2 vuoden tarkkuudella. Datan käyttäjä siis luulee, että kyseessä on muuttujan oikea arvo, vaikka todellisuudessa näin ei ole. Kohinaa voi lisätä myös kertomalla alkuperäiset arvot tietyllä satunnaisluvulla tai muuttamalla luokiteltuja arvoja toisiksi ennalta määrättyjen muutostodennäköisyyksien perusteella. Jälkimmäisestä esimerkki on aineisto, jossa vaihdetaan 15 % pohjoiskarjalaisista kainuulaisiksi. Lisäksi tunnisteellisia jatkuvien muuttujien arvoja voi aggregoida esimerkiksi ryhmäkeskiarvoiksi. Samalla tulee huolehtia, että jokaiseen ryhmään tulee riittävästi havaintoja. (Cabrera 2017.) Esimerkiksi sairaalan arkaluonteisten potilasryhmien lääkekulut korvataan ryhmään kuuluvien potilaiden keskimääräisillä lääkekuluilla.

6. Permutaatio

Permutaatio tarkoittaa epäsuorien tunnistemuuttujien saamien arvojen vaihtamista havaintoyksiköiden välillä. Vaihtamalla arvoja vastaajien välillä muuttujan varianssi ja jakauma eivät muutu, mutta muuttujan ja yksilön muiden muuttujien välinen korrelaatio häviää. Permutaatioon kannattaakin valita sellaiset muuttujat, joilla ei ole keskinäistä yhteyttä. Menetelmä on puutteellinen, jos aineistossa on tiettyjen muuttujien välillä loogiset yhteydet ja valheellisiksi muutettujen arvojen oikeat arvot voidaan päätellä niiden perusteella. (EU:n WP 29 lausunto 05/2014.) Esimerkiksi tilanteessa, jossa tiedetään entuudestaan kahdella tekijällä olevan vahva korrelaatio ja anonymisaation pitäisi kohdistua toiseen näistä, kannattaa miettiä toisen anonymisointitekniikan hyödyntämistä. Permutaatiolla poistettu tieto voi olla pääteltävissä korrelaation perusteella, ja näin anonymisoinnin purkamisen mahdollisuus kasvaa.

Kvalitatiivisen aineiston anonymisointi

Seuraavassa esitetään käytännön anonymisointivinkit kvalitatiivisille aineistoille.

  1. Suunnitteluvaiheessa anonymisointia kannattaa kokeilla aluksi pariin tiedostoon.
  2. Ota anonymisoitavasta tiedostosta kopio ja tee anonymisointi aluksi kopioon. Näin anonymisoinnin virheet voidaan vielä korjata.
  3. Luo työdokumentti, johon kirjataan esim. yhdenmukaisuutta vaativat kategorisoinnit tai keksityt nimet, esim: Haastattelu 1: Pekka=Matti, Utra=[kaupunginosa 1].
  4. Käytä anonymisointimerkintöihin jotain merkkiä, kuten [hakasulkuja], jotta tiedetään mitä on muutettu ja mitä ei. Älä käytä katoavia muotoiluja, kuten kursiivia tai värejä.
  5. Keksittyjen nimien muuttamisessa voi käyttää apuna esim. Wordin Find & replace (etsi & korvaa) -komentoa. Komentoa voi käyttää myös anonymisoinnin loppuvaiheessa tarkistettaessa, että kaikki työdokumentin anonymisoidut nimet on muutettu. Ole varovainen replace all -komennon käytössä, sillä korvattavat erisnimet voivat sisältyä myös muihin sanoihin. Esimerkiksi "Anna" sisältyy myös verbiin "kannattaa". Käytä tarvittaessa apuna Match case -toimintoa, jolloin ohjelma korvaa vain kirjainkooltaan yhdenmukaiset merkkijonot (Anna, ei anna).
  6. Kun anonymisointi on valmis, tuhoa pseudonyymiluettelot ja alkuperäiset tiedostot. Tarkista aineistotiedostoihin liittyvät taustamateriaalit, sillä myös ne voivat myös sisältää tuhottavia tai anonymisoitavia tunnisteita (tutkittavien yhteystiedot, paperilomakkeet jne.)
  7. Tekstitiedoston anonymisointia voi helpottaa kirjaamalla jo litterointivaiheessa erikoismerkki jokaisen henkilö- ja erisnimen eteen.

Anonymisointimenetelmät

Tässä esiteltäviä keinoja voi soveltaa sekä itse aineistoihin että julkaisuissa esitettäviin otteisiin aineistosta. Ohjeet koskevat vain tekstimuodossa olevaa aineistoa. Äänen ja videotallenteiden anonymisointiin Tietoarkisto ei tarjoa ohjeita.

Ensimmäinen lähtökohta kvalitatiivisen tekstiaineiston anonymisoinnissa on hävittää aineiston tunnisteita sisältävä taustamateriaalit. Sellaisia ovat esimerkiksi tutkittavien yhteystiedot ja taustatietolomakkeet.

Kun teet muutoksia tunnisteita poistaen tai muokkaamalla, merkitse muutokset selkeästi. Voit käyttää merkitsemiseen hakasulkeita: [muutettu teksti] tai tuplahakasulkeita [[muutettu teksti]].

Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa alla kuvatuista keinoista.

Menetelmät:

  1. Henkilönimien vaihtaminen keksityiksi nimiksi
  2. Erisnimien kategorisointi
  3. Arkaluonteisten tietojen harkinnanvarainen poistaminen tai muuttaminen
  4. Taustatietojen kategorisointi
  5. Tunnistetietojen vaihtaminen

1. Henkilönimien vaihtaminen keksityiksi nimiksi

Henkilönimien muuttaminen keksityiksi nimiksi on eniten käytössä oleva kvalitatiivisten aineistojen anonymisoinnin keino. Keksittyjen nimien käyttö tekee aineistosta kuitenkin anonyymin vasta, kun keksittyjen nimien alkuperäiset arvot on hävitetty kokonaan. Tutkimusprojekteissa keksittyjen nimien valinta ja käyttö täytyy suunnitella yhteisesti johdonmukaiseksi. Käytännön apuna voi käyttää yhteistä nimistöä esimerkiksi taulukkotiedostona. Anonymisoitavassa aineistossa käytetään samoja keksittyjä nimiä kuin julkaisuotteissa.

Henkilönimien anonymisoinnissa keksitty nimi on parempi vaihtoehto kuin nimen poistaminen kokonaisuudessaan tai jokaisen erisnimen korvaaminen esimerkiksi kirjainmerkillä tai lyhyellä merkkijonolla [x] tai [---]. Keksityn nimen käyttö ihmisistä puhuttaessa säilyttää aineiston sisäisen koherenssin. Mikäli aineistossa puhutaan toistuvasti useista eri ihmisistä, menetetään aineiston ymmärrettävyys, jos henkilönimet vain poistetaan.

Sekä etu- että sukunimen muodostavan keksittyjen nimien käyttö voi olla perusteltua translitteroidun puheen luontevuuden säilyttämiseksi tai tutkittavien erottamiseksi toisistaan, jos tutkittavien määrä on suuri. Tavallisesti aineistossa esiintyvien kokonimien sukunimet voi kuitenkin poistaa samalla, kun etunimet vaihdetaan keksityiksi nimiksi. Mikäli aineistossa puhutaan jostakusta vain sukunimellä, myös keksityksi nimeksi valitaan sukunimi.

Aineistossa voidaan viitata nimeten henkilöihin, jotka ovat julkisesti tunnettuja politiikassa, elinkeinoelämässä tai muissa työtehtävissään. Tällöin nimiä ei vaihdeta keksityiksi nimiksi. Keksitty nimi tai kategorisointi (esim. [paikallinen kunnallispoliitikko]) tehdään kuitenkin, jos aineisto sisältää mainitun julkisuuden henkilön yksityiselämään liittyviä, entuudestaan ei-julkisia tietoja.

2. Erisnimien kategorisointi

Tekstissä esiintyvän henkilön, joka mainitaan vain kerran tai muutaman kerran, ja jolla ei ole keskeistä merkitystä aineiston sisällön ymmärrettävyyden kannalta, voidaan merkitä ilman keksittyä nimeä. Tällöin aineistoon kirjataan nimen tilalle kategoria [nainen], [mies], [sisko], [isä], [työtoveri, nainen], [naapuri, mies] jne. Muillekaan erisnimille ei välttämättä tarvitse keksiä uutta nimeä. Mikäli aineistoyksikössä (henkilöhaastattelu, ryhmähaastattelu, elämäkerta, kirjoitus, kirje jne.) puhutaan tai kirjoitetaan vain yhdestä koulusta tai asuinpaikasta, voidaan ne merkitä esimerkiksi [yläasteeksi] ja [kotikaupungiksi] tai [asuinlähiöksi].

Aineiston sisältämien yksilöivien työpaikkojen tai muutoin aineistossa epäsuoriksi tunnisteiksi muodostuvien yritysten ja toimipaikkojen karkeistamisen apuna voi käyttää Tilastokeskuksen toimialaluokitusta. Yhtä mahdollista on yksinkertaisesti muuttaa esimerkiksi Proximo Ab [tilitoimistoksi], Muoti-Titaani Oy [vaatetusliikkeeksi], Ceiko [konepajaksi], Koskikeskus [ostoskeskukseksi] jne.

» Tilastokeskuksen toimialaluokitus

Tekstin sisällä esiintyviä paikkoja voi karkeistaa muuttamalla ne esimerkiksi [taajamaksi], [kaupunginosaksi], [kyläksi]. Jos ei ole varmuutta, onko kyseessä kunta vai lähiö, voi apuna käyttää Kotimaisten kielten keskuksen (Kotus) asutusnimihakemistoa.

On hyvä muistaa, että tutkittavan asuinpaikkatiedon hävittäminen koskee myös aineiston sisällä olevia paikkatunnisteita. Kun ei haluta paljastaa tutkittavan asuinkuntaa, tulee myös tekstin sisällä olevat täsmälliset paikkatiedon viitteet poistaa. Jos tutkittava kertoo käyvänsä usein kodistaan kävelymatkan päässä olevassa Tillikassa tai Kaivohuoneella muutetaan se [ravintolaksi], jos tutkittavien asuinkuntatieto halutaan muutoinkin poistaa.

3. Arkaluonteisten tietojen harkinnanvarainen poistaminen tai muuttaminen

Yksilöivät arkaluonteiset tiedot tulee poistaa, kategorisoida tai luokitella. Esimerkiksi AIDS:n voi kategorisoida aineiston ensimmäisessä kohdassa [vaikeaksi pitkäaikaissairaudeksi] ja sen jälkeen se voidaan korvata [sairaudella], mikäli aineistoa tutkiva voi kustakin yhteydestä päätellä, että kyseessä on aineiston alussa mainittu sairaus.

Arkaluonteisten tietojen poistaminen tai muuttaminen/karkeistaminen on perusteltua, kun a) tiedot paljastuvat sattumalta, b) kyseiset tiedot eivät ole tutkimuksen kohteena ja c) arkaluonteinen tieto muodostaa tunnistamisriskin. Kun tarkoitus onkin esimerkiksi tutkia erilaisia vakavia sairauksia sairastavien ihmisten elämää, tunnistettavuusriskit poistetaan käyttämällä muita anonymisointikeinoja sen sijaan että muutettaisiin aineistosta juuri tutkimuksen kohteena olevaa tietosisältöä.

4. Taustatietojen kategorisointi

Taustatiedot, kuten sukupuoli, ikä, ammatti, työpaikka, koulu, asuinpaikka voivat olla hyvin oleellisia aineiston ymmärtämiseksi. Taustatiedot ovat myös tärkeää kontekstitietoa jatkotutkimuksissa. Täsmällisiä taustatietoja voi luokitella kategorioihin samaan tapaan kuin kvantitatiivisessa aineistossa luokitellaan epäsuoria muuttujia. Apuna voi käyttää esimerkiksi Tilastokeskuksen luokitteluja. Itse laaditun luokituksen selitykset kirjataan aineiston kuvaustietoihin.

Luokittelu on usein parempi vaihtoehto kuin taustatietojen poistaminen kokonaan. Tutkimusta varten haastatellun Maija Mainion oikeat taustatiedot voisivat olla seuraavat: naimisissa oleva 43-vuotias Tampereella asuva Tampereen yliopiston tutkimuspalveluissa ammattinimikkeellä hankeasiantuntija työskentelevä, jolla on 8- ja 11-vuotiaat lapset. Tunnistamisen estämiseksi taustatiedot voitaisiin luokitella esimerkiksi seuraavalla tavalla:

  • Sukupuoli: Nainen
  • Ikä: 41-45
  • Työpaikka: yliopisto
  • Ammatti: tutkimushallinnon asiantuntija
  • Kotitalouden koostumus: mies ja kaksi kouluikäistä lasta
  • Asuinpaikka: kaupunkimainen kunta Länsi-Suomessa

Yllä olevassa luokitteluesimerkissä työpaikkaa eli yliopistoa ei tarvitse luokitella karkeammin julkisen sektorin toimipaikaksi, sillä muut jäljelle jäävät taustatiedot eivät mahdollista edes osittaista tunnistamista. Kyseessä voisi olla joko Tampereen tai Jyväskylän yliopisto tai Länsi-Suomen suuralueella sijaitseva muun yliopiston erillisyksikkö.

Taustatietojen luokittelun tarve arvioidaan suhteessa aiemmin mainittuihin muihin anonymisoinnin keinoihin ja aineiston sisältöön.

» Tilastokeskuksen henkilöluokitukset
» Tilastokeskuksen alueluokitukset
» Tilastokeskuksen toimialaluokitus

5. Tunnistetietojen vaihtaminen

Kvalitatiivisen aineiston anonymisointiin voi joskus käyttää myös tietojen vääristämistä (vrt. kvantitatiivisen datan tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä). Esimerkiksi tarkka syntymäaika - joka tunnisteena tulisi poistaa - voi joskus olla merkityksellinen aineiston sisällön ymmärtämiselle.

Yksi kuvitteellinen tilanne voisi olla seuraava: Haastateltava on itse syntynyt 1.5.1958 ja hän on istunut kuolemaa tekevän lapsensa sairaalavuoteen äärellä vappupäivänä 2005. Haastattelussa hän kuvaa laveasti ristiriitaisia tuntemuksia, mitä juhlinta kaduilla ja lapsen kuolema haastateltavan omana syntymäpäivänä liittävät yhteen.

Kuvatun kaltaisessa tapauksessa vappupäivän poistaminen aineistosta heikentäisi aineiston sisällön ymmärtämistä. Päivämäärä (vappu) voidaan säilyttää aineistossa, kun haastateltavan syntymävuosi muutetaan esimerkiksi kaksi vuotta todellista aiemmaksi tai myöhemmäksi.

6. Tiedostojen piilotetun teknisen metadatan poistaminen

Aineistojen anonymisoinnin yhteydessä on tärkeä muistaa tarkastaa, sisältävätkö arkistoitavat tiedostot sellaista piilotettua teknistä metadataa, joka voi mahdollisesti paljastaa tutkittavan henkilöllisyyden. Piilotettua teknistä metadataa ovat tiedostoihin usein automaattisesti tallentuvat tiedot esimerkiksi käytetyn laitteen omistajasta, sijainnista tai käyttäjäprofiilin haltijasta. Teknistä metadataa tallentuu tiedostoihin paitsi tiedostojen luomisvaiheessa, myös niitä muokattaessa.

Erityisesti aineistoissa, joissa tutkittava on itse luonut arkistoitavan tiedoston, on piilotettuun tekniseen metadataan perustuva tunnistamisriski suuri. Tällaisia aineistoja ovat esimerkiksi erilaiset kirjoitus- ja valokuva-aineistot. Koska kirjoitusaineistot ovat yleensä tutkittavien itsensä tiedostoiksi tallentamia tekstejä, viittaa tekstitiedostojen piilodata usein suoraan tutkittavaan. Tekstiaineistojen lisäksi myös digitaalisen valokuvan EXIF-data voi sisältää hyvinkin tarkkoja tunnistetietoja, esimerkiksi kuvauspaikan tarkat koordinaatit ja jopa kuvaajan nimen.

Piilotetun teknisen metadatan poistaminen onnistuu yleisimmillä tekstin- ja kuvankäsittelyohjelmilla (esim. MS Office, Windows File Explorer, Photoshop, GIMP, Irfanview). Valokuvien EXIF-tietojen poistoon on olemassa myös tarkoitukseen tehtyjä ohjelmia, joiden avulla piilotetun metadatan poisto onnistuu helposti (esim. Easy Exif Delete). Ohjeet piilotetun teknisen metadatan poistoon vaihtelevat riippuen käytettävästä ohjelmasta ja ohjelmaversiosta. Katso tarkemmat ohjeet käyttämäsi ohjelman omilta verkkosivuilta.

Tunnistetaulukko

Alla olevaan taulukkoon on kirjattu erilaisia tunnisteita. Tietosuoja-asetuksen mukaiset erityisiin henkilötietoryhmiin kuuluvat tiedot on merkitty tähdellä ( * ). Kunkin tunnistetiedon kohdalla näkyy tunnisteen luonne (suora tunniste; vahva epäsuora tunniste; epäsuora tunniste).

Taulukon viimeiseen sarakkeeseen on kirjattu kunkin tunnisteen yksinkertaisimmat anonymisointitekniikat. Poista tarkoittaa poistamista, muuta tarkoittaa tiedon muuttamista (Helena muutetaan Merviksi) ja luokittele tarkoittaa luokittelua.

Osa tunnisteista voi olla luonteeltaan sekä vahvoja epäsuoria tunnisteita että epäsuoria tunnisteita. Harvinainen ammatti tai asema on vahva epäsuora tunniste, kun taas yleinen ammattinimike on tavallinen epäsuora tunniste.

Taulukko ei ole tyhjentävä, mutta sitä tutkimalla voi löytää vinkkejä oman tutkimusaineiston tunnisteiden määrittämiseen ja anonymisointiin.

Taulukko 1.

Tunnistetieto Suora tunniste Vahva epäsuora tunniste Epäsuora tunniste Anonymisointitekniikka
Henkilötunnus x     Poista
Koko nimi x     Poista/Muuta
Sähköpostiosoite x x   Poista
Puhelinnumero   x   Poista
Postinumero     x Poista/Luokittele
Kaupunginosa     x Luokittele
Asuinkunta     x Luokittele
Maakunta     x (Luokittele)
Suuralue     x  
Tilastollinen kuntaryhmä     x  
Puhetallenne x     Poista
Videotallenne henkilö(i)stä x     Poista
Valokuva henkilöstä x     Poista
Syntymäaika   x   Luokittele
Ikä     x Luokittele
Sukupuoli     x  
Siviilisääty     x  
Perheen koostumus     x (Luokittele)
Ammatti   (x) x Luokittele
Toimiala     x  
Työmarkkina-asema     x  
Koulutus     x Luokittele
Koulutusala     x  
Äidinkieli     x Luokittele
Kansallisuus     x (Luokittele)
Työpaikka   (x) x Luokittele
Auton rekisteri   x   Poista
Tutkittavan julkaisun/teoksen nimike   x   Luokittele
Verkkosivun osoite   (x) x Poista
Opiskelijatunnus   x   Poista
Vakuutusnumero   x   Poista
Tilinumero   x   Poista
Tietokoneen IP-osoite   x   Poista
Terveyttä koskevat tiedot *   (x) x Luokittele/Poista
Etninen alkuperä *   (x) x Luokittele/Poista
Rikos tai saatu rangaistus     x Luokittele/Poista
Ammattiliiton jäsenyys *     x Luokittele
Poliittinen tai uskonnollinen vakaumus *     x Luokittele
Muu luottamustoimi tai jäsenyys   (x) x Luokittele/Poista
Sosiaalihuollon tarve     x Luokittele/Poista
Sosiaalihuollon tukitoimet ja etuudet     x Luokittele/Poista
Seksuaalinen suuntautuminen *     x Poista

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2019-04-28