Tutkittavien informointi

Tunnisteellisuus ja anonymisointi

Tiedonhallinan käsikirja on nyt Aineistonhallinnan käsikirja.

Tunnisteellisuus tutkimusaineistoissa

Henkilötietolain mukaisesti tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Kun suunnitellaan tutkimusaineiston anonymisointia eli tunnistetietojen poistamista, muuttamista tai karkeistamista, ei lähtökohdaksi tarvitse ottaa sitä tasoa, jolla julkaisuissa voidaan esittää tutkittavia koskevia tutkimustuloksia.

Historian ja kulttuurintutkimuksessa voi olla sekä tutkimuksellisesti että eettisesti perusteltua esittää tutkimusteksteissä tutkittavat omilla nimillään. Myös asiantuntijahaastatteluihin perustuva tutkimus voidaan tehdä ja julkaista niin, että tutkittavien nimiä ja muita tunnistetietoja ei häivytetä. Tunnistettavuudesta tulee sopia tutkittavien kanssa. Tunnistetietoineen julkaistavien tutkimusten aineistoja ei anonymisoida.

Kun tutkittavia ei ole tarkoitus esittää tutkimusteksteissä omilla nimillään, on suunniteltava tunnistetietojen suojaamisen tavat, niiden huolellinen käsittely ja/tai niiden hävittäminen tai karkeistaminen.

Aina kun aineistoa kerätään suoraan tutkittavilta, aineiston anonymisointiratkaisuihin vaikuttaa ratkaisevasti se miten tutkittavia on informoitu aineiston käytöstä, käsittelystä ja säilyttämisestä.

Tutkimusaineistoja tulee voida tarvittaessa analysoida myös tunnisteita (erityisesti epäsuoria tunnisteita) sisältävinä. Kun tutkittaville on kerrottu aineiston säilyttämisestä jatkotutkimuksiin, anonymisointitoimenpiteillä tähdätään tavoitteeseen, jossa aineiston jatkokäyttäjä ei voi välittömästi yksittäisiä tutkittavia tunnistaa.

Tutkijan ammattietiikan mukaisesti arkistoidun aineiston jatkokäyttäjä ei edes ryhdy etsimään kohtuullisesti toteutettavissa olevia keinoja yksittäisten tutkittavien tunnistamiseksi. Lainsäädännöllisesti arkistoidun tutkimusaineiston käyttäjää sitoo vaitiolovelvollisuus.

Ohjeiden lähtökohtana on, että tutkimusaineistoa ei tuhota alkuperäisen tutkimuksen päätyttyä, vaan se arkistoidaan tieteellistä jatkokäyttöä varten. Kerättäessä ja käsiteltäessä tunnisteellisia aineistoja tulee laatia rekisteriseloste, jossa muiden tietojen ohella määritetään anonymisointitoimenpiteet ja aineiston suojaus. Kun tutkimusaineisto kerätään tutkittavilta heidän suostumuksellaan, rekisteriselostetta ei tarvitse toimittaa tietosuojavaltuutetulle.

Niin kvantitatiivisen kuin kvalitatiivisenkin aineiston anonymisoinnissa tulee säilyttää maltti. Tavoitteena on aineiston säilyttäminen jatkotutkimuksia varten mahdollisimman vähäisin muutoksin. Anonymisoinnin lisäksi eettisesti kestäviä tutkimuskäytäntöjä vahvistetaan säilyttämällä aineisto huolellisesti ja säätelemällä aineiston jatkokäyttöä.

» Henkilötietolaki
» Tietosuojavaltuutetun ohjeet rekisteriselosteista
» Lisätietoa tutkittavien informoinnista

Anonymisoinnin lähtökohdat

Peruslähtökohta tunnisteellisen aineiston anonymisoinnille on aineiston tarkastelu kokonaisuutena. Siinä neljä keskeisintä tekijää ovat:

Yllä mainittuja seikkoja tulee arvioida suhteessa toisiinsa ja vasta sen perusteella tehdään konkreettiset päätökset anonymisoinnista. Tässä esiteltävät kvantitatiivisen ja kvalitatiivisen aineiston anonymisoinnin keinot muodostavat vaihtoehtojen paletin, josta voi valita kulloinkin tarkoituksenmukaisimman keinon. Esimerkiksi kvalitatiivisten aineistojen anonymisoinnin keinoista löytyy vaihtoehtoja sovellettavaksi sekä itse aineistoihin että julkaisuotteisiin.

Tunnistamisen ulottuvuudet tieteellisessä tutkimuksessa

Anonymisointia suunnitellessa on hyvä pohtia konkreettisia tunnistamisen mahdollisuuksia ja siitä potentiaalisesti koituvia seurauksia, jottei aineistoja muokata liikaa. Yksittäisen henkilön tunnistaminen asianmukaisesti kerätystä ja käsitellystä tutkimusaineistosta ei ole vahingollista, ellei kyseistä tietoa käytetä vääriin tarkoituksiin. Tutkimusaineistoja saa käyttää ainoastaan tutkimustarkoituksiin.

Tutkittavien näkökulmasta tunnisteellisen aineiston käsittely muodostaa riskin, jos heitä koskevat luottamukselliset tiedot vuotavat tai niitä kerrotaan tutkimuksen ulkopuolisille tahoille (esimerkiksi tutkittavan lähipiirille, työnantajalle tai viranomaisille). Tämän vuoksi tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista: tutkimusaineisto ei koskaan saa joutua ulkopuolisten käsiin. Tutkittavien yksityisyyden suojaa ei saa vaarantaa esimerkiksi aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla.

Tutkimusaineistoja ei saa käyttää ja luovuttaa muihin kuin tutkimustarkoituksiin. Erityisen tuomittavaa on ilmaista tutkimusaineistojen sisältämistä tiedoista tai luovuttaa tietoja niin, että se voisi vaikuttaa yksittäisten tutkittavien arvioimiseen, kohteluun tai asemaan. Yksityisyydensuoja perusoikeutena suojaa kansalaisia nimenomaan julkisen vallan toimenpiteitä vastaan. Tutkijan tehtävä on tuottaa tieteellistä tietoa niin sosiaalisten ongelmien kuin ylipäänsä yhteiskunnan ja kulttuurin ymmärtämiseksi. Tähän tehtävään ei kuulu yksittäisten tutkittavien asioiden paljastaminen viranomaisille.

Mikäli tutkija törmää ennalta aavistamattaan aineistoyksikköön (haastattelu, kirjoitus, tutkimusta varten tuotettu päiväkirja tms.), joka koskee hänen henkilökohtaisesti tuntemaansa henkilöä, tutkijan tulee itse harkita, onko eettisesti syytä jättää kyseinen aineistoyksikkö kokonaan analyysin ulkopuolelle. Kaikissa tapauksissa tutkijaa sitoo vaitiolovelvollisuus.

Tutkimusaineiston käyttäjää ja arkistoidun aineiston jatkokäyttäjää sitovat aineiston käyttöehdot, vaitiolovelvollisuus ja aineiston käyttötarkoitussidonnaisuus. Tietoarkiston Aila-aineistoportaalia käyttävät asiakkaat kirjaavat aineiston käyttötarkoituksen ja sitoutuvat noudattamaan aineiston käyttöehtoja ennen kuin he voivat ladata aineiston käyttöönsä.

» Aila-aineistoportaalin käyttöehdot
» Aineistojen yleiset käyttöehdot

Tutkimusjulkaisut ovat luonnollisesti kaikkien saatavilla. Kvantitatiivisten tutkimusten tulokset esitetään tilastollisina tuloksina ja tunnisteitakin sisältävän aineiston julkaistut tulokset eivät siten sisällä tunnistamisen vaaraa.

Kvalitatiivisten aineistojen tutkimusjulkaisuissa esitettävät suorat aineisto-otteet tulee aina arvioida erikseen tunnistamisen näkökulmasta: mitä epäsuoria tunnisteita julkaistavan otteen yhteyteen jätetään, mitä karkeistetaan ja mitä jätetään kokonaan pois.

Tutkittaville annetut lupaukset

Aineisto voidaan kerätä ja arkistoida jatkotutkimusten käyttöön tunnisteellisena, mikäli tästä on tutkittavia informoitu. Suostumus antaa kaikkein laajimman oikeuden henkilötietojen käsittelyyn ja on edellytys esimerkiksi audiovisuaalisten aineistojen arkistointiin.

Nimitiedot ja osoitteet on syytä hävittää, kun aineisto on saatu analyysiä varten valmiiksi. Viimeistään yhteystiedot on hävitettävä arkistoitavan aineiston yhteydestä. Näin vältetään se mahdollisuus, että joku tutkija vuosia myöhemmin kiinnostuu yksittäisen tutkittavan ajatuksista siinä määrin, että innostuu kysymään kyseiseltä tutkittavalta lisäinformaatiota.

Toisinaan tutkittavien nimi- ja osoitetietojen säilyttäminen on perusteltua. Esimerkiksi aineistot, jotka kohdistuvat vaikeasti tavoitettaviin ja kooltaan pieniin ihmisryhmiin voivat sisältää tutkittavien yhteystiedot, jos on tarkoitus tehdä myöhemmin samoihin henkilöihin kohdistuva ajallisesti vertaileva tutkimus.

Kun yhteystietojen säilyttämiselle on tutkimuksellinen peruste, lupa yhteystietojen säilyttämiseen on kysyttävä tutkittavilta ja yhteystietojen suojaaminen ja tietoturva on huolehdittava suunnitelmallisesti. Yksityiskohtainen tietoturvasuunnitelma tehdään ensisijaisesti tutkimuksen aineistonhallinnan tarpeisiin, mutta tutkittavien pyytäessä se tulee antaa myös heille.

Vaikka tutkittavia olisi informoitu aineiston säilyttämisestä anonymisoimatta jatkotutkimusten käyttöön, tutkittavien henkilötunnukset, osoitteet, nimet, puhelinnumerot ja tarkat syntymäajat on syytä poistaa aineiston yhteydestä alkuperäisen tutkimuksen päätyttyä. Niiden säilyttäminen arkistoitavassa aineistossa on perusteltua vain, jos ne ovat välttämättömiä itse aineiston analyysissä ja asiasta on sovittu tutkittavien kanssa. Kun tutkittavia on informoitu aineiston arkistoimisesta jatkotutkimuksia varten, epäsuoria tunnistetietoja ei tarvitse poistaa tai muuttaa lainkaan.

Mikäli aineiston arkistoinnista jatkokäyttöön ei ole informoitu tutkittavia, täytyy jokaisen aineiston osalta arvioida erikseen missä määrin kvalitatiivisen aineiston sisältöä tai kvantitatiivisen aineiston eri muuttujia täytyy poistaa, muokata tai muuttaa, jotta aineistosta saadaan anonyymi.

Taustamuuttujat tai epäsuorat tunnisteet

Taustamuuttujia ja epäsuoria tunnisteita ovat esimerkiksi sukupuoli, ikä, koulutus, ammattiasema, pääasiallinen toiminta/työmarkkina-asema, sosioekonominen asema, kotitalouden koostumus, tulot, siviilisääty, kieli, kansallisuus, etninen tausta, työpaikka tai koulu ja asuinaluetta koskevat muuttujat. Asuinaluetta koskevat muuttujat kuuluvat niin sanottuihin aluemuuttujiin, joita voivat olla esimerkiksi postinumero, kaupunginosa, kunta, lääni, maakunta, seutukunta, suuralue.

Taustamuuttujien ja epäsuorien tunnisteiden tarkkuus ja määrä vaikuttavat anonymisointiin. Mitä enemmän niitä on ja mitä yksityiskohtaisempia ne ovat, sitä huolellisemmin anonymisointi tulee suunnitella - erityisesti jos tutkittavia ei ole informoitu aineiston säilyttämisestä tuleviin tutkimustarpeisiin ja aineiston aihepiiri on arkaluonteinen.

Aihepiiri

Aineiston aihepiiri ja sisällön arkaluonteisuus tai neutraalius täytyy aina ottaa huomioon tehtäessä päätöksiä anonymisoinnista. Kun kyse on henkilötietolaissa määritellyistä arkaluonteisista asioista ja tutkimuksessa kerätään laajasti tutkittavia itseään koskevia tietoja, myös aineiston anonymisointi täytyy suunnitella huolella. Ihmisten terveydentilaa tai heidän käyttämiään sosiaalihuollon etuuksia tai tehtyjä rikoksia käsittelevä aineisto on monin verroin arkaluonteisempi kuin aineisto, joka sisältää ihmisten kokemuksia ja käsityksiä viihtyisästä asuinympäristöstä. Asenteita, mielipiteitä, tulkintoja yhteiskunnasta ja kulttuurista sisältävät aineistot vaativat yleensä vähemmän muokkausta kuin hyvin henkilökohtaisia ja arkaluonteisia aiheita käsittelevät aineistot.

Kvantitatiivisen aineiston anonymisointi

Anonymisointi on suunniteltava aineistokohtaisesti. Tässä esiteltäviä keinoja voi käyttää yksin tai yhdessä.

Muuttujan poistaminen

Muuttujan poistaminen on radikaalein tapa aineiston anonymisoinnissa, mutta saattaa olla joissain tapauksissa perusteltua. Mikäli esimerkiksi nuorten itse ilmoittamaa rikollisuutta koskevassa kyselyssä on kysytty vastaajan koulua, saattaa se muiden taustamuuttujien kanssa mahdollistaa osittaisen tunnistamisen, mikäli aineistoa käyttävällä tutkijalla on paikallistuntemusta. Tällöin kyseisen muuttujan poistaminen vähentää jo huomattavasti tunnistamisriskiä, eikä välttämättä laske aineiston tieteellistä käyttöarvoa.

Toisinaan tunnistamisriskin välttämiseksi voi poistaa avomuuttujan, mikäli poisto ei vähennä olennaisesti aineiston analyysimahdollisuuksia. Perustelluinta se on silloin, kun vastaava tieto löytyy aineistossa luokiteltuna muuttujana. Jos aineistossa on luokiteltu koulutusmuuttuja, avomuuttuja tarkasta koulutuspaikasta voidaan tarvittaessa poistaa.

Muuttujan arvojen uudelleen luokittelu

Muuttujan poistamista parempi vaihtoehto on aina muuttujan saamien arvojen uudelleen luokittelu. Esimerkiksi vastaajan ilmoittaman koulun nimen tilalle voidaan muodostaa luokat yläaste, lukio, ammattikoulu jne. Myös tarkka ikä, asuinalue ja ammatti voidaan luokitella tunnistamisen estämiseksi. Esimerkiksi syntymäaika kuukauden ja päivän tarkkuudella voidaan luokitella joko iäksi tarkkana vuosimääränä tai tarvittaessa 3 - 5 vuoden välein rajattuihin ikäluokkiin.

Aluemuuttujista postinumeromuuttujan voi tarvittaessa muuttaa esimerkiksi viisinumeroisesta kolmenumeroiseksi. Samoin kuntamuuttujan voi tarvittaessa muuttaa kahdeksi eri muuttujaksi: tilastolliseksi kuntaryhmitykseksi (kaupunkimaiset kunnat, taajaan asutut kunnat, maaseutumaiset kunnat) ja lääniksi. Näin tunnistettavuusriskiä pienennetään hävittämättä silti olennaisesti tärkeää taustatietoa.

Tilastokeskuksen alueluokitukset

Ammattimuuttuja voidaan karkeistaa ammattiluokitukseksi (johtajat ja ylimmät virkamiehet, erityisasiantuntijat, asiantuntijat, toimisto- ja asiakaspalvelutyöntekijät, palvelu-, myynti- ja hoitotyöntekijät, maanviljelijät, metsätyöntekijät ym., rakennus-, korjaus- ja valmistustyöntekijät, prosessi- ja kuljetustyöntekijät, muut työntekijät, sotilaat) tai ammattiasemaluokitukseksi (yrittäjät, työnantajayrittäjät, yksinäisyrittäjät, palkansaajat, yrittäjäperheenjäsenet, työnantajaperheenjäsenet, yksinäisyrittäjäperheenjäsenet, muut).

Tilastokeskuksen henkilöluokitukset

Tunnistamisriskiä voi pienentää myös luokittelemalla pelkästään muuttujan saamat ääriarvot. Tyypillisesti tällainen muuttuja on esimerkiksi tulomuuttuja, jossa suurimpien tulojen saajille tehdään oma luokka ja muut arvot pysyvät vastaajien ilmoittamina tarkkoina euromäärinä.

Tunnisteiden poistaminen avointen kysymysten vastauksista

Avoimet kysymykset, joihin vastaajat voivat omin sanoin kirjoittaa vastauksensa, voivat toisinaan sisältää tunnisteita. Ne voivat koskea joko vastaajia itseään koskevia tai joitain toisia henkilöitä. Vastauksista saatava informaatio ei kärsi ratkaisevasti, vaikka niiden sisällöstä poistetaan suorat tunnistetiedot (nimet, puhelinnumerot, sähköpostiosoitteet jne.). Muilta osin avoimiin kysymyksiin perustuvien muuttujien tunnistamisriski tulee arvioida tapauskohtaisesti suhteessa aineiston aihepiiriin ja taustamuuttujiin.

Tunnisteita voi poistaa myös luokittelemalla avomuuttujien vastaukset. Yksinkertaisinta se on avokysymyksillä saatujen taustatietojen osalta (asuinpaikka, käydyt koulut, työpaikka jne.). Esimerkiksi terveydenhuollon ammattilaisille suunnatussa kyselyssä on voitu avomuuttujalla kysyä erikoistumisalaa. Kun muita taustamuuttujia on kattavasti, useammalle alalle erikoistuneet lääkärit on mahdollista tunnistaa. Yksi ratkaisu on koodata kyseinen avomuuttuja ja tehdä yksi luokka nimellä 'kaksi tai useampi erikoistumisalaa' (Economic and Social Science Data Service 2005).

Otoksen käyttäminen koko aineiston sijasta

Yksi Tilastokeskuksen usein käyttämä keino estää tunnistettavuus on luovuttaa tutkimuskäyttöön kokonaistutkimuksen sijasta otos aineistosta. Tällöin analysoidaan vain osajoukkoa koko perusjoukon sijaan ja otoksen satunnaisuus varmistetaan erilaisin otantamenetelmin.

Yhteiskuntatieteellisen tietoarkiston aineistot ovat pääsääntöisesti otoksia.

Epäsuorien tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä ja satunnaisvaihtelun lisääminen

Harvinaisempia anonymisointikeinoja ovat tunnistamisriskin omaavien yksittäisten havaintoyksiköiden epäsuorien tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä sekä satunnaisvaihtelun lisääminen joihinkin epäsuoriin tunnistemuuttujiin. Osa tutkijoista pitää muuttujien arvojen vaihtamista ja satunnaisvaihtelun lisäämistä aineiston vääristelynä, mutta molemmat keinot estävät kyseisten muuttujatietojen yhdistämisen rekisteritietoihin.

Kvalitatiivisen aineiston anonymisointi

Tässä esiteltävistä anonymisointitavoista löytyy vaihtoehtoja sovellettavaksi sekä itse aineistoihin että julkaisuissa esitettäviin otteisiin aineistosta.

Henkilönimien vaihtaminen peitenimiksi

Henkilönimien muuttaminen peitenimiksi eli pseudonyymeiksi on eniten käytössä oleva anonymisoinnin keino. Kun henkilönimien tilalle vaihdetaan peitenimet välittömästi litteroinnin jälkeen, prosessi pysyy hyvin hallinnassa. Yksi mahdollisuus on kirjoittaa alkuperäisessä litteroinnissa erikoismerkki jokaisen henkilö- ja erisnimen eteen. Tämän jälkeen anonymisoinnin suunnittelu ja toteuttaminen ovat helpompia, kun kaikki erisnimet löydetään aineistosta vaivattomasti.

Tutkimusprojekteissa peitenimien valinta ja käyttö täytyy suunnitella yhteisesti johdonmukaiseksi. Käytännön apuna voi käyttää yhteistä nimistöä esimerkiksi taulukkotiedostona. Aineistossa käytetään samoja peitenimiä kuin julkaisuotteissa.

Henkilönimien anonymisoinnissa pseudonyymi on aina parempi vaihtoehto kuin nimen poistaminen kokonaisuudessaan tai jokaisen erisnimen korvaaminen esimerkiksi kirjainmerkillä tai lyhyellä merkkijonolla [x] tai [---]. Peitenimien käyttö ihmisistä puhuttaessa säilyttää aineiston sisäisen koherenssin. Mikäli aineistossa puhutaan toistuvasti useista eri ihmisistä, menetetään aineiston ymmärrettävyys, jos henkilönimet vain poistetaan.

Sekä etu- että sukunimen muodostavan pseudonyymin käyttö voi olla perusteltua translitteroidun puheen luontevuuden säilyttämiseksi tai tutkittavien erottamiseksi toisistaan, jos tutkittavien määrä on suuri. Tavallisesti aineistossa esiintyvien kokonimien sukunimet voi kuitenkin poistaa samalla, kun etunimet vaihdetaan peitenimiksi. Mikäli aineistossa puhutaan jostakusta vain sukunimellä, myös pseudonyymiksi valitaan sukunimi.

Aineistossa voidaan viitata nimeten henkilöihin, jotka ovat julkisesti tunnettuja politiikassa, elinkeinoelämässä tai muissa työtehtävissään. Tällöin nimiä ei vaihdeta peitenimiksi. Peitenimi tai kategorisointi (esim. [paikallinen kunnallispoliitikko]) on paikallaan kuitenkin, jos aineisto sisältää mainitun julkisuuden henkilön yksityiselämään liittyviä, entuudestaan ei-julkisia tietoja.

Tietotekniikka mahdollistaa nopeita anonymisointioperaatioita, mutta esimerkiksi etsi--korvaa -komentoa on syytä käyttää tekemällä muutokset yksi kerrallaan. Monet nimet esiintyvät myös sanojen keskellä. Kun Matti muutetaan Samiksi ja annetaan "korvaa kaikki" komento, muuttuu 'ammattitaidot' amSamitaidoiksi ja kun Yte muutetaan Iiroksi muuttuvat myös 'käytetyt' käIirotyiksi. Paras tapa muuttaa nimet on tehdä muutokset tapaus tapaukselta. Ennen anonymisointia pitää myös tarkastaa, esiintykö tekstissä sama henkilö eri nimillä, esimerkiksi Matti myös Masana tai Matsina.

Aineistossa olevia henkilönimiä ei ole välttämätöntä muuttaa, jos aineiston arkistoinnista sellaisenaan ilman muutoksia on informoitu tutkittavia. Tällöin aineiston jatkokäytön ehdot määritetään samanlaisiksi kuin alkuperäisessä tutkittavien informoinnissa.

Erisnimien kategorisointi

Ilman peitenimeä voi kirjata henkilön, joka mainitaan vain kerran tai muutaman kerran ja jolla ei ole keskeistä merkitystä aineiston sisällön ymmärrettävyyden kannalta. Tällöin aineistoon kirjataan nimen tilalle kategoria [nainen], [mies], [sisko], [isä], [työtoveri, nainen], [naapuri, mies] jne. Muillekaan erisnimille ei välttämättä tarvitse keksiä peitenimeä. Mikäli aineistoyksikössä (henkilöhaastattelu, ryhmähaastattelu, elämäkerta, kirjoitus, kirje jne.) puhutaan/kirjoitetaan vain yhdestä koulusta tai asuinpaikasta, voidaan ne merkitä esimerkiksi [yläaste] ja [kotikaupunki] tai [asuinlähiö].

Arkaluonteisia tietoja sisältävissä aineistoissa yksilöivien työpaikkojen tai muutoin aineistossa epäsuoriksi tunnisteiksi muodostuvien yritysten ja toimipaikkojen karkeistamisen apuna voi käyttää Tilastokeskuksen toimialaluokitusta. Yhtä mahdollista on yksinkertaisesti muuttaa esimerkiksi Proximo Ab [tilitoimistoksi], Muoti-Titaani Oy [vaatetusliikkeeksi], Ceiko [konepajaksi], Koskikeskus [ostoskeskukseksi] jne.

» Tilastokeskuksen toimialaluokitus

Tekstin sisällä esiintyvien paikkoja voi tarvittaessa karkeistaa muuttamalla ne esimerkiksi [taajamaksi], [kaupunginosaksi], [kyläksi]. Kun ei ole varmuutta, onko kyseessä kunta vai lähiö, voi apuna käyttää Nelli-tiedonhakuportaalin sähköisen MOT-sanakirjaston asutusnimihakemistoa.

Arkaluonteisten tietojen harkinnanvarainen poistaminen tai muuttaminen

Kun halutaan varmistaa, että edes osittainen tunnistaminen ei koskisi aineiston sisällön ymmärtämisen kannalta tarpeettoman yksilöiviä arkaluonteisia tietoja, on syytä harkita arkaluonteisten tietojen muuttamista tai poistamista. Tällöinkin tietojen muuttaminen on aina parempi vaihtoehto kuin niiden poistaminen kokonaan. Esimerkiksi vaikeiden sairauksien diagnoosit voi usein muuttaa joksikin likeisiksi diagnooseiksi, mikäli se ei vähennä aineiston ymmärrettävyyttä. Likeisen diagnoosin sijasta voi myös käyttää kvantitatiivisessa aineistossa käytettävää tiedon luokittelua. AIDS:n voi muuttaa aineiston ensimmäisessä kohdassa [vaikeaksi pitkäaikaissairaukdeksi] ja sen jälkeen se voidaan korvata [sairaudella], mikäli aineistoa tutkiva voi kustakin yhteydestä päätellä, että kyseessä on aineiston alussa mainittu sairaus.

Arkaluonteisten tietojen poistaminen tai muuttaminen/karkeistaminen on perusteltua, kun a) tiedot paljastuvat sattumalta, b) kyseiset tiedot eivät ole tutkimuksen kohteena ja c) aineisto sisältää huomattavasti epäsuoria tunnisteita. Kun tarkoitus onkin esimerkiksi tutkia erilaisia vakavia sairauksia sairastavien ihmisten elämää, tunnistettavuusriskit poistetaan käyttämällä muita mahdollisia anonymisointikeinoja sen sijaan että muutettaisiin aineistosta juuri tutkimuksen kohteena olevaa tietosisältöä.

Käyttörajoitusten merkitseminen

Kun arkaluonteisten aineistonosien poistaminen tai muuttaminen estäisi aineiston ymmärrettävyyden, arkistoitavaan aineistoon voidaan kirjata merkinnät niihin kohtiin, joista tutkimusjulkaisuissa ei saa esittää suoria lainauksia tai yksityiskohtaisia kuvauksia. Arkaluonteisen otteen aloittava ja lopettava erikoismerkintä voidaan kirjata esimerkiksi seuraavalla tavalla: <seg type="sensitive">Tästä en halua kirjoitettavan mihinkään, mutta tosiasiassa isäni lapsuudessa tapahtui niin että... ymmärrät varmaan että tämä selittää paljon myös omia kokemuksiani</seg>.

Käyttörajoitusten merkitsemisen perusteena ei tarvitse olla tunnisteellinen tieto. Perusteeksi riittää se, että tutkittava ilmaisee ettei halua jostain tietystä asiasta kerrottavan tutkimusjulkaisuissa (tutkittavan itsemääräämisoikeuden kunnioittaminen).

Taustatietojen kategorisointi

Taustatiedot, kuten sukupuoli, ikä, ammatti, työpaikka, koulu, asuinpaikka voivat olla hyvin oleellisia aineiston ymmärtämiseksi. Taustatiedot ovat myös tärkeää kontekstitietoa jatkotutkimuksissa. Mikäli on perusteltua vähentää tunnistamisen mahdollisuuksia, täsmällisiä taustatietoja voi luokitella kategorioihin samaan tapaan kuin kvantitatiivisessa aineistossa. Luokittelussa voi käyttää apuna esimerkiksi Tilastokeskuksen (2008) luokitteluja. Itse laaditun luokituksen selitykset kirjataan aineiston kuvaustietoihin.

Luokittelu on aina parempi vaihtoehto kuin taustatietojen poistaminen kokonaan. Tutkimusta varten haastatellun Maija Mainion oikeat taustatiedot voisivat olla seuraavat: naimisissa oleva 43-vuotias Tampereella asuva Yhteiskuntatieteellisessä tietoarkistossa Tampereen yliopistossa työskentelevä erikoistutkija, jolla on 8- ja 11-vuotiaat lapset. Tunnistamisriskien pienentämiseksi taustatiedot voitaisiin luokitella esimerkiksi seuraavalla tavalla:

  • Sukupuoli: Nainen
  • Ikä: 41-45
  • Työpaikka: yliopiston erillisyksikkö
  • Ammatti: tutkimusta palveleva erityisasiantuntija
  • Perhe: mies ja kaksi kouluikäistä lasta
  • Asuinpaikka: kaupunki Länsi-Suomen läänissä

Yllä olevassa luokitteluesimerkissä työpaikkaa eli yliopistoa ei tarvitse luokitella karkeammin julkisen sektorin toimipaikaksi, sillä muut jäljelle jäävät taustatiedot eivät mahdollista edes osittaista tunnistamista. Kyseessä voisi olla Tampereen tai Turun yliopiston lisäksi muut yliopistojen erillisyksiköt, jotka sijaitsevat Länsi-Suomen läänissä. Tavallisesti taustatiedoista ei tarvitse luokitella kuin osa, joskus riittää pelkästään asuinpaikan luokittelu. Luokittelun tarve arvioidaan suhteessa aiemmin mainittuihin muihin anonymisoinnin keinoihin ja aineiston aihepiiriin ja sisältöön. Vähemmän arkaluonteisia aineistoja ei tarvitse anonymisoida raskaasti, toisinaan riittää vain tutkittavien nimitietojen poistaminen ja osoitetietojen karkeistaminen. Tunnistamisriskit vähenevät oleellisesti jo tutkittavien taustatietojen luokittelulla ja aineistoon tehtävillä erisnimien muutoksilla. Taustatietojen luokitteluun voi käyttää apuna Tilastokeskuksen luokituksia.

» Tilastokeskuksen henkilöluokitukset
» Tilastokeskuksen alueluokitukset
» Tilastokeskuksen toimialaluokitus

Tunnistetietojen vaihtaminen

Kvalitatiivisen aineiston anonymisointiin voi joskus käyttää myös tietojen vääristämistä (vrt. kvantitatiivisen datan tunnistemuuttujien saamien arvojen vaihtaminen havaintoyksiköiden välillä). Jonkin tai joidenkin tunnistetietojen tarkoituksellinen vaihtaminen on ehkä perustelluinta tilanteissa, joissa aineiston tiedot käsittelevät tavalla tai toisella julkisten henkilöiden yksityisiä asioita. Haastateltava voi esimerkiksi kuvata traumaattista sisarsuhdettaan korostaen, että tutkimusjulkaisuista ei saa kuuluisaa siskoa tunnistaa. Tällöin arkistoitavan aineiston anonymisoinnissa voi harkita jonkin julkisuudessa tunnettua siskoa koskevan tunnisteen tarkoituksellista vääristämistä (tarkan ammatin ja iän tms. muuttaminen). Toisinaan tunnisteen "vääristäminen" voi olla perusteltua myös muiden kuin julkisuuden henkilöiden kohdalla. Esimerkiksi tarkka syntymäpäivä - joka tunnisteena tulisi poistaa - voi joskus olla merkityksellinen aineiston sisällön ymmärtämiselle. Yksi kuvitteellinen tilanne voisi olla seuraava:

Haastateltava on itse syntynyt 1.5.1958 ja hän on istunut kuolemaa tekevän lapsensa sairaalavuoteen äärellä vappuna 2005. Haastattelussa hän kuvaa laveasti ristiriitaisia tuntemuksia, mitä juhlinta kaduilla ja lapsen kuolema haastateltavan omana syntymäpäivänä liittävät yhteen.

Kuvatun kaltaisessa tapauksessa vappupäivän poistaminen aineistosta heikentäisi aineiston sisällön ymmärtämistä. Mikäli haastateltavan tarkka syntymäaika kuitenkin muiden epäsuorien tunnisteiden kanssa muodostaisi tunnistamisriskin, yksi vaihtoehto on muuttaa syntymävuotta 1-2 vuotta todellista aiemmaksi tai myöhemmäksi.

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2015-03-16