Tutkittavien informointi

Fyysinen säilytys

Tutkimushankkeen kestäessä aineiston säilytyksestä ja käyttökuntoisuudesta vastaa yleensä hanke itse. Arkistointi ajoittuu tyypillisesti hankkeen jälkeiseen aikaan, jolloin vastuu aineistosta siirtyy esimerkiksi tutkimusorganisaatiolle, yliopistolle tai tutkimusaineistojen arkistointiin erikoistuneelle yksikölle, kuten Yhteiskuntatieteelliselle tietoarkistolle. Yhteiskuntatieteelliseen tietoarkistoon aineiston voi tosin tallentaa jo hankkeen aktiivivaiheessa ja sopia, että tiedot julkistetaan vasta hankkeen päätyttyä.

Joka tapauksessa tutkijoilla ja tutkimusryhmillä tulisi olla perustiedot siitä, mitä tutkimusaineiston fyysinen säilyttäminen ja sisällön säilyttäminen käyttökelpoisena vaativat. Fyysinen säilyminen varmistetaan järjestelmän ja tutkimusaineistojen kunnon huolellisella seurannalla, korjaustoimenpiteillä, varmistuskäytännöillä ja katastrofisuunnittelulla sekä järjestelmän jatkuvalla kehittämisellä.

Tiedostojen nimeäminen ja hallinta

Jokaiselle tutkimusaineistolle kannattaa luoda oma hakemisto, johon datatiedostot, kuvailutiedot ja kaikki muut aineistoon liittyvät tiedostot tallennetaan. Erityisesti silloin, kun tiedostoja säilytetään yksittäisen työaseman sijasta palvelimella, kaikille aineistohakemistoille ja tiedostoille tulee määritellä käyttöoikeudet. Jokaiselle projektin tutkijalle ei kannata antaa kirjoitusoikeutta esimerkiksi varmuuskopioihin.

Hakemistot ja tiedostot nimetään yksiselitteisesti ja loogisesti. Tiedostojen perustiedot tallennetaan kuvailutietojen yhteyteen. Nykyohjelmat mahdollistavat pitkätkin tiedostonimet, joten nimeen kannattaa sisällyttää ainakin projektin lyhenne, vuosi, tiedoston luonne ja tiedoston versio. Esimerkiksi vuonna 2000 kerätty World Values Survey -kyselyaineiston alkuperäinen SPSS-tiedosto voisi olla nimeltään wvs2000_data_alkup.por ja aineistonkeruussa käytetty kyselylomake puolestaan wvs2000_kyselylomake_suomi.rtf. Jos aineistolle on annettu yksilöivä tunniste, se kannattaa sisällyttää kaikkiin aineistoon liittyvien tiedostojen nimiin.

» Tiedostoformaatit ja ohjelmistot
» Tiedostojen kuvailu

Esimerkki: Aineiston FSD2248 ISSP 2006: valtion tehtävät IV: Suomen aineisto tiedostoja Yhteiskuntatieteellisessä tietoarkistossa:

Directory of X:\Data\FSD2248
|   cbF2248.pdf
|   meF2248.xml
|   mef2248e.xml
|   quF2248_fin.pdf
|   quF2248_sve.pdf
|   vaf2248.xml
|   
+---Data
|       daF2248.por
|       syF2248.SPS
|       
\---Original
        ISSP06_FSDdata.sas7bdat
        ISSP06_FSDdata.sav
        ISSP06_jakaumat.xls
        ISSP06_labfor.sas
        ISSP06_muuttujalistaus.lst
        ISSP06_questionnaire_fin.pdf
        ISSP06_questionnaire_swe.pdf
        ISSP06_study_description.doc
        ISSP_vastaus%_2002-06.xls

Tässä esimerkissä aineistolle on luotu oma hakemisto, jonka nimi on FSD2248 ja joka perustuu aineiston yksilöivään identifikaatiotunnukseen. Tiedostonimen kaksi ensimmäistä merkkiä kertovat, mistä aineiston osasta on kysymys:

  • cb = koodikirja
  • da = datatiedosto
  • sy = syntaksitiedosto
  • me = kuvailutiedosto
  • qu = kyselylomake
  • va = muuttujien kuvaus

Fnnnn on aineiston id-tunnus ja tiedoston nimen lopussa on tietoa tiedoston kielestä. Original-hakemistossa ovat alkuperäiset tiedostot sellaisina, kuin tutkimushanke on ne tietoarkistolle toimittanut.

» Ohjeita kvalitatiivisen aineiston tiedostojen nimeämiseen.

Varmuuskopiointi

Varmuuskopiointi pienentää riskiä aineiston kokonaisesta tai osittaisesta tuhoutumisesta. Sähköisen aineistomateriaalin tallennukseen ja varmuuskopiointiin on tarjolla useita eri mahdollisuuksia. Tallennus ja kopiointi eri medioille on usein helppoa, jos aineiston koko ei aseta rajoituksia. Kyselyaineistot ovat harvoin ongelmallisen suuria, mutta rekisteriaineistot sekä ääni- ja videomateriaali voivat vaatia erityisratkaisuja. Aineistotiedostoista kannattaa aina säilyttää erilliset työ- ja varmuuskopiot.

Hyvä varmuuskopiointikäytäntö suojaa erilaisilta vahinkotyypeiltä:

  • vahingossa tapahtuvat muutokset aineistoon
  • vahingossa tapahtuva aineiston tai sen osan tuhoaminen
  • tallennusvälineestä tai ohjelmistoista aiheutuvat muutokset tai tuhot
  • tietokonevirusten aiheuttamat muutokset tai tuhot
  • hakkereiden aiheuttamat muutokset tai tuhot
  • luonnonkatastrofit, sodat yms. (esimerkiksi tulipalot, vesivahingot, tulvat)

Varmuuskopiointikäytäntöjä suunnitellessa kannattaa kiinnittää huomiota erityisesti seuraaviin seikkoihin:

  • säännöllisyys; ota varmuuskopioita aineistosta säännöllisesti ja myös eri versioista
  • hajautus; säilytä ainakin yksi varmuuskopio fyysisesti muualla
  • tiedostojen oikeellisuus; varmenna esimerkiksi tarkistussummien avulla, että tiedosto ei ole sotkeutunut tallennettaessa
  • tallennusmedian varmuus ja soveltuvuus varmuuskopiointiin
  • varmuuskopiomedian kierrätys; ei kannata aina ylikirjoittaa vanhaa varmuuskopiota uudella, vaan säilyttää esimerkiksi joka kuukaudelta yksi versio
  • varmuuskopiomedian uudistus; vaihda vanha media uuteen säännöllisesti
  • säilytystilavaatimukset; noudata tallennusmedian valmistajan ohjeita ja suosituksia
  • tiedostoformaatti; varmuuskopioitavan materiaalin tiedostoformaattien tulisi soveltua pitkäaikaissäilytykseen

Lisäksi tulee noudattaa niitä ohjeita, joita oma organisaatio on varmuuskopioinnista antanut.

Nykyiset tietotekniset ratkaisut ja taloudelliset syyt suosivat aineistojen säilyttämistä kiintolevyillä. Koska kiintolevyt ovat kuitenkin suhteellisen vikaherkkiä, sama tieto kannattaa kopioida useammalle eri kiintolevylle tai käyttää varmuuskopiointiin myös muita tallennusvälineitä.

Migraatio ja virkistäminen: aineistojen säilyttäminen käyttökuntoisena

Laitteiden ja ohjelmistojen kehitys on nopeaa, mikä on sähköisten aineistojen pitkäaikaissäilytyksen näkökulmasta ongelma. Arkistoituja aineistoja on pystyttävä käyttämään senkin jälkeen, kun alkuperäinen aineiston tuottanut projekti on lakannut olemasta ja alkuperäinen analyysiohjelma, tiedostoformaatti ja tallennemedia (tallenneväline) ovat vanhentuneet. Yleisimmät sähköisten aineistojen pitkäaikaissäilyttämisen strategiat ovat migraatio ja emulaatio. Tutkimusaineistojen arkistoinnissa migraatio on käyttökelpoisin.

Migraatio (muunnos, konversio) tarkoittaa aineistotiedostojen muuntamista uuteen laite- ja ohjelmistoympäristöön sopiviksi, esimerkiksi kun siirrytään ohjelmistoversiosta toiseen. Migraatio on tehtävä aika ajoin uudestaan ympäristön jälleen muuttuessa. Tutkimusaineiston ja siihen liittyvän metadatan tallentaminen mahdollisimman standardoituun ja yksinkertaiseen muotoon vähentää migraation tarvetta ja helpottaa sen toteuttamista.

Virkistämisellä tarkoitetaan tiedon siirtämistä tallennusmedialta toiselle. Aineiston lukemiseen ja käsittelyyn tarvittava ohjelmisto pysyy virkistettäessä ennallaan. Virkistämiseen turvaudutaan esimerkiksi silloin, jos alkuperäinen tallennusmedia on kulunut tai jos uudet mediat ovat selvästi edullisempia kuin vanhat. Virkistäminen vaatii usein myös laitteistoympäristön päivittämistä, esimerkiksi uutta tallennevälinettä lukemaan kykenevän laitteen hankintaa.

Tallennusmediat

Optiset tallennusmediat

Optisten tallennevälineiden kirjo on laaja ja muuttuu koko ajan. Yhteistä niille on, että niiden lukemiseen käytetään lasersädettä. Optisten tallennusvälineiden kyvystä säilyttää niille tallennettua tietoa ei ole vielä pitkäaikaista kokemusta, mutta ne soveltuvat hyvin tutkimusprojektin aikaiseen datan tallentamiseen ja käyttökopioiden siirtoon. Yleisimmät optiset tallennevälineet ovat:

  • CD-levy (Compact Disc). CD-levyjä tehdään erikokoisina, mutta yleisin koko on halkaisijaltaan 120 millimetriä, joka antaa noin 74 minuutin tallennustilan äänelle ja 650 megatavun tilan datalle. Itsepoltettavat CR-R- ja CD-RW-levyt ovat yleensä kapasiteetiltaan 80 minuuttia tai 700 Mt.
  • DVD-levy (Digital Video/Versatile Disc). DVD-levyn yleisimmät käyttötavat ovat videokuvan ja tiedon tallennus. DVD muistuttaa ulkoisesti CD-levyä. DVD voi sisältää dataa useissa formaateissa. Poltettavien levyjen kapasiteetti on tyypillisesti 4,7 Gt, HD DVD -levyjen suurempi.
  • Blu-ray. Blu-ray-levyjen lukemiseen ja kirjoittamiseen käytetään lyhytaaltopituista (violetin väristä) laseria tavanomaisen punaisen sijaan. Levylle voidaan tallentaa enemmän dataa kuin DVD- ja CD-levyille. Yhden yksipuolisen ja -kerroksisen levyn tallennuskapasiteetti on noin 25 Gt ja kaksikerroksisen 50 Gt.

Optista mediaa ei ole suunniteltu pitkäaikaissäilytykseen. Levyjä tulee säilyttää huolellisesti. Ne ovat herkkiä muun muassa naarmuille, sormenjäljille ja UV-säteilylle, joten esimerkiksi suora auringonvalo saattaa helposti vioittaa levyä. Erityisesti itsepoltettujen levyjen säilyvyys lukukelpoisena voi olla hyvinkin lyhytaikaista.

» Digiwiki: Optinen media

Haihtumattomat muistit

Erilaiset muistikortit ja muistitikut (flash-muistit/USB-tikut) ovat luonteeltaan nk. haihtumattomia muisteja, eli ne säilyttävät sisältönsä, vaikka laitteesta katkaistaisiin virta. Haihtumattomia muisteja ei ole tarkoitettu pitkäaikaissäilytykseen. Ne eivät kuitenkaan ole yhtä herkkiä ulkoisista tekijöistä aiheutuville vioille kuin optiset mediat. Pienen kokonsa ja hyvän luku- ja kirjoitusnopeutensa vuoksi ne soveltuvat mainiosti esimerkiksi käyttökopioiden siirtoon koneelta toiselle. Pienellä koolla on myös haittansa: erityisesti muistitikut tuntuvat katoavan yllättävän usein.

  • Muistitikku (USB-muisti) on ulkomitoiltaan pieni laite, joka liitetään tietokoneen USB-porttiin. Muistitikku näkyy tietokoneen resurssienhallinnassa siirrettävänä levyasemana ja siihen voidaan tallentaa tietoja kiintolevyn tapaan. Kapasiteetiltaan yleisimmät muistitikut ovat nykyisin 4-64 gigatavua.
  • Muistikortteja käytetään muun muassa digitaalikameroissa ja matkapuhelimissa. Uudemmissa (kannettavissa) tietokoneissa on usein valmiina muistikortinlukija. Muistikorttitekniikoita ovat muun muassa Compact Flash (CF), Secure Digital (SD), Multi Media Card (MMC) ja Memory Stick (MC).
  • SSD-massamuistit (Solid State Drive) on suunniteltu magneettikiekkoihin perustuvan kiintolevyn korvaajaksi. SSD-levyt ovat hiljaisia ja usein kiintolevyjä nopeampia (ainakin tiedon lukemisessa), mutta toistuva kirjoittaminen SSD-levylle saattaa joissain tapauksissa lyhentää sen kestoikää.

Magneettiset tallennusmediat

Magneettiset tallennusvälineet ovat olleet käytössä jo pitkään. Digitaalista tietoa voidaan kirjoittaa magneettisesti nauhoille tai kiintolevyille, joiden molempien tallennuskapasiteetti on suurempi kuin esimerkiksi optisten medioiden.

  • Levykkeet ("lerput" ja "korput") ovat väistyviä tallennusvälineitä eikä uusissa tietokoneissa ole enää levykkeitä lukevia asemia. Levykkeille tallennettu data kannattaa tallentaa uudelle medialle ensi tilassa.
  • Kiintolevy (kovalevy) on levymuisti, jota käytetään tietokoneen massamuistina. Tieto tallennetaan yhden tai useamman pyörivän metalli- tai lasikiekon pinnalla olevaan magneettiseen materiaaliin. Kiintolevyn perinteisen massamuistikäytön ohella nykyisin "ulkoiset" (USB-liitäntäiset) kiintolevyt tarjoavat suuren siirrettävän tallennuskapasiteetin (450 gigatavusta aina kuuteen teratavuun asti). Ulkoiset levyt ovat kirjoitusnopeudeltaan huomattavasti sisäisiä hitaampia. Kiintolevy on erinomainen media aineiston käyttökopion käsittelyyn, mutta epäluotettava pitkäaikaiseen säilytykseen.
  • Digitaaliset magneettinauhajärjestelmät on tarkoitettu ensisijaisesti laajojen tietojärjestelmien pitkäaikaiseen varmistamiseen. Käyttökopioiden säilyttämiseen ne soveltuvat huonosti, sillä tietojen hakeminen on hidasta ja nauhat kuluvat, jos niitä luetaan usein. Nauhajärjestelmien käyttöönotto ja ylläpito edellyttävät tietoteknistä erityisosaamista, ja yksittäisten tutkimusprojektien aineistojen tallentamiseen nauhajärjestelmä on kallis. Erilaisia nauhajärjestelmiä ovat muun muassa DAT, LTO ja DLT.

» Digiwiki: Magneettinen media
» Wikipedia: Magnetic tape data storage

Tietoturva

Tietoturvalla tai tietoturvallisuudella tarkoitetaan tietojen, järjestelmien ja tietoliikenteen suojausta. Sähköisen tutkimusaineiston kopioiminen ja levittäminen on helppoa, samoin esimerkiksi tahaton tuhoaminen tai muuttaminen. Varmuuskopiointi on osa tietoturvaa, mutta lisäksi on varmistettava, että aineiston ulkopuolinen (luvaton) käyttö on estetty. On huolehdittava muun muassa seuraavista:

  • Tietoverkkojen turvallisuus. Tutkimushenkilöstölle tulee luoda henkilökohtaiset luku- ja kirjoitusoikeudet aineistoon (esimerkiksi käyttäjätunnukset ja salasanat). Tämä on erityisen tärkeää, jos tutkimusaineistoon on pääsy tietoverkon kautta. Tietoverkoissa siirrettävä tieto salataan tarpeen mukaan. Salassapidettävää tietoa ei saa säilyttää sellaisilla palvelimilla, jotka tarjoavat palveluja internet-verkkoon (esimerkiksi www- ja sähköpostipalvelimet). Tietosuojavaatimuksiltaan arkaluontoista materiaalia tulee säilyttää vain sellaisilla tietokoneilla, joita ei ole liitetty tietoverkkoihin. Lisäksi on varmistettava, ettei tietojärjestelmä tallenna aineiston käsittelyssä syntyviä väliaikais- tai muita tallenteita käyttöoikeusrajoitetun alueen ulkopuolelle.
  • Fyysisten aineistotilojen turvallisuus. Tutkimusaineistojen säilytys ja varmuuskopiointi tulee suunnitella niin, että aineistot on suojattu palon, murron, vesivahingon tai sabotaasin varalta. Kiinteistössä on hyvä olla kulunvalvonta ja ovet tulee lukita, kun henkilökuntaa ei ole paikalla. Lisäksi voidaan rajoittaa pääsyä niihin tiloihin, joissa tutkimusaineistoa säilytetään. Tietokoneiden ja oheislaitteiden vikaantumiseen on varauduttava. Varmuuskopiot kannattaa sijoittaa turvakaappiin. Aineistosta tulisi myös olla yksi kopio, jota säilytetään fyysisesti mahdollisimman erillään muista aineistokopioista. Tämänkin kopion säilyttämisen tietoturvasta tulee huolehtia.
  • Ohjelmistopäivitykset. Kriittiset käyttöjärjestelmä- ja ohjelmistopäivitykset tulee asentaa mahdollisimman nopeasti. On suositeltavaa käyttää keskitettyä automaattista päivityspalvelua ja pitää mielessä, että joskus ohjelmistopäivitykset voivat aiheuttaa yhteensopivuusongelmia.
  • Virussuojaus. Kaikissa tutkimusprojektiin osallisina olevissa tietokoneissa täytyy olla asennettuna säännöllisesti ja automaattisesti päivittyvä virustorjuntaohjelmisto.

Tietoturvaan liittyvissä asioissa on syytä konsultoida ajoissa oman organisaation mikrotukea tai tietokonekeskusta sekä varauduttava tarvittaessa ostopalvelujen hankintaan.

Aineiston hävittäminen

Tutkimusaineiston mahdollinen hävittäminen on hoidettava suunnitelmallisesti. Vahingossa tapahtuva tuhoaminen tai tuhoutuminen on estettävä.

Tarpeettomat aineistotiedostot ja tietojärjestelmien käytön yhteydessä syntyvät väliaikaistiedostot on poistettava käyttötarpeen päätyttyä. Pelkästään tiedoston poistaminen (deletointi) ja tietokoneen roskakorin tyhjentäminen ei tarkoita, että tiedosto olisi tuhoutunut lopullisesti. Poistettuja tietoja voi palauttaa jopa kiintolevyn uudelleen alustamisen jälkeen. Tiedon lopulliseen hävittämiseen on olemassa erilaisia ohjelmia, jotka perustuvat esimerkiksi tietojen ylikirjoittamiseen tai kiintolevyn magnetointiin. Tallennusväline voidaan myös murskata mekaanisesti lukukelvottomaksi. Useilla yliopistoilla ja virastoilla on oma sisäinen ohjeistuksensa tallennusvälineiden hävittämisestä.

Paperiaineiston säilytys

Jos sähköinen tutkimusaineisto on dokumentoitu ja prosessoitu niin, että se voidaan pitkäaikaissäilyttää, paperiaineistoja ei yleensä tarvitse säilyttää. Esimerkiksi vastaajien täyttämiä postikyselylomakkeita ei tarvitse tutkimushankkeen päättymisen jälkeen arkistoida.

Täytetyt kyselylomakkeet kannattaa säilyttää vain silloin, jos ne sisältävät olennaista tietoa, jota ei ole saatavilla sähköisessä muodossa. Tällaista tietoa voivat olla esimerkiksi avokysymysten tallentamattomat vastaukset. Paperilomakkeet kannattaa säilyttää myös silloin, jos aineistoa tarvitsee vielä tarkistaa. Joka tapauksessa pitää punnita paperimateriaalin säilyttämisen kustannuksia suhteessa oletettuun hyötyyn. Myös tietosuojakysymykset pitää ottaa huomioon, sillä täytetyt kyselylomakkeet saattavat muodostaa henkilörekisterin.

Arkistolaitoksen tuottama Asiakirjahallinnon ja arkistotoimen oppikirja ohjeistaa paperiaineiston säilyttämisessä.

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2015-03-16