Tutkittavien informointi

Tiedostoformaatit ja ohjelmistot

Tiedonhallinan käsikirja on nyt Aineistonhallinnan käsikirja.

Tiedostoformaatit (tiedostomuodot) ja ohjelmistot uusiutuvat koko ajan. Mitään yhtä pätevää tiedostoformaattia tai ohjelmaa ei ole. Ainakin yksi tiedostokopio kannattaa aina tallentaa jossain sellaisessa formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton ohjelmistoista. Tällöin todennäköisyys sille, että tiedosto pystytään lukemaan tulevaisuudessakin, kasvaa.

Ajantasaisia suosituksia pitkäaikaissäilytykseen sopivista siirto- ja säilytysformaateista löytyy Kansallinen digitaalisen kirjasto -hankkeen (KDK) julkaisemista ohjeista. Ohjeet eivät kata tilasto-ohjelmien tiedostoformaatteja, mutta muilta osin suosituksia kannattaa noudattaa myös tutkimustyössä aina kun se on mahdollista. Erityisesti digitoitava aineisto on suositeltavaa tallentaa suoraan johonkin KDK:n tuetuista formaateista, jotta vältytään myöhemmiltä tiedostokonversioilta. Myös perusmetatiedot aineiston tuottamiseen sekä käsittelyyn käytetyistä laitteista ja ohjelmistoista on syytä merkitä muistiin.

Tiedostojen konvertointi

Konvertoitaessa eli siirrettäessä tiedostoja yhden ohjelmiston käyttämästä tiedostomuodosta toiseen informaatiota katoaa helposti. Tietoa voi kadota myös konversiossa saman ohjelmiston eri versioiden välillä. Jotta tietoa menetettäisiin mahdollisimman vähän tai ei lainkaan, konversion yhteydessä tulee tutustua eri tiedostoformaattien ja ohjelmistojen rajoituksiin.

Useissa ohjelmistoissa on tarjolla export- tai save as -toiminto, jolla aineisto voidaan tallentaa eri tiedostoformaateissa. Nämä toiminnot eivät kuitenkaan aina konvertoi kaikkea alkuperäistiedoston sisältämää informaatiota. Esimerkiksi tilastollisissa ohjelmissa puuttuvan tiedon määrittelyt saattavat kadota, vaikka kohdeformaatti niitä tukisikin. Tekstinkäsittelyohjelmasta toiseen siirryttäessä katoavat usein muotoilut.

Erilaisten tiedostoformaattien väliseen konversioon on tarjolla myös ohjelmistoja, joissa eri formaattien ominaisuudet on otettu kattavasti huomioon. Tietoarkistossa käytetään kvantitatiivisten tutkimusaineistojen konvertointiin StatTransfer-ohjelmaa.

Tutkimusaineiston digitointi

Paperisten teksti- ja kuva-aineistojen lukeminen digitaaliseen muotoon onnistuu nykyään helposti skannerilla tai tulostimiin sisältyvällä skannauslaitteella ja -ohjelmalla.

Jos on tarkoitus säilyttää sähköisessä muodossa vain teksti, skannerin kuvaama/lukema teksti muutetaan tekstitiedostoksi tekstintunnistusohjelmalla (OCR, Optical Character Recognatization), jollainen kuuluu lähes kaikkien skannereiden vakio-ohjelmiin. Jos halutaan säilyttää paperidokumentin ulkoasu tai esimerkiksi siihen käsin kirjatut merkinnät, tallennetaan ja säilytetään skannattu tiedosto kuvatiedostona samalla tavalla kuin kuva-aineistot.

PDF (Portable Document Format) on verrattain vakiintunut tallennusmuoto paperidokumenttien digitaalisten versioiden levittämiseksi. Sen avulla dokumentit voidaan tulostaa niin, että tekstin ja kuvien alkuperäinen asettelu säilyy.

VHS-nauhoilla olevat ääni-kuva-tallenteet voi muuntaa digitaalisiksi käyttäen VHS-DVD-yhdistelmälaitetta, mutta tarkempi digitaalisen kopion vastaavuus alkuperäiseen tallenteeseen saadaan konvertoimalla tallenne tietokoneelle erillisellä laitteella. Digitointipalveluja tarjoavat monet alalle erikoistuneet yritykset, jotka osaavat digitoinnissa huomioida erilaiset nauhan ikään ja alkuperäisen tallenteen käyttökertojen määrään liittyvät seikat.

Vanhoilla medioilla (avokelat, c-kasetit) olevien äänitallenteiden digitointiin löytyy ohjeita digitoinnin ja pitkäaikaissäilyttämisen verkkopalvelusta DigiWikistä.

Havaintomatriisit ja tilasto-ohjelmistot

Kvantitatiivinen aineisto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista ja jossa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Havaintomatriisin solut sisältävät numeerista tai tekstimuotoista informaatiota. Matriisia käsitellään tilasto-ohjelmistolla.

Useimmat tilasto-ohjelmistot tallentavat aineistoon havaintomatriisin lisäksi metadataa eli tietoa, joka kuvaa havaintomatriisin solujen sisältöä. Tyypillisesti tälläistä informaatiota ovat muuttujien nimet ja selitteet, muuttujien arvojen selitteet ja puuttuvan tiedon määrittelyt.

Kvantitatiivisen aineiston käsittelyyn on tarjolla lukuisia erilaisia ohjelmistoja. Eri ohjelmistot tarjoavat erilaisia analyysimahdollisuuksia. Lisäksi ne käsittelevät eri tavoin muun muassa muuttujien ja vastausvaihtoehtojen selitteitä, puuttuvia tietoja ja muuttujaformaatteja. Myös saman ohjelmiston eri versioiden välillä voi olla huomattavia eroja.

Yhteiskuntatieteissä käytetyimmät tilastollisen aineistonkäsittelyn ja analysoinnin ohjelmistot ovat SPSS, Stata, SAS ja R. Tarjolla on myös laaja valikoima muita tilasto-ohjelmistoja (esimerkiksi Survo, Matlab, Glim, Statistica, NSD-Stat ja BUGS). Lisäksi taulukkolaskentaohjemistoja (esimerkiksi Excel) käytetään tutkimusaineistojen muokkaukseen ja analysointiin. Tutkimusaineisto voidaan myös tallentaa ja analysoida relaatiotietokannoissa (esimerkiksi Oracle, MS SQL Server, DB2, MySQL, PostgreSQL).

Tietoarkistoon aineiston voi toimittaa esimerkiksi SPSS-, SAS-, Stata- tai Excel-tiedostona tai ASCII-tiedostona. Aineistojen huolellinen dokumentointi säilyttää aineiston käyttökelpoisuuden tiedostoformaatista, ohjelmistosta tai versiosta riippumatta.

Tilasto-ohjelmistot ja niiden tiedostoformaatit

SPSS (IBM SPSS Statistics)

SPSS:n ensimmäinen versio julkaistiin jo 1968 ja sen SPSS Portable -formaatti on suosittu tutkimusaineistojen pitkäaikaissäilytyksessä. Saatavilla versiot Windows-, Linux/UNIX- ja Mac-käyttöjärjestelmille. Käytetään valikoiden tai komentokielen (syntaksin) avulla. Lukee monien muiden ohjelmistojen tiedostoja.

Tiedostopääte: *.sav, *.por

Stata

Vuonna 1985 julkaistu tilastollinen ohjelmisto, versiot Windows-, Linux/UNIX- ja Mac OS X -käyttöjärjestelmille. Edullisempi kuin SAS tai SPSS.

Tiedostopääte: *.dta

SAS

Ensimmäinen versio julkaistiin jo 1960-luvulla, versiot Windows-, IBM mainframe-, Unix/Linux- ja OpenVMS Alpha -käyttöjärjestelmille. Tilastollisten osien lisäksi SAS sisältää paketit grafiikasta, optimoinnista ja matriisilaskennasta. Käytetään pääasiallisesti komentokielen avulla, mutta myös valikoiden kautta.

Tiedostopääte: *.sd2, *.sd7, *.sas7dbat (SAS for Windows), *.ssd01, *.sas7dbat (SAS for UNIX)

R (GNU S)

Ensimmäinen versio julkaistiin 1980-luvulla, versiot Windows- ja Unix/Linux-käyttöjärjestelmille. Avoimen lähdekoodin versio R julkaistiin 1990-luvun loppupuolella. R on enemmänkin tilastollinen ohjelmistoympäristö kuin tilastollinen ohjelma.

Muita tiedostomuotoja

Comma Separated Values, CSV

Tekstitiedosto, jossa tiedot (muuttujien saamat arvot) on erotettu toisistaan pilkulla. Tiedostopääte: *.csv

Sarkainerotettu tiedosto (Tab Delimited)

Tekstitiedosto, jossa tiedot erotettu toisistaan sarkaimella. Tiedostopääte: *.dat, *tab, *.txt

Kiinteäkenttäinen tiedosto (Fixed width)

Tekstitiedosto, jossa jokaiselle tiedolle on varattu määrätty määrä merkkejä. Jos tieto on lyhyempi kuin varattujen merkkien määrä, käytetään esimerkiksi välilyöntiä täyttämään "tyhjä osuus". Tiedostopääte: *.dat, *.txt

Tekstiaineistot

Valtaosa Yhteiskuntatieteellisen tietoarkistoon arkistoiduista kvalitatiivisista aineistoista on tekstitiedostoja. Aineistot voivat olla esimerkiksi päiväkirjamerkintöjä tai ääni- ja videotallenteista litteroituja tekstitiedostoja. Usein aineistoon liittyy myös kirjoitus- tai transkriptointiohjeita. Tekstiaineistoja voidaan käsitellä tekstinkäsittelyohjelmilla tai nimenomaan kvalitatiiviseen aineiston käsittelyyn suunnitelluilla ohjelmilla (esimerkiksi Atlas.ti, NVivo). Ohjelmia on esitelty Menetelmäopetuksen tietovarannossa.

Myös tutkimusaineistoa kuvailevan metadatan voi säilyttää tekstitiedostona.

Tavallisimmat tekstitiedostoformaatit ovat:

  • TXT: Muotoilemattomana eli puhtaana tekstinä tallennettavien tiedostojen nimet ovat tyypillisesti muotoa *.txt. ASCII-tallenteista puhuttaessa tarkoitetaan samaa asiaa (ASCII = American Standard Code for Information Interchange). Muotoilematon txt-tallenne on hyvä ratkaisu pitkäaikaissäilytykseen, sillä tiedostot avautuvat kaikilla tekstinkäsittelyohjelmilla ja tekstieditoreilla.
  • RTF: Rich Text Format (*.rtf) on toinen vaihtoehto tekstitiedostojen pitkäaikaissäilytykseen. Myös rtf-tiedostot ovat ASCII-tiedostoja eikä niitä ole sidottu mihinkään tiettyyn tekstinkäsittelyohjelmaan. RTF-tiedostot toimivat eri käyttöjärjestelmissä. Esimerkiksi siirtyminen Windows-käyttöjärjestelmästä Unix-käyttöjärjestelmään ei yleensä muuta tiedostojen sisältöä tai muotoilua. Tekstin lisäksi RTF-tallenteet sisältävät tietoa marginaaleista ja fontista.
  • DOC/DOCX: (*.doc, *.docx) voivat sisältää huomattavan monimutkaisia muotoiluja (tekstityylejä, palstoja, lihavointeja ja värejä) sekä tekstin lomaan tallennettuja taulukoita, grafiikkaa ja kuvia. DOC/DOCX-tiedostot aukeavat varmimmin vain Microsoft Word -ohjelmalla, mutta DOCX-formaatin tuki muissa tekstinkäsittelyohjelmissa on viime vuosina parantunut. Ohjelmistoriippuvuuden vuoksi formaatti ei kuitenkaan ole suositeltava tallennemuoto pitkäaikaissäilytykseen.
  • ODT: OpenDocument Text (*.odt, *.fodt) on XML-pohjainen tiedostomuoto tekstille. Se perustuu avoimen lähdekoodin toimisto-ohjelmisto OpenOfficen ODF-tiedostomuotoon ja on ISO-standardoitu. Kuten Word-dokumentit ODT-tiedostot voivat sisältää huomattavan monimutkaisia muotoiluja, taulukoita, grafiikkaa ja kuvia. Avoimuuden ja järjestelmäriippumattomuuden vuoksi ODT-formaattia pidetään soveltuvana pitkäaikaissäilytykseen.

Kuva-aineistot

Tutkimusaineisto voi koostua kuvatiedostoista tai sisältää niitä. Esimerkiksi keskustelun tueksi tai virikkeeksi on voitu näyttää erilaisia kuvia, tai tutkimuksessa on analysoitu lehden kansikuvia. Kuvien yleisimmät tiedostoformaatit ovat:

  • JPEG (Joint Photographic Experts Group) sopii sekä verkossa julkaistavien kuvien että valokuvien ja muiden sävykuvien tallennusmuodoksi, koska se ei hävitä kuvien väri-informaatiota. Kuvien kokoa voi säädellä, mutta pienennettäessä kuvia niistä häviää yksityiskohtia. JPEG on hyvä käyttöformaatti valokuva-aineistoille, sillä se ei vie paljon tilaa ja tiedostojen tietotekniset siirrot ovat helppoja. Yhteiskuntatieteellisen tietoarkiston tekstiaineistoihin liittyvät kuvat välitetään asiakkaille JPEG-muodossa. Sukulaisformaatti JPEG 2000 tarjoaa häviöttömän pakkausvaihtoehdon.
  • PNG (Portable Network Graphics) on kehitetty GIF-formaatin korvaajaksi. Se soveltuu hyvin verkossa julkaistaville kuville ja erityisesti grafiikalle, kuvioille ja kaavioille.
  • GIF (Graphics Interchange Format) soveltuu hyvin verkkosivuilla julkaistavien kuvien formaatiksi, sillä kaikki selaimet tukevat sitä. Formaatti pakkaa tiedostokoot pienemmiksi ja tallentaa vain 256 väriä. Formaattia ei ole tarkoitettu pitkäaikaistallentamiseen.
  • TIFF (Tagged Image File Format) säilyttää kaiken informaation kuvasta sekä sen väreistä ja on järjestelmäriippumaton. Molemmat ominaisuudet tekevät TIFF-formaatista hyvän pitkäaikaissäilytysformaatin, kun halutaan varmistaa että digitoidut kuvat vastaavat mahdollisimman tarkasti alkuperäistä kuvaa. TIFF-kuvat vievät paljon tilaa, mutta niiden pakkaamiseen on olemassa eri menetelmiä.
  • BMP (Bitmap) on TIFF-formaatin kaltainen tallennemuoto, joka on tarkoitettu Windows-ympäristöön. Järjestelmäriippuvuuden vuoksi se ei ole suositeltava pitkäaikaistallennukseen.

Aäni- ja äänikuvatallenteet

Tutkimusaineistot sisältävät enenevässä määrin esimerkiksi nauhoitettuja tai videoituja haastatteluita. Ääni- ja äänikuvatallennemuodot (audio- ja audiovisuaaliset tallennemuodot) ovat järjestelmäriippuvaisia ja ne muuttuvat koko ajan. Yleisimpiä ovat:

  • WAV (Windows Wave) on pakkaamaton äänitallennemuoto, joka vie hyvin paljon tilaa, mutta säilyttää äänen, jos näytteenottotaajuudessa ja erottelutarkkuudessa käytetään suurta bittimäärää. WAV on suositeltava äänitiedostojen pitkäaikaissäilytyksen tallennemuoto, jos äänenlaatu halutaan säilyttää hyvin korkeatasoisena. Se vaatii kuitenkin suurta säilytyskapasiteettia ja tiedostojen siirto voi olla hidasta.
  • MPEG-1/2 (MP3) pakkaa ääntä voimakkaasti ja tiedostot ovat paljon pienempiä kuin vastaavat WAV-tiedostot. Pakkaus kuitenkin hävittää lähinnä sellaisia ääniä, joita ihmiskorva ei muutenkaan kuulisi. MP3-tallennemuoto sopii ääntä sisältävien tutkimusaineistojen tallennemuodoksi. MPEG-2 soveltuu sekä yksinomaan ääntä että HDTV-tasoista liikkuvaa äänikuvaa (videoaineistot) sisältävien tutkimusaineistojen tallenneformaatiksi.
  • MPEG-4 (H.264) on joukko laadukkaita äänen ja kuvan pakkaamistapoja, joita voidaan käyttää mm. digitaalisessa videossa ja interaktiivisessa multimediassa. Tämä on nykyisin monien videokameratallenteiden pakkaustapa.

Aiheesta lisää:

Tulosta
viimeksi päivitetty 2014-06-24