Tiedostoformaatit ja ohjelmistot
Tiedostoformaatit (tiedostomuodot) ja ohjelmistot uusiutuvat koko ajan. Mitään yhtä pätevää tiedostoformaattia tai ohjelmaa ei ole. Ainakin yksi tiedostokopio kannattaa aina tallentaa jossain sellaisessa formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton ohjelmistoista. Tällöin todennäköisyys sille, että tiedosto pystytään lukemaan tulevaisuudessakin, kasvaa.
Ajantasaisia suosituksia pitkäaikaissäilytykseen sopivista siirto- ja säilytysformaateista löytyy Kansallinen digitaalisen kirjasto -hankkeen (KDK) julkaisemista ohjeista. Ohjeet eivät kata tilasto-ohjelmien tiedostoformaatteja, mutta muilta osin suosituksia kannattaa noudattaa myös tutkimustyössä aina kun se on mahdollista. Erityisesti digitoitava aineisto on suositeltavaa tallentaa suoraan johonkin KDK:n tuetuista formaateista, jotta vältytään myöhemmiltä tiedostokonversioilta. Myös perusmetatiedot aineiston tuottamiseen käytetyistä laitteista ja ohjelmistoista on syytä merkitä muistiin.
Tiedonhallinnan käsikirjaa päivitetään näiltä osin lähitulevaisuudessa.
Tiedostojen konvertointi
Konvertoitaessa eli siirrettäessä tiedostoja yhden ohjelmiston käyttämästä tiedostomuodosta toiseen informaatiota katoaa helposti. Tietoa voi kadota myös konversiossa saman ohjelmiston eri versioiden välillä. Jotta tietoa menetettäisiin mahdollisimman vähän tai ei lainkaan, konversion yhteydessä tulee tutustua eri tiedostoformaattien ja ohjelmistojen rajoituksiin.
Useissa ohjelmistoissa on tarjolla export- tai save as -toiminto, jolla aineisto voidaan tallentaa eri tiedostoformaateissa. Nämä toiminnot eivät kuitenkaan aina konvertoi kaikkea alkuperäistiedoston sisältämää informaatiota. Esimerkiksi tilastollisissa ohjelmissa puuttuvan tiedon määrittelyt saattavat kadota, vaikka kohdeformaatti niitä tukisikin. Tekstinkäsittelyohjelmasta toiseen siirryttäessä katoavat usein muotoilut.
Erilaisten tiedostoformaattien väliseen konversioon on tarjolla myös ohjelmistoja, joissa eri formaattien ominaisuudet on otettu kattavasti huomioon. Tietoarkistossa käytetään kvantitatiivisten tutkimusaineistojen konvertointiin StatTransfer-ohjelmaa.
Tutkimusaineiston digitointi
Paperisten teksti- ja kuva-aineistojen lukeminen digitaaliseen muotoon onnistuu nykyään helposti skannerilla tai tulostimiin sisältyvällä skannauslaitteella ja -ohjelmalla.
Jos on tarkoitus säilyttää sähköisessä muodossa vain teksti, skannerin kuvaama/lukema teksti muutetaan tekstitiedostoksi tekstintunnistusohjelmalla (OCR, Optical Character Recognatization), jollainen kuuluu lähes kaikkien skannereiden vakio-ohjelmiin. Jos halutaan säilyttää paperidokumentin ulkoasu tai esimerkiksi siihen käsin kirjatut merkinnät, tallennetaan ja säilytetään skannattu tiedosto kuvatiedostona samalla tavalla kuin kuva-aineistot.
PDF (Portabel Document Format) on vakiintunut tallennusmuoto paperidokumenttien digitaalisten versioiden levittämiseksi. Sen avulla dokumentit voidaan tulostaa niin, että tekstin ja kuvien alkuperäinen asettelu säilyy.
VHS-nauhoilla olevat ääni-kuva-tallenteet voi muuntaa digitaalisiksi käyttäen VHS-DVD-yhdistelmälaitetta, mutta tarkempi digitaalisen kopion vastaavuus alkuperäiseen tallenteeseen saadaan konvertoimalla tallenne tietokoneelle erillisellä laitteella. Digitointipalveluja tarjoavat monet alalle erikoistuneet yritykset, jotka osaavat digitoinnissa huomioida erilaiset nauhan ikään ja alkuperäisen tallenteen käyttökertojen määrään liittyvät seikat.
Vanhoilla medioilla (avokelat, c-kasetit) olevien äänitallenteiden digitointiin löytyy ohjeita digitoinnin ja pitkäaikaissäilyttämisen verkkopalvelusta DigiWikistä.
Havaintomatriisit ja tilasto-ohjelmistot
Kvantitatiivinen aineisto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista ja jossa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Havaintomatriisin solut sisältävät numeerista tai tekstimuotoista informaatiota. Matriisia käsitellään tilasto-ohjelmistolla.
Useimmat tilasto-ohjelmistot tallentavat aineistoon havaintomatriisin lisäksi metadataa eli tietoa, joka kuvaa havaintomatriisin solujen sisältöä. Tyypillisesti tälläistä informaatiota ovat muuttujien nimet ja selitteet, muuttujien arvojen selitteet ja puuttuvan tiedon määrittelyt.
Kvantitatiivisen aineiston käsittelyyn on tarjolla lukuisia erilaisia ohjelmistoja. Eri ohjelmistot tarjoavat erilaisia analyysimahdollisuuksia. Lisäksi ne käsittelevät eri tavoin muun muassa muuttujien ja vastausvaihtoehtojen selitteitä, puuttuvia tietoja ja muuttujaformaatteja. Myös saman ohjelmiston eri versioiden välillä voi olla huomattavia eroja.
Käytetyimmät tilastollisen aineistonkäsittelyn ja analysoinnin ohjelmistot ovat SPSS, Stata, SAS ja S-Plus/R. Tarjolla on myös laaja valikoima muita tilasto-ohjelmistoja (esimerkiksi Survo, Tixel, Matlab, Glim, Statistica, NSD-Stat ja BUGS). Lisäksi taulukkolaskentaohjemistoja (esimerkiksi Excel) käytetään tutkimusaineistojen muokkaukseen ja analysointiin. Tutkimusaineisto voidaan myös tallentaa ja analysoida relaatiotietokannoissa (esimerkiksi Oracle, MS SQL Server, DB2, MySQL, PostgreSQL).
Tietoarkistoon aineiston voi toimittaa esimerkiksi SPSS-, SAS-, Stata- tai Excel-tiedostona tai ASCII-tiedostona. Aineistojen huolellinen dokumentointi säilyttää aineiston käyttökelpoisuuden tiedostoformaatista, ohjelmistosta tai versiosta riippumatta.
Tilasto-ohjelmistot ja niiden tiedostoformaatit
SPSS (IBM SPSS Statistics)
SPSS:n ensimmäinen versio julkaistiin jo 1968 ja sen SPSS Portable -formaatti on suosittu tutkimusaineistojen pitkäaikaissäilytyksessä. Saatavilla versiot Windows-, Linux/UNIX- ja Mac-käyttöjärjestelmille. Käytetään valikoiden tai komentokielen (syntaksin) avulla. Lukee monien muiden ohjelmistojen tiedostoja.
Tiedostopääte: *.sav, *.por
Stata
Vuonna 1985 julkaistu tilastollinen ohjelmisto, versiot Windows-, Linux/UNIX- ja Mac OS X -käyttöjärjestelmille. Edullisempi kuin SAS tai SPSS.
Tiedostopääte: *.dta
SAS
Ensimmäinen versio julkaistiin jo 1960-luvulla, versiot Windows-, IBM mainframe -, Unix/Linux- ja OpenVMS Alpha -käyttöjärjestelmille. Tilastollisten osien lisäksi SAS sisältää paketit grafiikasta, optimoinnista ja matriisilaskennasta. Käytetään pääasiallisesti komentokielen avulla, mutta myös valikoiden kautta.
Tiedostopääte: *.sd2, *.sd7, *.sas7dbat (SAS for Windows), *.ssd01, *.sas7dbat (SAS for UNIX)
R (S-plus, GNU S)
Ensimmäinen versio julkaistiin 1980-luvulla, versiot Windows- ja Unix/Linux-käyttöjärjestelmille. Avoimen lähdekoodin versio R julkaistiin 1990-luvun loppupuolella. R on enemmänkin tilastollinen ohjelmistoympäristö kuin tilastollinen ohjelma.
Muita tiedostomuotoja
Comma Separated Values, CSV
Tekstitiedosto, jossa tiedot (muuttujien saamat arvot) on erotettu toisistaan pilkulla. Tiedostopääte: *.csv
Sarkainerotettu tiedosto (Tab Delimited)
Tekstitiedosto, jossa tiedot erotettu toisistaan sarkaimella. Tiedostopääte: *.dat, *tab, *.txt
Kiinteäkenttäinen tiedosto (Fixed width)
Tekstitiedosto, jossa jokaiselle tiedolle on varattu määrätty määrä merkkejä. Jos tieto on lyhyempi kuin varattujen merkkien määrä, käytetään esimerkiksi välilyöntiä täyttämään "tyhjä osuus". Tiedostopääte: *.dat, *.txt
Tekstiaineistot
Valtaosa Yhteiskuntatieteellisen tietoarkistoon arkistoiduista kvalitatiivisista aineistoista on tekstitiedostoja. Aineistot voivat olla esimerkiksi päiväkirjamerkintöjä tai ääni- ja videotallenteista litteroituja tekstitiedostoja. Usein aineistoon liittyy myös kirjoitus- tai transkriptointiohjeita. Tekstiaineistoja voidaan käsitellä tekstinkäsittelyohjelmilla tai nimenomaan kvalitatiiviseen aineiston käsittelyyn suunnitelluilla ohjelmilla (esimerkiksi Atlas.ti, NVivo). Ohjelmia on esitelty Menetelmäopetuksen tietovarannossa.
Myös tutkimusaineistoa kuvailevan metadatan voi säilyttää tekstitiedostona.
Tavallisimmat tekstitiedostoformaatit ovat:
- TXT: Muotoilemattomana eli puhtaana tekstinä tallennettavien tiedostojen nimet ovat tyypillisesti muotoa *.txt. ASCII-tallenteista puhuttaessa tarkoitetaan samaa asiaa (ASCII = American Standard Code for Information Interchange). Muotoilematon txt-tallenne on hyvä ratkaisu pitkäaikaissäilytykseen, sillä tiedostot avautuvat kaikilla tekstinkäsittelyohjelmilla ja tekstieditoreilla.
- RTF: Rich Text Format (*.rtf) on toinen vaihtoehto tekstitiedostojen pitkäaikaissäilytykseen. Myös rtf-tiedostot ovat ASCII-tiedostoja eikä niitä ole sidottu mihinkään tiettyyn tekstinkäsittelyohjelmaan. RTF-tiedostot toimivat eri käyttöjärjestelmissä. Esimerkiksi siirtyminen Windows-käyttöjärjestelmästä Unix-käyttöjärjestelmään ei muuta tiedostojen sisältöä tai muotoilua. Tekstin lisäksi RTF-tallenteet sisältävät tietoa marginaaleista ja fontista.
- DOC: DOC-tiedostot (*.doc, *.docx) voivat sisältää huomattavan paljon muotoiluja (esimerkiksi lihavointia, kursiiveja ja värejä) sekä tekstin lomaan tallennettuja grafiikkaa ja kuvia. DOC-tiedostot aukeavat varmimmin vain Microsoft Word -ohjelmalla. Ohjelmistoriippuvuuden vuoksi DOC-formaatti ei ole sopiva tallennemuoto pitkäaikaissäilytykseen.
Kuva-aineistot
Tutkimusaineisto voi koostua kuvatiedostoista tai sisältää niitä. Esimerkiksi keskustelun tueksi tai virikkeeksi on voitu näyttää erilaisia kuvia, tai tutkimuksessa on analysoitu lehden kansikuvia. Kuvien yleisimmät tiedostoformaatit ovat:
- GIF (Graphics Interchange Format) soveltuu hyvin verkkosivuilla julkaistavien kuvien formaatiksi, sillä kaikki selaimet tukevat sitä. Formaatti pakkaa tiedostokoot pienemmiksi ja tallentaa vain 256 väriä. Formaattia ei ole tarkoitettu pitkäaikaistallentamiseen.
- PNG (Portable Network Graphics) on kehitetty GIF-formaatin korvaajaksi. Se soveltuu hyvin verkossa julkaistaville kuville, mutta sitäkään ei ole tarkoitettu pitkäaikaistallennukseen.
- JPEG (Joint Photographic Experts Group) sopii sekä verkossa julkaistavien kuvien että valokuvien ja muiden sävykuvien tallennusmuodoksi, koska se ei hävitä kuvien väri-informaatiota. Kuvien kokoa voi säädellä, mutta pienennettäessä kuvia niistä häviää yksityiskohtia. JPEG on hyvä käyttöformaatti kuva-aineistoille, sillä se ei vie paljon tilaa ja tiedostojen tietotekniset siirrot ovat helppoja. Yhteiskuntatieteellisen tietoarkiston tekstiaineistoihin liittyvät kuvat välitetään asiakkaille JPEG-muodossa.
- TIFF (Tagged Image File Format) säilyttää kaiken informaation kuvasta sekä sen väreistä ja on järjestelmäriippumaton. Molemmat ominaisuudet tekevät TIFF-formaatista hyvän pitkäaikaissäilytysformaatin, kun halutaan varmistaa että digitoidut kuvat vastaavat mahdollisimman tarkasti alkuperäistä kuvaa. TIFF-kuvat vievät paljon tilaa, mutta niiden pakkaamiseen on olemassa eri menetelmiä.
- BMP (Bitmap) on TIFF-formaatin kaltainen tallennemuoto, joka on tarkoitettu Windows-ympäristöön. Järjestelmäriippuvuuden vuoksi se ei ole suositeltava pitkäaikaistallennukseen.
Aäni- ja äänikuvatallenteet
Tutkimusaineistot sisältävät enenevässä määrin esimerkiksi nauhoitettuja tai videoituja haastatteluita. Ääni- ja äänikuvatallennemuodot (audio- ja audiovisuaaliset tallennemuodot) ovat järjestelmäriippuvaisia ja ne muuttuvat koko ajan. Yleisimpiä ovat:
- WAV (Windows Wave) on pakkaamaton äänitallennemuoto, joka vie hyvin paljon tilaa, mutta säilyttää äänen, jos näytteenottotaajuudessa ja erottelutarkkuudessa käytetään suurta bittimäärää. WAV on suositeltava äänitiedostojen pitkäaikaissäilytyksen tallennemuoto, jos äänenlaatu halutaan säilyttää hyvin korkeatasoisena. Se vaatii kuitenkin suurta säilytyskapasiteettia ja tiedostojen siirto voi olla hidasta.
- MPEG-1 (MP3) pakkaa ääntä voimakkaasti ja tiedostot ovat paljon pienempiä kuin vastaavat WAV-tiedostot. Pakkaus kuitenkin hävittää lähinnä sellaisia ääniä, joita ihmiskorva ei muutenkaan kuulisi. MPEG-tallennemuoto sopii sekä yksinomaan ääntä että liikkuvaa äänikuvaa (videoaineistot) sisältävien tutkimusaineistojen tallenneformaatiksi.
- MPEG-4 on joukko on äänen ja kuvan pakkaamistapoja, joita voidaan käyttää mm. digitaalisessa videossa ja interaktiivisessa multimediassa.
Aiheesta lisää:
- Menetelmäopetuksen tietovaranto (MOTV): SPSS-opas
- KvaliMOTV: Laadullisen aineiston käsittelyyn tarkoitetut ohjelmat
- Strategically using General Purpose Statistics Packages: A Look at Stata, SAS and SPSS by Michael N. Mitchell. UCLA ATS Statistical Consulting Group Technical Report 1.
- Ohjelmistojen kotisivut:
SPSS | Stata | SAS | R (S-Plus) | StatTransfer | Atlas.ti | NVivo - DigiWiki, kuvien, videoiden ja äänitteiden digitointiin ja pitkäaikaissäilyttämiseen liittyvää tietotaitoa tarjoava verkkopalvelu.
- Wikipedia: Videonpakkaus
- Wikipedia: Tiedostomuoto