In English | På svenska |
||
![]() ![]() |
|
SisällysTiedostoformaatit ja ohjelmistotTiedostojen konvertointi | Tutkimusaineiston digitointi | Havaintomatriisit ja tilasto-ohjelmistot | Tekstiaineistot | Kuva-aineistot | Aäni- ja äänikuvatallenteet | Aiheesta lisää Tiedostoformaatit (tiedostomuodot) ja ohjelmistot uusiutuvat koko ajan. Mitään yhtä pätevää tiedostoformaattia tai ohjelmaa ei ole. Ainakin yksi tiedostokopio kannattaa aina tallentaa jossain sellaisessa formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton ohjelmistoista. Tällöin todennäköisyys sille, että tiedosto pystytään lukemaan tulevaisuudessakin, kasvaa. Tiedostojen konvertointiKonvertoitaessa eli siirrettäessä tiedostoja yhden ohjelmiston käyttämästä tiedostomuodosta toiseen informaatiota katoaa helposti. Tietoa voi kadota myös konversiossa saman ohjelmiston eri versioiden välillä. Jotta tietoa menetettäisiin mahdollisimman vähän tai ei lainkaan, konversion yhteydessä tulee tutustua eri tiedostoformaattien ja ohjelmistojen rajoituksiin. Useissa ohjelmistoissa on tarjolla export- tai save as -toiminto, jolla aineisto voidaan tallentaa eri tiedostoformaateissa. Nämä toiminnot eivät kuitenkaan aina konvertoi kaikkea alkuperäistiedoston sisältämää informaatiota. Esimerkiksi tilastollisissa ohjelmissa puuttuvan tiedon määrittelyt saattavat kadota, vaikka kohdeformaatti niitä tukisikin. Tekstinkäsittelyohjelmasta toiseen siirryttäessä katoavat usein muotoilut. Erilaisten tiedostoformaattien väliseen konversioon on tarjolla myös ohjelmistoja, joissa eri formaattien ominaisuudet on otettu kattavasti huomioon. Tietoarkistossa käytetään kvantitatiivisten tutkimusaineistojen konvertointiin StatTransfer-ohjelmaa. Tutkimusaineiston digitointiPaperisten teksti- ja kuva-aineistojen lukeminen digitaaliseen muotoon onnistuu nykyään helposti skannerilla tai tulostimiin sisältyvällä skannauslaitteella ja -ohjelmalla. Jos on tarkoitus säilyttää sähköisessä muodossa vain teksti, skannerin kuvaama/lukema teksti muutetaan tekstitiedostoksi tekstintunnistusohjelmalla (OCR, Optical Character Recognatization), jollainen kuuluu lähes kaikkien skannereiden vakio-ohjelmiin. Jos halutaan säilyttää paperidokumentin ulkoasu tai esimerkiksi siihen käsin kirjatut merkinnät, tallennetaan ja säilytetään skannattu tiedosto kuvatiedostona samalla tavalla kuin kuva-aineistot. PDF (Portabel Document Format) on vakiintunut tallennusmuoto paperidokumenttien digitaalisten versioiden levittämiseksi. Sen avulla dokumentit voidaan tulostaa niin, että tekstin ja kuvien alkuperäinen asettelu säilyy. VHS-nauhoilla olevat ääni-kuva-tallenteet voi muuntaa digitaalisiksi käyttäen VHS-DVD-yhdistelmälaitetta, mutta tarkempi digitaalisen kopion vastaavuus alkuperäiseen tallenteeseen saadaan konvertoimalla tallenne tietokoneelle erillisellä laitteella. Digitointipalveluja tarjoavat monet alalle erikoistuneet yritykset, jotka osaavat digitoinnissa huomioida erilaiset nauhan ikään ja alkuperäisen tallenteen käyttökertojen määrään liittyvät seikat. Vanhoilla medioilla (avokelat, c-kasetit) olevien äänitallenteiden digitointiin löytyy ohjeita digitoinnin ja pitkäaikaissäilyttämisen verkkopalvelusta DigiWikistä. Havaintomatriisit ja tilasto-ohjelmistotKvantitatiivinen aineisto on tyypillisesti havaintomatriisi, joka koostuu riveistä ja sarakkeista ja jossa yksi rivi vastaa yhtä havaintoa ja yksi sarake yhtä muuttujaa. Havaintomatriisin solut sisältävät numeerista tai tekstimuotoista informaatiota. Matriisia käsitellään tilasto-ohjelmistolla. Useimmat tilasto-ohjelmistot tallentavat aineistoon havaintomatriisin lisäksi metadataa eli tietoa, joka kuvaa havaintomatriisin solujen sisältöä. Tyypillisesti tälläistä informaatiota ovat muuttujien nimet ja selitteet, muuttujien arvojen selitteet ja puuttuvan tiedon määrittelyt. Kvantitatiivisen aineiston käsittelyyn on tarjolla lukuisia erilaisia ohjelmistoja. Eri ohjelmistot tarjoavat erilaisia analyysimahdollisuuksia. Lisäksi ne käsittelevät eri tavoin muun muassa muuttujien ja vastausvaihtoehtojen selitteitä, puuttuvia tietoja ja muuttujaformaatteja. Myös saman ohjelmiston eri versioiden välillä voi olla huomattavia eroja. Käytetyimmät tilastollisen aineistonkäsittelyn ja analysoinnin ohjelmistot ovat SPSS, Stata, SAS ja S-Plus/R. Tarjolla on myös laaja valikoima muita tilasto-ohjelmistoja (esimerkiksi Survo, Tixel, Matlab, Glim, Statistica, NSD-Stat ja BUGS). Lisäksi taulukkolaskentaohjemistoja (esimerkiksi Excel) käytetään tutkimusaineistojen muokkaukseen ja analysointiin. Tutkimusaineisto voidaan myös tallentaa ja analysoida relaatiotietokannoissa (esimerkiksi Oracle, MS SQL Server, DB2, MySQL, PostgreSQL). Tietoarkistoon aineiston voi toimittaa esimerkiksi SPSS-, SAS-, Stata- tai Excel-tiedostona tai ASCII-tiedostona. Aineistojen huolellinen dokumentointi säilyttää aineiston käyttökelpoisuuden tiedostoformaatista, ohjelmistosta tai versiosta riippumatta. Tilasto-ohjelmistot ja niiden tiedostoformaatitSPSS (IBM SPSS Statistics) SPSS:n ensimmäinen versio julkaistiin jo 1968 ja sen SPSS Portable -formaatti on suosittu tutkimusaineistojen pitkäaikaissäilytyksessä. Saatavilla versiot Windows-, Linux/UNIX- ja Mac-käyttöjärjestelmille. Käytetään valikoiden tai komentokielen (syntaksin) avulla. Lukee monien muiden ohjelmistojen tiedostoja. Tiedostopääte: *.sav, *.por Stata Vuonna 1985 julkaistu tilastollinen ohjelmisto, versiot Windows-, Linux/UNIX- ja Mac OS X -käyttöjärjestelmille. Edullisempi kuin SAS tai SPSS. Tiedostopääte: *.dta SAS Ensimmäinen versio julkaistiin jo 1960-luvulla, versiot Windows-, IBM mainframe -, Unix/Linux- ja OpenVMS Alpha -käyttöjärjestelmille. Tilastollisten osien lisäksi SAS sisältää paketit grafiikasta, optimoinnista ja matriisilaskennasta. Käytetään pääasiallisesti komentokielen avulla, mutta myös valikoiden kautta. Tiedostopääte: *.sd2, *.sd7, *.sas7dbat (SAS for Windows), *.ssd01, *.sas7dbat (SAS for UNIX) R (S-plus, GNU S) Ensimmäinen versio julkaistiin 1980-luvulla, versiot Windows- ja Unix/Linux-käyttöjärjestelmille. Avoimen lähdekoodin versio R julkaistiin 1990-luvun loppupuolella. R on enemmänkin tilastollinen ohjelmistoympäristö kuin tilastollinen ohjelma. Muita tiedostomuotojaComma Separated Values, CSV Tekstitiedosto, jossa tiedot (muuttujien saamat arvot) on erotettu toisistaan pilkulla. Tiedostopääte: *.csv Sarkainerotettu tiedosto (Tab Delimited) Tekstitiedosto, jossa tiedot erotettu toisistaan sarkaimella. Tiedostopääte: *.dat, *tab, *.txt Kiinteäkenttäinen tiedosto (Fixed width) Tekstitiedosto, jossa jokaiselle tiedolle on varattu määrätty määrä merkkejä. Jos tieto on lyhyempi kuin varattujen merkkien määrä, käytetään esimerkiksi välilyöntiä täyttämään "tyhjä osuus". Tiedostopääte: *.dat, *.txt TekstiaineistotValtaosa Yhteiskuntatieteellisen tietoarkistoon arkistoiduista kvalitatiivisista aineistoista on tekstitiedostoja. Aineistot voivat olla esimerkiksi päiväkirjamerkintöjä tai ääni- ja videotallenteista litteroituja tekstitiedostoja. Usein aineistoon liittyy myös kirjoitus- tai transkriptointiohjeita. Tekstiaineistoja voidaan käsitellä tekstinkäsittelyohjelmilla tai nimenomaan kvalitatiiviseen aineiston käsittelyyn suunnitelluilla ohjelmilla (esimerkiksi Atlas.ti, NVivo). Ohjelmia on esitelty Menetelmäopetuksen tietovarannossa. Myös tutkimusaineistoa kuvailevan metadatan voi säilyttää tekstitiedostona. Tavallisimmat tekstitiedostoformaatit ovat:
Kuva-aineistotTutkimusaineisto voi koostua kuvatiedostoista tai sisältää niitä. Esimerkiksi keskustelun tueksi tai virikkeeksi on voitu näyttää erilaisia kuvia, tai tutkimuksessa on analysoitu lehden kansikuvia. Kuvien yleisimmät tiedostoformaatit ovat:
Aäni- ja äänikuvatallenteetTutkimusaineistot sisältävät enenevässä määrin esimerkiksi nauhoitettuja tai videoituja haastatteluita. Ääni- ja äänikuvatallennemuodot (audio- ja audiovisuaaliset tallennemuodot) ovat järjestelmäriippuvaisia ja ne muuttuvat koko ajan. Yleisimpiä ovat:
Aiheesta lisää:
|