Oblikovanje raziskovalnih podatkov za odprto deljenje

Raziskovalne podatke moramo pred deljenjem primerno oblikovati, da jih bodo drugi raziskovalci lahko razumeli in ponovno uporabili. S tem zadostimo načeloma FAIR po interoperabilnosti in ponovni uporabljivosti. V nekaterih primerih oblikovanje raziskovalnih podatkov ni dosti drugačno od oblikovanja podatkov za znanstvene publikacije, vseeno pa je potrebno opozoriti na nekaj podrobnosti. Raziskovalni podatki bodo v repozitorijih namreč stali sami zase, brez spremljevalnega konteksta, zato je potrebno toliko več pozornosti posvetiti primernemu poimenovanju datotek, hierarhiji datotečnih map ter metapodatkom (ki so lahko opisani v datotekah PreberiMe ali v podatkovnih člankih). Pozorni moramo biti tudi na datotečne formate, saj so zaradi zagotavljanja interoperabilnosti za ponovno deljenje primerni le nekateri.
Poimenovanje datotek
Način poimenovanja datotek si lahko izberete sami, vendar je koristno, da pri tem upoštevate nekaj splošnih priporočil. Predvsem morajo biti imena datotek razumljiva osebam, ki bodo podatke ponovno uporabljale, zato način poimenovanja pojasnite v načrtu ravnanja z raziskovalnimi podatki. V idealnem primeru naj bodo imena datotek tudi strojno berljiva.
Dobre prakse poimenovanja datotek
(Povzeto po Princeton University Library, Brown University Library in UK Data Service)
- Poimenovanje datotek naj bo konsistentno,
- imena datotek naj bodo kratka (idealno <25 znakov, vsekakor pa <40),
- izogibajte se uporabi presledkov, pik, poševnic in posebnih znakov (npr. & in %),
- za izboljšanje berljivosti in ločevanje posameznih elementov imena uporabljajte velike začetnice, podčrtaje in vezaje,
- datume zapišite v formatu ISO 8601: LLLLMMDD (L = leto, M = mesec, D = dan),
- v ime vključite različico datoteke,
- zaporedje elementov imena naj bo takšno, da je datoteke mogoče sortirati po datumu nastanka, zaporedni oznaki ali različici.
Priporočeni elementi imena
(Povzeto po Princeton University Library)
- Datum nastanka datoteke (če zapišete datum na začetku imena, bo to olajšalo sortiranje datotek),
- ime ali številka projekta,
- ime avtorja/-ice,
- kratek opis vsebine datoteke,
- številka vzorca,
- tip analize,
- različica datoteke.
Primer dobre prakse: 20190523_H2020MatChem_GL_exp5_c2_XRF1
To ime vsebuje informacije, ki imajo pomen za avtorja/-ico, raziskovalno skupino in ostale uporabnike podatkov:
- datum nastanka datoteke, tj. 23. maj 2019, v formatu LLLLMMDD,
- ime hipotetičnega projekta z imenom “Materials Chemistry” (okrajšava MatChem), ki je bil financiran v okviru programa Obzorje 2020 (H2020),
- začetnice hipotetičnega avtorja/-ice, tj. G. L.,
- oznako eksperimenta, tj. exp5 (“experiment 5”)
- oznako spojine, tj. C2 (“compound 2”)
- oznako analize, tj. XRF1 (prva meritev z rentgensko fluorecenco).
Datotečne mape
Sortiranje datotek po mapah ter organizacija map v hierarhično oz. drevesno strukturo pomagata k boljši preglednosti vsebine. Razmislite, kakšna hierarhija je primernejša – takšna z več nivoji ali takšnja z manj. UK Data Service priporoča, naj hierarhija nima več kot štirih nivojev in naj vsaka mapa ne vsebuje več kot 10 datotek. Posamezni nivoji naj odražajo najbolj smiselno klasifikacijo datotek, npr. po eksperimentih, datumih, lokacijah, tipih analiz, tipih datotek …
Oblikovanje podatkov in datotečni formati
Datoteke instrumentalnih meritev v lastniških formatih
Nekaterih podatki eksperimentov ali terenskih opazovanj so edinstveni, saj jih prostorsko in časovno ni mogoče ponovno pridobiti. V CTK UL priporočamo odprto deljenje vseh podatkov, tudi surovih (razen upravičenih izjem), kadar so dragoceni in nenadomestljivi. Pri nekaterih tovrstnih raziskavah so surovi podatki pridobljeni z instrumenti, ki jih izdelujejo zasebna podjetja, datoteke pa so v lastniških formatih.
Priporočamo, da takšne podatke iz lastniških formatov pretvorite v splošne formate za izmenjavo datotek, če je to mogoče. Npr. kromatograme ali spektre je pogosto mogoče pretvoriti v tabele, saj gre v principu za zajemanje številskih vrednosti odvisne in neodvisne spremenljivke. Tabele je nato mogoče shraniti v priporočenem formatu .csv ali .tab (sprejemljivi so tudi splošno uporabljeni lastniški formati, kot je .xls/.xlsx), krivulje pa ponovno vizualizirati z orodji za obdelavo podatkov.
Slabost tega pristopa je, da se lahko pri njem izgubijo določeni metapodatki, ki jih vsebujejo datoteke v lastniških formatih (npr. informacije o instrumentu, času zajema podatkov, operaterju …). V tem primeru morate izgubljene metapodatke ročno dodati med ostale metapodatke o raziskavi.
Če pretvorba podatkov iz lastniških formatov v odprte ni mogoča ali bi bila časovno prezahtevna, lahko v repozitorije odložite tudi surove podatke v lastniških formatih, vendar morate v metapodatkih nujno navesti programsko opremo, s katero je datoteke mogoče odpreti. Pri programski opremi navedite tudi različico, saj se pri posodabljanju instrumentov pogosto zgodi, da novejše različice programske opreme niso več združljive z rezultati starejših različic instrumentov in obratno. Če je mogoče, dodajte povezavo do proizvajalčeve spletne strani, kjer je mogoče pridobiti ustrezno programsko opremo.
Številski podatki
Večje količine surovih številskih podatkov je najbolj primerno shraniti v obliki tabel. Takšna oblika je ne le pregledna, pač pa drugim uporabnikom omogoča tudi enostaven uvoz podatkov v različne programe za obdelavo podatkov ter ponovno analizo. V primeru kontingenčnih tabel, tj. tabel, ki prikazujejo zvezo med neodvisno in odvisno spremenljivko (ali več njimi), je smiselno omeniti, da se po dogovoru neodvisne spremenljivke navajajo v stolpcih, odvisne pa v vrsticah. Odstotki se vedno navajajo v smeri neodvisne spremenljivke, saj testiramo hipotezo, kako neodvisna spremenljivka vpliva na porazdelitev odvisne spremenljivke po določenih kategorijah.
Stolpci in vrstice tabele morajo biti jasno in razumljivo označeni. Če zaradi prihranka prostora uporabljate okrajšave, ki niso splošno sprejete na vašem raziskovalnem področju, jih na vidnem mestu definirajte. V programih Microsoft Excel, LibreOffice Calc in OpenOffice Calc je priporočljivo številske vrednosti zbrati na enem zavihku, opis tabele pa podati na drugem. Na ta način kar znotraj datoteke ustvarite mini PreberiMe opis, ki bo ostalim uporabnikom olajšal razumevanje vsebine.
V skladu s priporočili UK Data Service so primerni formati za tabelarične datoteke:
- .csv (comma-separated values oz. vrednosti, ločene z vejico),
- .tab (tab-delimited file oz. datoteka, razmejena s tabulatorji),
- razmejeno besedilo z definicijskimi trditvami o podatkih v jeziku SQL.
Sprejemljivi formati pa so:
- .txt (besedilo, razmejeno z znaki, ki niso del podatkov)
- pogosto uporabljeni formati: Microsoft Excel (.xls/.xlsx), Microsoft Access (.mdb/.accdb), dBase (.dbf), preglednice v formatu OpenDocument (.ods).
Pri poročanju številskih vrednosti in izvažanju podatkov v formatu .csv bodite pozorni na decimalna ločila. Pravila za uporabo decimalnih ločil ter razmejevanje tisočic so po svetu zelo različna. Predlagamo, da v metapodatkih navedete, katero decimalno ločilo ste uporabili, da drugi uporabniki vaših podatkov ne bodo imeli težav pri razumevanju in uvažanju podatkov.
Statistične analize in grafi
Obdelane številske podatke je večinoma koristno vizualizirati, saj je iz vizualiziranih prikazov lažje razbrati odnose med spremenljivkami. Vendar pa je bolj koristno deliti datoteke, v katerih je bila narejena vizualizacija in/ali statistična analiza, kot pa kot zgolj grafične prikaze brez spremljevalnega konteksta. S tem ne le delite bogatejše podatke, pač pa ostalim raziskovalcem omogočite, da preverijo, kakšne analize ste izvajali na podatkih, ter jih prilagodijo svojim potrebam.
UK Data Service za podatke, ki so bili znatno obdelani (t.i. tabelarični podatki z veliko metapodatki), priporoča uporabo naslednjih formatov:
- lastniški formati programske opreme za statistično obdelavo podatkov, npr. .sav (SPSS), .dta (Stata), .sas7bdat (SAS) itd.
- datoteke z razmejenim tekstom in ukazi (“setup”) programov SPSS, Stata, SAS itd.
- strukturirano besedilo ali strukturirane metapodatkovne oznake, npr. v formatu DDI XML.
Sprejemljiva formata sta tudi .por (SPSS prenosni format) in .mdb/.accdb (Microsoft Access).
Za grafe, ki jih izvozite kot slike, veljajo enaka pravila glede datotečnih formatov kot za fotografije. Poleg tega poskrbite, da boste označili vse osi, dodali merske enote, označili pomen vseh krivulj ter uporabili zadostno velikost pisave. Uporabne napotke glede vizualizacije vaših podatkov lahko najdete v izobraževalnem gradivu Univerze v Queenslandu.
Fotografije in drugo slikovno gradivo
Za odprto deljenje je fotografije in drugo slikovno gradivo priporočljivo oblikovati po enakih principih kot za objavo v znanstvenih publikacijah, ki zagotavljajo maksimalno transparentnost in raziskovalno integriteto. Pri tem se lahko ravnate po priporočilih založbe Springer Nature, še posebej revije Nature:
- Zavestna manipulacija s slikovnim gradivom, da bi spremenili ali izboljšali svoje rezultate, ni nikoli sprejemljiva. Da bi se izognili nenamernemu zavajanju, svoje slikovno gradivo obdelajte le minimalno, obdelane slike pa morajo točno odražati izvirnike.
- Spreminjanje svetlosti ali kontrasta (npr. v fluorescenčni mikroskopiji) je sprejemljivo samo, če so vse slike, vključno s kontrolami, obdelane na enak način. Kontrast ne sme biti spremenjen do te mere, da del podatkov izgine. Čezmerna obdelava, da bi poudarili en del podobe na račun drugega (npr. s pristranskimi nastavitvami mejnih vrednosti) ali testne vrednosti v primerjavi s kontrolnimi, ni sprejemljiva.
- Uporaba orodij za popravke, npr. orodij za kloniranje in celjenje v Photoshopu ter katerihkoli funkcij, ki zabrišejo sledi obdelave, ni sprejemljiva.
- Obrezovanju slik se je priporočljivo izogniti, razen če znatno izboljša jasnost ali jedrnatost vsebine. Pri obrezovanju se ne smejo izgubiti nobene informacije, ki so nujne za razumevanje slik, npr. molekulski markerji pri elektroforeznih gelih.
- Združevanje slike oz. fotografij, ki so bile posnete ob različnih časih ali na različnih lokacijah, v eno samo sliko ni sprejemljivo, razen če gre za povprečenje podatkov po času ali zaporedje časovnih zamikov. Če je združevanje podob nujno, na končni sliki jasno označite meje med različnimi deli ter njene lastnosti opišite v metapodatkih.
- Vsakršna uporaba programske opreme za obdelavo slikovnega gradiva mora biti skupaj z opisom popravkov jasno navedena v metapodatkih.
Dodatna navodila za slikovno gradivo pri elektroforezi in mikroskopiji so na voljo na spletni strani revije Nature. V CTK UL smo pripravili tudi nekaj namigov, kako lahko preverite, ali so bile slike drugih raziskovalcev zmanipulirane (link).
UK Data Service kot priporočena format za fotografije in rastrske slike navaja:
- .tif (nestisnjen TIFF 6.0),
- .dcm, .dcm30 (Digital Imaging and Communications in Medicine – DICOM) za podatke računalniške tomografije (CT) in magnetne resonance (MRI).
Sprejemljivi formati pa so:
- JPEG (.jpeg, .jpg), če je bil v tem formatu ustvarjen izvirnik,
- BMP (.bmp), če je bil v tem formatu ustvarjen izvirnik,
- PNG (.png), če je bil v tem formatu ustvarjen izvirnik,
- drugi tipi formata TIFF (.tif, .tiff),
- slikovni format RAW (.raw),
- datoteke programa Photoshop (.psd),
- Adobe Portable Document Format – PDF/A, PDF (.pdf).
Za vektorske risbe UK Data Service priporoča format .dwg programske opreme CAD, sprejemljivi formati pa so .dxf, .svg (CAD), .ai (Adobe Illustrator) in binarni formati CAD paketov.
Geoprostorski podatki
Na področju geografije, geologije, urbanizma ipd. ima javno deljenje podatkov že dolgo tradicijo. Primer so različni geografski informacijski sistemi (GIS) in z njimi povezani odprtokodni programi ter javne baze geoprostorskih podatkov. V Sloveniji so takšne baze npr. portal e-Prostor, Geoportal ARSO, GIS Statističnega urada RS, Register kulturne dediščine itd. Tako kot pri drugih tipih podatkov so tudi tu izjemnega pomena bogati metapodatki, ki omogočajo razumevanje podatkov ter podatkovno rudarjenje s pomočjo računalniških algoritmov.
UK Data Service za geoprostorske podatke priporoča naslednje formate:
- ESRI Shapefile (.shp, .shx, .dbf, .prj, .sbx, .sbn),
- georeferencirani TIFF (.tif, .tfw),
- podatki s tabularnimi GIS atributi,
- Geography Markup Language (.gml).
Sprejemljivi formati pa so:
- ESRI Geodatabase format (.mdb),
- MapInfo Interchange Format (.mif) za vektorske podatke,
- Keyhole Mark-up Language (.kml),
- binarni formati GIS paketov.
Videodatoteke
Videodatoteke so na mnogih raziskovalnih področjih še bolj izjema kot pravilo med raziskovalnimi rezultati, zato so priporočila za oblikovanje videodatotek zaenkrat slabše razvita kot priporočila za oblikovanje slikovnega gradiva. Pri oblikovanju videodatotek si lahko pomagate z navodili založnikov, ki so se tej temi že bolj posvetili, npr. Cell Press. Nekaj splošnih zahtev, ki jih navaja več založnikov, je:
- velikost datoteke: največ 150 MB,
- hitrost okvirjev (frame rate): najmanj 15 na sekundo,
- velikost okvirja (frame size): najmanj 320 x 240 px
- razmerje med širino in višino okvirja: zaželeno 4 : 3, sprejemljivo tudi 16 : 9,
- bitna hitrost (bit rate): najmanj 265 kbps,
- kodirnik: priporočljiv H.264.
V CTK UL priporočamo, da z vidika raziskovalne integritete upoštevate tista priporočila za oblikovanje fotografij in drugega slikovnega gradiva, ki jih je mogoče ekstrapolirati na videodatoteke. Ker je manipulacije videogradiva še težje odkriti kot manipulacije slik, smo pripravili nekaj napotkov za vse, ki bi želeli preveriti pristnost posnetkov drugih raziskovalcev (link).
UK Data Service za videodatoteke priporoča naslednje formate:
- .mp4 (MPEG-4),
- .ogv, .ogg (OGG video),
- .mj2 (motion JPEG 2000).
Sprejemljivi formati pa so:
- .mov (MOV),
- .wmv (Windows Media Video),
- .webm (WebM).
Avdiodatoteke
Podobno kot pri videodatotekah je splošnih navodil za oblikovanje avdiodatotek razmeroma malo. Eno od priporočil večih znanstvenih založnikov je, da mora biti bitna hitrost zvoka najmanj 128 kbps, velikost posamezne datoteke pa naj ne presega 30 MB. O manipulaciji zvočnih datotek pišemo na strani z napotki za detekcijo manipulacij s podatki (link).
UK Data Service priporoča, da zvok delite v formatu .flac (Free Lossless Audio Codec). Sprejemljivi formati so še:
- .mp3 (MPEG-1 Audio Layer 3), če je bil v tem formatu ustvarjen izvirnik,
- .aif (Audio Interchange File Format),
- .wav (Waveform Audio Format).
Računalniška koda
Znanstveni financerji običajno obravnavajo računalniško kodo kot tisti del podatkov, ki je nujen za potrjevanje znanstvenih dognanj. Računalniška koda je zato dragocen raziskovalni rezultat, ki pripomore k bolj transparentnemu in preverljivemu raziskovalnemu procesu ter bi se moral ohraniti tudi po zaključku raziskovalnega projekta. Univerza v Readingu je pripravila podrobna navodila za objavo računalniške kode, dodatne napotke pa najdete tudi v dokumentu “Pet priporočil za FAIR programsko opremo” (“Five recommendations for “FAIR software”) avtorjev iz Nizozemskega centra za eZnanost (Netherlands eScience Center).
Splošna priporočila navajajo, da je računalniško kodo najbolje naložiti v namenski spletni repozitorij, ki bo zagotovil nadzor različic, pregled kode, odkrivanje hroščev, dokumentacijo, podporo uporabnikom in druge zmogljivosti. Med najbolj priljubljenimi repozitoriji so GitHub, Bitbucket in GitLab. Različice kode, ki podpirajo raziskovalne rezultate, naj se izvozijo iz repozitorija in arhivirajo v zaupanja vrednem javnem podatkovnem repozitoriju. S tem bo specifični različici kode, s katero so bili ustvarjeni ali analizirani raziskovalni podatki, pripisan DOI, po katerem jo bo mogoče citirati. GitHub npr. že omogoča enostavno funkcijo za arhiviranje računalniške kode v repozitoriju Zenodo. Arhivirano kodo je priporočljivo opremiti tudi z odprtimi licencami, s katerimi postavite pogoje ponovne uporabe.
Besedilo
Poleg splošnih načel jasnega izražanja v pisni obliki so pri deljenju besedilnih datotek najpomembnejši formati. Čeprav je Microsoft Word eden najpogosteje uporabljenih urejevalnikov besedila, format .doc/.docx ni eden od priporočenih formatov za deljenje, pač pa je le sprejemljiv. UK Data Service navaja, da je datoteke z besedilom najbolje deliti v naslednjih formatih:
- .rtf (Rich Text Format),
- .pdf (PDF/UA, PDF/A ali PDF),
- .htm (HTML),
- .odt (OpenDocument Text),
- .rmd (datoteke R Markdown, tudi v obliki HTML).
Sprejemljivi formati pa so:
- .txt (neoblikovano besedilo),
- pogosto uporabljeni formati: .doc/.docx (Microsoft Word), .xls/.xlsx (Microsoft Excel),
- .xml (XML označevalno besedilo v skladu s primerno definicijo tipa dokumenta (document type definition, DTD) ali shemo, npr. XHMTL 1.0).
Nazadnje spremenjeno: 24. 8. 2022