Oblikovanje metapodatkov za odprto deljenje

Tako kot raziskovalne podatke moramo pred deljenjem primerno oblikovati tudi metapodatke, da bodo razumljivi in uporabni za druge raziskovalce. Način opisa oz. oblikovanja metapodatkov moramo predvideti v načrtu ravnanja z raziskovalnimi podatki. Trije glavni načini zapisa metapodatkov so podatkovni članki, datoteke PreberiMe ter standardizirane, strojno berljive metapodatkovne sheme. Kateri od teh je za vas najprimernejši, je odvisno od vašega raziskovalnega področja ter repozitorija, kamor boste odložili svoje raziskovalne podatke.
Podatkovni članki
Podatkovni članki so najbolj podobni tradicionalnim oblikam znanstvenega poročanja, zato so za raziskovalce najlažje razumljivi in najbolj priročni. Tako kot ostale oblike znanstvenih objav gredo čez recenzijski proces, zato so od vseh načinov zapisa metapodatkov najbolj zanesljivi. Hkrati jih mogoče v skladu s Tipologijo dokumentov/del za vodenje bibliografij v sistemu COBISS katalogizirati pod rubriko 1.01 Izvirni znanstveni članek ali 1.03 Kratki znanstveni prispevek, odvisno od dolžine in kompleksnosti.
Podatkovni članki podrobno opisujejo nabore podatkov, običajno pa ne vključujejo nobene interpretacije podatkov ali razprave o njih, saj je to namen izvirnih znanstvenih člankov. Vsebujejo lahko surove ali obdelane podatke in/ali navajajo povezavo do repozitorija, kjer so podatki odloženi. Drugi tipični deli podatkovnega članka so še:
- informacije o avtorjih,
- povzetek,
- opis materialov in metod, s pomočjo katerih so bili podatki zbrani,
- napotki za ponovno uporabo,
- izjava o avtorstvu (authorship/contributorship statement),
- izjava o etičnih vidikih in konfliktu interesov,
- zahvala,
- reference.
Podatkovne revije večinoma ne predpisujejo minimalnih standardov poročanja o eksperimentih oz. podatkih, saj se le-ti med raziskovalnimi področji razlikujejo. Pri pripravi podatkovnih člankov se je tako koristno ravnati po področno specifičnih načelih za opis provenience, ki jih je za določeno raziskovalno področje pripravila znanstvena skupnost.
Objavljanje podatkovnih člankov
Nekatere znanstvene revije podatkovne članke ponujajo kot enega izmed možnih formatov objav (npr. revija Ecology, ki jo izdaja Ecological Society of America, The International Journal of Robotics Research založbe SAGE, Transportation založbe Springer ipd.). Po drugi strani obstajajo tudi specializirane revije, posvečene samo objavljanju podatkovnih setov (npr. Data in Brief založbe Elsevier, Scientific Data založbe Springer Nature, Earth System Science Data založbe Copernicus Publishing ipd.). Tako kot za repozitorije tudi za podatkovne revije velja, da je smiselno izbrati področno specifično revijo, če obstaja, v nasprotnem primeru pa splošno.
Zanimiva možnost za objavo podatkovnih člankov je evropska platforma Open Research Europe, ki podatkovne članke imenuje Data Notes. Prednosti Open Research Europe v primerjavi s tradicionalnimi znanstvenimi revijami sta brezplačnost in transparentnost recenzijskega procesa. Prispevki so najprej objavljeni v obliki predobjav, ki gredo čez javen in trajno odprt recenzijski proces. V primeru nesprejetja niso trajno zavrnjeni, pač pa lahko avtorji vedno naložijo nove, izboljšane različice. Posodobitve in popravki nato ponovno vstopijo v recenzijski proces, prav tako pa je mogoče posodabljati tudi sprejete prispevke. Več o Open Research Europe si lahko ogledate v predavanju v sklopu Odprte akademije CTK UL:
Datoteke PreberiMe
Datoteka PreberiMe je nujen spremljevalni dokument k podatkovnemu setu, ki ga odložite v repozitorij (če repozitorij ne predpisuje drugače). Gre za preprosto datoteko z besedilom v formatu .txt, ki vsebuje vse osnovne informacije o podatkovnem setu. Zaradi zagotavljanja interoperabilnosti se izogibajte lastniškim formatom, kot je Microsoft Word. Datoteka PreberiMe mora vsebovati:
- področno specifične minimalne informacije o provenienci podatkovnega seta,
- ključne besede,
- informacije o licenciranju podatkov,
- opis podatkovnega seta.
Opis podatkovnega seta mora nadalje vsebovati:
- kratek opis vsebine vsake posamezne datoteke oz. skupine sorodnih datotek,
- pojasnila k formatu datotek, če le-ta ni splošno uveljavljen oz. jasno razviden iz končnice datoteke,
- pojasnila glede programske opreme, potrebne za odpiranje datotek, če gre za lastniške ali specifične formate,
- razmerja med datotekami, če podatkovni set vsebuje več datotek, ki se navezujejo druga na drugo,
- razlago vsebine in strukture datotečnih map,
- datume, ko so bile datoteke ustvarjene in posodobljene (verzionirane), skupaj z razlago posodobitev,
- informacije o povezanih podatkih, ki so bili pridobljeni, a niso bili vključeni v podatkovni set.
Podrobnejše informacije o datotekah PreberiMe lahko najdete na spletni strani Univerze Cornell, kjer si lahko snamete tudi predlogo vzorčne datoteke PreberiMe v angleškem jeziku.
Strojno berljive metapodatkovne sheme
Za nekatera raziskovalna področja oz. repozitorije obstajajo standardizirane metapodatkovne sheme, ki so namenjene enovitemu strukturiranju metapodatkov na način, ki bo tako razumljiv ljudem kot strojno berljiv. Pretežen del njihove vsebine je namenjen standardizaciji minimalnih področno specifičnih informacij o provenienci podatkov. Standardizirane metapodatkovne sheme so na voljo v specifičnih formatih, kot so npr. .csv (npr. Darwin Core), .xml (npr. Dublin Core) ipd. Za nekatere potrebujete posebna programska orodja oz. urejevalnike, ki so običajno na voljo na spletnih straneh organizacij, ki vzdržujejo metapodatkovne sheme (npr. AVM Tagging Tool za astronomsko metapodatkovno shemo Astronomy Visualization Metadata Standard).
Seznam področno specifičnih metapodatkovnih shem s povezavami na spletne strani z vsemi relevantnimi informacijami najdete na spletnih straneh UK Digital Curation Centre in Research Data Alliance.
Nazadnje spremenjeno: 10. 6. 2022