Splošno o raziskovalnih podatkih

Charts by YvetteW from Pixabay

Odprta znanost vključuje odprto deljenje vseh rezultatov raziskovalnega dela, vključno z raziskovalnimi podatki. Eden glavnih argumentov za odprto oz. javno deljenje rezultatov raziskovalnega dela je dejstvo, da je velik delež znanstvenih raziskav financiran iz javnih sredstev. Javnost ima pravico dostopati do rezultatov raziskav, ki so bile izvedene s t.i. davkoplačevalskim denarjem. Poleg tega so raziskovalni podatki dobrina visoke vrednosti v digitalni ekonomiji, saj so nepogrešljivi za delovanje proizvodnih procesov, spletnih storitev in logističnih verig, pa tudi novejših konceptov, kot so internet stvari, pametna mesta in umetna inteligenca. Pomen javnega in zgodnjega deljenja raziskovalnih rezultatov je še dodatno podkrepila pandemija SARS-CoV-2, saj je bil hiter dostop do najnovejših raziskovalnih dognanj ključen za razumevanje bolezni, razvoj cepiv ter učinkovito zdravljenje.

V Evropski uniji je javna objava raziskovalnih podatkov postala obvezna leta 2021 z začetkom finančnega mehanizma Obzorje Evropa. Neodvisno od tega določeni znanstveni založniki že vpeljujejo zahteve po javni objavi raziskovalnih podatkov, ki so podlaga za znanstvene članke. Ta bo sprva prostovoljna, kasneje pa bo postala obvezna in podatki bodo tudi recenzirani, kot je razvidno npr. iz politike ACS Publications. Svoje podatke je začela odpirati tudi javna uprava, in sicer prek spletne strani Odprti podatki Slovenije.

V tem članku si bomo ogledali splošne pojme v zvezi z raziskovalnimi podatki in njihovim javnim deljenjem.

Kaj so raziskovalni podatki?

Splošno sprejete definicije, kaj so raziskovalni podatki, v tem trenutku še ni. Tiste, ki obstajajo, so tudi različno stroge. Poglejmo si jih nekaj:

Definicija Springer Nature:

Research data refers to the collection of files that support your research project, study or publication such as spreadsheets, documents, images, videos or audio. (www.springernature.com)

*

Slovenski prevod: Pojem raziskovalni podatki se nanaša na zbirko datotek, ki podpirajo vaš raziskovalni projekt, študijo ali publikacijo, kot so preglednice, dokumenti, slike, videi ali avdiodatoteke.

Definicija OECD:

Research data are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated. This term does not cover the following: laboratory notebooks, preliminary analyses, and drafts of scientific papers, plans for future research, peer reviews, or personal communications with colleagues or physical objects (e.g. laboratory samples, strains of bacteria and test animals such as mice). (OECD Principles and Guidelines for Access to Research Data from Public Funding)

*

Slovenski prevod: Raziskovalni podatki so definirani kot stvarni zapisi (numerični rezultati, besedilni zapisi, slikovno in zvočno gradivo), ki se uporabljajo kot primarni viri za namene znanstvenih raziskav in so v znanstveni skupnosti splošno sprejeti kot nujni za potrditev raziskovalnih izsledkov. Nabor raziskovalnih podatkov predstavlja sistematično, delno predstavitev raziskovalne tematike. Ta pojem ne vključuje: laboratorijskih dnevnikov, preliminarnih analiz, osnutkov znanstvenih člankov, načrtov bodočih raziskav, strokovnih recenzij, komunikacije s kolegi in predmetov (npr. laboratorijskih vzorcev, bakterijskih sevov in testnih živali, kot so miši).

Definicija CODATA (Komisija za raziskovalne podatke pri Mednarodnem znanstvenem svetu):

Data that are used as primary sources to support technical or scientific enquiry, research, scholarship, or artistic activity, and that are used as evidence in the research process and/or are commonly accepted in the research community as necessary to validate research findings and results. All other digital and non-digital content have the potential of becoming research data. Research data may be experimental data, observational data, operational data, third party data, public sector data, monitoring data, processed data, or repurposed data. (www.codata.org)

*

Slovenski prevod: Raziskovalni podatki so podatki, ki se uporabljajo kot primarni viri za podporo tehničnim ali znanstvenim raziskavam, akademskemu znanju ali umetniški dejavnosti, ki se uporabljajo kot dokazi v raziskovalnem procesu in/ali so v raziskovalni skupnosti splošno sprejeti kot nujni za potrjevanje raziskovalnih ugotovitev in rezultatov. Vse ostale digitalne in nedigitalne vsebine imajo potencial, da postanejo raziskovalni podatki. Raziskovalni podatki so lahko eksperimentalni podatki, podatki opazovanj, operativni podatki, podatki tretjih oseb, podatki javnega sektorja, podatki monitoringa, obdelani podatki ali ponovno uporabljeni podatki.

Po nekaterih definicijah bi kot raziskovalne podatke lahko šteli vsako številko in datoteko, ki jo ustvarite pri svojem delu. Vendar v CTK UL menimo, da tako stroga definicija raziskovalnih podatkov s praktičnega vidika ni vzdržna. Zato vam v nadaljevanju v razmislek predlagamo svoje stališče, kaj za potrebe izvajanja projektov Evropskega raziskovalnega prostora obravnavati kot raziskovalne podatke.

Preden začnete, pa morate seveda preveriti politiko svojega financerja glede raziskovalnih podatkov. Če posebnih določil ne vsebuje, je odločitev o obsegu odprtih raziskovalnih podatkov prepuščena vam. Definirate jo v načrtu ravnanja z raziskovalnimi podatki.

Priporočila CTK UL glede obsega odprtih raziskovalnih podatkov

Informacijski specialisti CTK UL priporočamo, da pri raziskavah, kjer je mogoče podatke relativno enostavno ponovno pridobiti s ponavljanjem meritev, odprete javnosti najmanj podatke, ki so nujno potrebni, da lahko drugi zainteresirani raziskovalci ponovijo vaše eksperimente. To pomeni najmanj podatke, ki so bili podlaga za vašo raziskovalno publikacijo. Vsekakor pa lahko delite več kot to, če želite.

Takšen nabor podatkov lahko vključuje surove podatke, vendar to ni nujno. Presoja je vedno na strani avtorjev. Če se odločite deliti obdelane številske podatke, dodajte mere negotovosti, če je le možno. Če je smiselno in če poznate distribucijo podatkov, lahko v nabor odprtih podatkov vključite surove podatke iz območja okrog povprečja in obeh ekstremov distribucije ali pa nek drug smiseln presek podatkov.

Vsekakor naj nabor raziskovalnih podatkov vključuje spremljevalne dokumente (npr. raziskovalne protokole), izvorno računalniško kodo ipd., če brez tega podatki niso berljivi ali razumljivi.

V primeru, da gre za edinstvene podatke, ki jih časovno in prostorsko ni mogoče ponovno pridobiti, priporočamo, da delite vse podatke, tudi surove, razen če gre za upravičene izjeme iz razloga varstva intelektualne lastnine ali drugih varnostnih vidikov.

Tipi in formati raziskovalnih podatkov

Knjižnica Državne univerze v Oregonu (Oregon State University) je pripravila uporabno klasifikacijo raziskovalnih podatkov. V skladu s to klasifikacijo lahko raziskovalne podatke delimo v pet skupin.

1. Podatki, pridobljeni z opazovanjem

  • Pridobljeni so na mestu samem (in situ).
  • Ni jih mogoče ponovno pridobiti, poustvariti ali nadomestiti.
  • Primeri: okoljski monitoring (fizikalno-kemijski, biološki), terenska opazovanja (naravoslovna, družboslovna), ankete.
  • Priporočilo CTK UL: odprti naj bodo vsi podatki, tudi surovi, razen upravičenih izjem. Nujno naj jih spremljajo vsi dokumenti (npr. raziskovalni protokoli), ki opisujejo, kako so bili podatki pridobljeni.

2. Podatki, pridobljeni eksperimentalno

  • Podatki, pridobljeni pod nadzorovanimi pogoji na mestu samem (in situ) ali v laboratoriju.
  • Morali bi biti ponovljivi, vendar je ponovno pridobivanje drago.
  • Primeri: mikroskopija, sekveniranje genov, kromatografija, spektroskopija, kemijska sinteza.
  • Priporočilo CTK UL: odprti naj bodo vsi analizirani podatki (skupaj z merami negotovosti, če gre za številske podatke) razen upravičenih izjem, od surovih podatkov pa nekaj vzorčnih primerov. Nujno naj jih spremljajo vsi dokumenti (npr. raziskovalni protokoli), ki opisujejo, kako so bili podatki pridobljeni.

3. Izpeljani ali združeni podatki

  • Mogoče jih je ponovno pridobiti, vendar je ponovno pridobivanje drago.
  • Primeri: podatki, pridobljeni z rudarjenjem besedila ali števil, izpeljane spremenljivke, združeni podatkovni seti in podatkovne baze, 3D modeli.
  • Priporočilo CTK UL: odprti naj bodo vsi analizirani podatki (skupaj z merami negotovosti, če gre za številske podatke) razen upravičenih izjem. Nujno naj jih spremljajo povezave do primarnih podatkov (če so odprti) ter vsi dokumenti (npr. raziskovalni protokoli, računalniška koda), ki opisujejo, kako so bili izpeljani podatki pridobljeni.

4. Podatki, pridobljeni s simulacijami

  • Rezultati modelov, s katerimi preverjamo delovanje oz. zmogljivost dejanskega ali teoretičnega sistema.
  • Modeli in metapodatki, kjer so lahko vhodni podatki pomembnejši od izhodnih.
  • Primeri: podnebni modeli, ekonomski modeli, biogeokemijski modeli.
  • Priporočilo CTK UL: odprti naj bodo rezultati simulacij (skupaj z merami negotovosti, če gre za številske podatke) razen upravičenih izjem. Nujno naj jih spremljajo povezave do izvornih podatkov (če so odprti), računalniška koda, ki omogoča ponovitev simulacije, in vsi dokumenti, ki omogočajo razumevanje procesa.

5. Referenčni ali uradni podatki

  • Statične ali dinamične zbirke (strokovno recenziranih) podatkov, najpogosteje strokovno pregledane in urejene ali celo objavljene.
  • Primeri: podatkovne banke genskih zaporedij, kemijske strukture, državni statistični popisi, javne prostorske informacije (geografske, geodetske, geološke).
  • Priporočilo CTK: kadar uporabljate ta tip podatkov, poskrbite za primerno citiranje. Napotke o tem najdete npr. na spletni strani britanskega Digital Curation Centre. Včasih specifična navodila zagotovijo avtorji zbirk, lahko pa si pomagate tudi s spletno stranjo Cite This for Me.

Raziskovalne podatke lahko pogosto izvozimo v različnih formatih, vendar niso vsi primerni za odprto deljenje. Podatkovne formate, ki so priporočljivi za čim večjo interoperabilnost in ponovno uporabljivost podatkov, lahko najdete na spletni strani UK Data Service. Več o tem pišemo tudi na strani o oblikovanju podatkov za deljenje.

Kaj šteje kot odprti raziskovalni podatki?

Odprti, odprto dostopni oziroma javno dostopni podatki so podatki, ki zadoščajo načelom FAIR. Na kratko to pomeni, da so:

Del t.i. FAIR-ifikacije podatkov zagotovi zaupanja vreden repozitorij, predvsem trajno hrambo in dodeljevanje trajnega identifikatorja. Za drugi del procesa, tj. primerno strukturiranje podatkov ter opremljanje z metapodatki, pa morajo poskrbeti raziskovalci sami. Več o tem, kako pripraviti podatke za javno deljenje in kaj so metapodatki, si lahko preberete na straneh o oblikovanju podatkov ter metapodatkov.

Raziskovalnih podatkov vam ni treba odpreti takoj, v celoti ali brezpogojno. Če so vaši podatki občutljive narave, jih lahko odprete tudi šele po določenem času (t.i. na javno objavo vzpostavite embargo). Lahko jih odprete le delno ali pa omejite fizični dostop (npr. omogočite dostop preko varne povezave ali iz varne sobe). Več o načinih delnega ali pogojnega odpiranja podatkov si lahko preberete na strani o upravičenih izjemah od odprtosti.

Kako citirati raziskovalne podatke?

Večina repozitorijev že daje na voljo privzete oblike citatov za podatkovne sete v enem ali več citatnih slogih. Repozitorij DiRROS, recimo, omogoča oblikovanje citatov po citatnih slogih ABNT, ACM, AMA, APA, Chicago, Harvard, IEEE, ISO 690, MLA in Vancouver. V večjih repozitorijih, kot je Zenodo, pa lahko izbirate celo med slogi posameznih znanstvenih revij. Če boste svoje podatke odložili v repozitorij, ki ne ponuja citatnega sloga, ki ga potrebujete, si lahko pri citiranju pomagate s spletno stranjo Cite This for Me.

Ali se raziskovalni podatki vpisujejo v COBISS?

Da, raziskovalne podatke je mogoče v skladu s Tipologijo dokumentov/del za vodenje bibliografij v sistemu COBISS vpisati pod rubriko 2.20 Zaključena znanstvena zbirka raziskovalnih podatkov. V to rubriko spada:

Elektronska zbirka raziskovalnih podatkov, katere znanstvena pomembnost se kaže v uporabnosti za raziskovanje širokega nabora aplikativnih ali teoretsko osmišljenih problemov. Zbirka podatkov mora biti rezultat zaključene raziskave in mora ustrezati visokim merilom kakovosti, pri čemer se njena kakovost ocenjuje na podlagi izčrpne spremljajoče dokumentacije. Zbirka podatkov mora biti javno dostopna v nacionalnem ali mednarodnem znanstvenem podatkovnem arhivu (repozitoriju). Zbirka raziskovalnih podatkov mora biti dokumentirana in dostopna v takšni obliki, da omogoča ponovitev objavljenih znanstvenih ugotovitev, izvedenih na njeni podlagi.

*

Posebna zbirka raziskovalnih podatkov je korpus, ki je enovita, standardno označena in notranje strukturirana zbirka avtentičnih besedil, nastala po vnaprej določenih merilih in z določenim ciljem, dostopna v elektronski obliki in opremljena z orodji, ki omogočajo večplastno iskanje in statistično obdelavo podatkov.

Ali so raziskovalni podatki vključeni v kvantitativno ocenjevanje (točkovanje) znanstvene uspešnosti?

V skladu z Bibliografskimi merili znanstvene in strokovne uspešnosti, ki jih definira Javna agencija za raziskovalno dejavnost Republike Slovenije, se zaključena znanstvena zbirka podatkov ali korpus (2.20) s seznama agencije (BIBLIO-D) vrednoti s 30 točkami. Seznam BIBLIO-D zaenkrat vključuje samo zaključene znanstvene zbirke podatkov, ki so odložene v Arhivu družboslovnih podatkov.

 

Nazadnje spremenjeno: 14. 10. 2022

Definicija raziskovalnih podatkov po CODATA

Raziskovalni podatki so podatki, ki se uporabljajo kot primarni viri za podporo tehničnih ali znanstvenih raziskav, akademskega znanja ali umetniške dejavnosti, ki se uporabljajo kot dokazi v raziskovalnem procesu in/ali so v raziskovalni skupnosti splošno sprejeti kot nujni za potrjevanje raziskovalnih ugotovitev in rezultatov. Vse ostale digitalne in nedigitalne vsebine imajo potencial, da postanejo raziskovalni podatki. Raziskovalni podatki so lahko eksperimentalni podatki, podatki opazovanj, operativni podatki, podatki tretjih oseb, podatki javnega sektorja, podatki monitoringa, obdelani podatki ali ponovno uporabljeni podatki.

Skip to content