Načela FAIR

Fair Data Principles by https://book.fosteropenscience.eu/

Odprti raziskovalni podatki morajo biti objavljeni ali drugače dostopni na način, ki omogoča njihovo najdljivost, dostopnost, interoperabilnost ter vnovično uporabo oz. po načelih FAIR (Findable, Accessible, Interoperable, Reusable). Načela FAIR se praviloma uporabljajo za deljenje vseh znanstvenih izsledkov, a so pri deljenju raziskovalnih podatkov še posebej pomembna.

Proces pretvorbe podatkov v obliko, skladno z načeli FAIR, se imenuje FAIRfikacija in obsega kompleksne naloge:

Več o procesu FAIRfikacije si lahko preberete na spletnih mestih GoFair- FAIRification Process in FAIR Cookbook. Koliko vaši obstoječi podatki zadoščajo načelom FAIR, pa lahko preverite s pomočjo orodja FAIR Data Self Assessment Tool, ki ga je razvila Australian Research Data Commons.

V tem prispevku si bomo podrobneje ogledali vsako od načel FAIR.

F: Findability – najdljivost

Načelo najdljivosti (F – Findability) predstavlja zagotavljanje enostavne najdljivosti metapodatkov in podatkov, tako za fizične uporabnike kot za iskalne algoritme oz. robote.

Načelo F sestavljajo sledeča podnačela:

F1: Metapodatki in podatki so opremljeni s trajnim identifikatorjem digitalnih objektov (npr. DOI, Handle ipd.)

Podnačelo F1 je verjetno najpomembnejše med vsemi podnačeli, saj je druge vidike načel FAIR težko doseči brez globalno enoličnih in trajnih digitalnih identifikatorjev za podatke. Enolični in trajni identifikatorji (persistent identifiers, PID) vsakemu zapisu metapodatkov in vsakemu podatkovnemu setu zagotavljajo trajno dostopnost, v njih pa se lahko skrivajo tudi druge informacije (npr. informacije o licenci, afiliaciji avtorjev ipd.). Trajni identifikatorji predstavljajo spletne povezave do metapodatkov in podatkov v digitalni obliki (npr. URL).

Trajni identifikatorji morajo ustrezati dvema pomembnima kriterijema:

  1. Biti morajo enolični (nihče drug ne more uporabiti/dodeliti že uporabljene oznake, ne da bi se na to uporabljeno oznako skliceval).
  2. Zagotavljati morajo trajno neodvisnost od morebitnih sprememb spletnih naslovov repozitorijev ali drugih spletišč, kjer podatke arhiviramo.

Trajne identifikatorje dodeljujejo za to namenjeni servisi, npr. Crossref. Številni repozitoriji pri arhiviranju podatkov in metapodatkov samodejno ustvarijo in dodelijo trajne identifikatorje.

Pri izbiri repozitorija, kamor boste podatke in metapodatke shranjevali, bodite pozorni na to, ali repozitorij dodeljuje trajne identifikatorje. Naj bo to eden izmed ključnih kriterijev pri izbiri repozitorija.

F2: Podatki so opisani z obogatenimi metapodatki (podrobneje tudi v kazalniku R1)

FAIR-ifikacija podatkov zahteva izdelavo obogatenih in razširjenih metapodatkov, vključno s opisno informacijo o vsebinskem kontekstu ustvarjenih ali ponovno uporabljenih podatkov ter opisom njihovega izvora (provenience). Podnačelo F2 uporabnikom pomaga podatke lažje poiskati, pravilno oceniti vsebinski kontekst in s tem tudi omogočiti ponovno uporabo.

Pri izdelavi metapodatkov, še posebej vsebinskega konteksta nastanka podatkov, je pomembno, da uporabljate ustrezno besedišče. V ta namen lahko uporabite geslovnike, ontologije in taksonomije, ki jih je že ustvarila raziskovalna skupnost. Pogosto so viri ustreznih besedišč del storitev področnih repozitorijev.

Pri ustvarjanju metapodatkov si lahko pomagate s številnimi orodji, dostopnimi na svetovnem spletu. Podajamo primer ustvarjene taksonomije, primer baze podatkov ontologij na področju molekularne genetike in primer navodil za ustvarjanje metapodatkov in uporabo standardnih metapodatkovnih shem.

F3: Metapodatki o podatkih vsebujejo trajni identifikator digitalnih objektov za podatke, ki jih opisujejo

To je enostavno, a pomembno podnačelo pri iskanju in pri uporabi podatkov. Metapodatki in podatki, ki jih metapodatki opisujejo, so običajno v obliki različnih datotek oz. digitalnih objektov. Metapodatki morajo nujno vsebovati enolični trajni identifikator, ki uporabnike pripelje do podatkov oz. do podatkovnih nizov.

Kot smo omenili že v podnačelu F1, trajne identifikatorje digitalnih objektov (npr. DOI, Handle ipd.) pogosto dodeljujejo repozitoriji sami. Priporočamo, da kot enega izmed kriterijev pri izbiri repozitorija za arhiviranje vaših podatkov upoštevate tudi, ali ima repozitorij urejeno dodeljevanje trajnih identifikatorjev. To vam bistveno olajša delo in tudi zmanjša stroške.

F4: Metapodatki in podatki so indeksirani v bibliografskih indeksih, ki omogočajo iskanje (npr. v repozitorijih, knjižničnih katalogih ipd.)

Trajni identifikatorji in obogateni metapodatki sami po sebi še ne zagotavljajo najdljivosti vaših podatkov. Poskrbeti morate tudi za diseminacijo. Repozitoriji imajo veliko večjo diseminacijsko moč, če je vsebina indeksirana v spletnih brskalnikih (npr. v brskalniku Google ali Google Učenjak). Pomembnen kanal za razširjanje informacij o podatkih je tudi knjižnični katalog, zato je pomembno, da metapodatke v obliki bibliografskega zapisa zapišete tudi tam.

Že sedaj obstajajo agregatorji metapodatkov podatkovnih repozitorijev z možnostjo dostopa do podatkov samih. Predvidevamo, da se bo ta način dostopa do podatkov v prihodnosti še bolj razvil. Zato je ključno, da pri ravnanju s podatki v največji možni meri upoštevate podnačela F1, F2 in F3, saj bo to podlaga za enostavnejše žetje in indeksacijo metapodatkov v tovrstnih orodjih.

A: Accessibility – dostopnost

Načelo dostopnosti (A – Accessibility) predstavlja zagotavljanje dostopnosti podatkov, vključno z morebitnimi postopki avtentikacije in avtorizacije.

Načelo A sestavljajo sledeča podnačela:

A1: Metapodatki in podatki so dostopni z uporabo pripadajočih identifikatorjev po standardnih komunikacijskih protokolih

Dostop do podatkov po podnačelu A1 je omejen s specializiranimi orodji ali komunikacijskimi metodami. To načelo se osredotoča na to, kako je mogoče pridobiti podatke in metapodatke na podlagi njihovih identifikatorjev. Ovire, ki morajo pri dostopu do podatkov biti odpravljene, so npr. komunikacijski protokoli, ki bi jih morali posebej nameščati, ki so slabo dokumentirani ali za delovanje potrebujejo veliko ročnega dela.

Če je dostop podatkov zaradi različnih razlogov omejen (npr. patentni potencial ali zakonski razlogi), je potrebno v metapodatkih navesti kontaktne podatke z opisom možnosti dostopa do podatkov (npr. dostop na sedežu institucije, dostop v varni sobi ipd.).

A1.1: Komunikacijski protokol je odprt, brezplačen in univerzalen

Z upoštevanjem tega podnačela povečate možnost ponovne uporabe vaših podatkov. Protokol dostopa naj bo odprt (odprtokoden), brezplačen in mednarodno uveljavljen. Vaš cilj naj bo, da lahko vsaj do vaših metapodatkov dostopa vsakdo z računalnikom, priključenim na svetovni splet. Primeri tovrstnih komunikacijskih protokolov so:

  • HTTP, FTP, SMTP …
  • telefon/mobilnik (omogoča le delne možnosti pridobivanja informacij)
  • telekonferenčni sistemi (npr. Zoom, Skype, Webex …).
A1.2: Protokol omogoča avtentikacijo in avtorizacijo, kjer je to potrebno

Podnačela A sama po sebi ne zagotavljajo odprtega dostopa, saj lahko tudi najbolj zaščiteni podatki ob drugih izpolnjenih pogojih izpolnjujejo zahteve načel FAIR. Repozitoriji zaradi različnih razlogov od uporabnikov zahtevajo avtentikacijo in avtorizacijo. Stopnja zahtevnosti avtentikacije in avtorizacije za dostop do vaših podatkov je lahko eden izmed kriterijev pri izbiri repozitorija.

A2: Metapodatki so dostopni tudi po tem, ko podatki sami niso več na voljo

Zaradi različnih razlogov (npr. stroški trajne hrambe) podatki pogosto po določenem časovnem obdobju niso več na voljo. Pomembno je, da kljub temu metapodatki še vedno ostanejo dostopni. S tem v repozitorijih ostane informacija o vaši raziskavi, sploh če so metapodatki obogateni in je izvor podatkov dobro opisan. To je lahko pomembna informacija za druge raziskovalce. V povezavi s podnačelom F4 je pomembno je tudi,  da metapodatki po opravljeni indeksaciji v različnih indeksih dajejo verodostojno sliko o (nekdaj obstoječih) podatkih.

I: Interoperability – interoperabilnost

Načelo interoperabilnosti (I – Interoperability) zagotavlja možnost integracije podatkov z drugimi podatki in možnost uporabe aplikacij ali delovnih procesov za potrebe analiz, hrambe in procesiranja.

Načelo I sestavljajo naslednja podnačela:

I1: Metapodatki in podatki so zapisani v formalnem, splošno dostopnem in široko uporabljanjem jeziku za razširjanje znanja

Fizičnim uporabnikom mora biti omogočena uporaba in interpretacija podatkov, zato morajo biti metapodatki in podatki zapisani v razumljivem in splošno dostopnem jeziku, ki se uporablja v znanstveni skupnosti na določenem raziskovalnem področju. Po drugi plati pa metapodatke in podatke uporabljamo tudi v avtomatiziranih, z računalniki podprtih, procesih izmenjave in branja. Zato morajo biti metapodatki in podatki strojno berljivi, te procese pa naj izvajajo brez posebnih algoritmov, prevajalnikov ali podobnih orodij.

Interoperabilnost torej predstavlja možnost izmenjave metapodatkov in podatkov med različnimi sistemi brez posrednikov. Da to dosežemo, je potrebna uporaba splošno priznanih in uporabljanih geslovnikov, taksonomij in ontologij ter uporaba ustreznih standardiziranih metapodatkovnih modelov.

Metapodatke lahko tvorite z uporabo različnih vnaprej pripravljenih slovarjev, geslovnikov, šifrantov, ontologij. Primeri knjižnic ontologij so npr. Bioportal, The Open Biological and Biomedical Ontology (OBO) Foundry, Ontologies for e-Government in druge. Več o tem lahko najdete v članku Where to Publish and Find Ontologies? A Survey of Ontology Libraries. Različne metapodatkovne sheme, uporabne za opisovanje znanstvenih del z različnih znanstvenih področij lahko že vnaprej izdelane najdete v nekaterih zbirkah metapodatkovnih shem. Dve od takih sta npr. Schema in Dublin Core.

Pri tvorbi metapodatkov je pomembno tudi, da upoštevate zakonitosti optimizacije za brskalnike (SEO). Predvidevamo, da bo veliko uporabnikov pri iskanju podatkov uporabilo splošne ali specializirane spletne brskalnike, ki bodo indeksirali vsebino repozitorijev. Google je npr. leta 2018 že lansiral brskalnik po podatkovnih nizih, imenovan Dataset Search. Zato lahko pri tvorbi metapodatkov uporabite tudi Googlova orodja za preverjanje pogostosti ključnih besed Google Trends in Google Ngram Viewer.

I2: Metapodatki in podatki uporabljajo geslovnike, ki sledijo načelom FAIR

Uporabljeni kontrolirani geslovniki in slovarji naj bodo dokumentirani in dosegljivi prek trajnih identifikatorjev. Dokumentacija o uporabljenih geslovnikih in slovarjih naj bo enostavno dosegljiva vsakomur, ki bo uporabljal vaše podatke. Več o zagotavljanju podnačela I2 si lahko preberete na spletni strani FAIR Data Point.

I3: Metapodatki in podatki vključujejo tudi sklice na druge metapodatke in podatke

Cilj tega podnačela je ustvarjanje sklicev in referenc med posameznimi metapodatki in podatki. Ti sklici naj v čim večji meri zagotavljajo in pojasnjujejo vsebinski kontekst, po možnosti naj bodo v obliki trajnih identifikatorjev. Ponovna uporaba podatkov mora biti obvezno tudi citirana.

R: Reusability – ponovna uporabnost

Načelo ponovne uporabe (R – Reusability) zagotavlja možnost ponovne uporabe podatkov. Da bi to dosegli, morajo biti podatki in metapodatki dovolj dobro opisani, da omogočajo ponovljivost ali ponovno uporabo v druge namene. Za ponovno uporabo so ključni trije vidiki, in sicer:

  • metapodatki in podatki morajo biti licencirani na način, ki omogoča ponovno uporabo,
  • pri ponovni uporabi je nujno, da je uporabnik seznanjen z opisom načina ustvarjanja podatkov oz. z opisom izvora (provenience) podakov,
  • metapodatki in podatki morajo zagotavljati znanstveno raven ponovne uporabe.

Načelo R sestavljajo naslednja podnačela:

R1: Metapodatki in podatki so opisani bogato in z mnogimi ustreznimi atributi

To podnačelo je povezano s podnačelom F2, vendar se osredotoča na možnost odločitve uporabnikov, ali so podatki uporabni v izbranih vsebinskih kontekstih njihove raziskave. Zato morate zagotoviti metapodatke, ki opisujejo kontekst ustvarjanja podatkov, npr. opis protokolov eksperimenta, znamko in tip instrumenta, pogoje ustvarjanja podatkov ipd.

Ker ne morete predvideti vsebinskih kontekstov drugih raziskav, kjer bodo vaši podatki ponovno uporabljeni, bodite zelo velikodušni pri tvorbi metapodatkov, še posebej pri zagotavljanju vsebinskega konteksta. Morda lahko drugim raziskovalcem služi tudi informacija, ki je na prvi pogled in v vašem vsebinskem kontekstu nerelevantna. Učinkovita metoda na tem področju so t. i. podatkovni članki, objavljeni v posebnih podatkovnih znanstvenih revijah.

R1.1: Metapodatki in podatki so opremljeni z ustrezno licenco

To podnačelo zagotavlja avtorskopravno interoperabilnost, ki določa pravice, ki jih imajo drugi uporabniki pri uporabi vaših podatkov. Ko gre za odprte raziskovalne podatke, običajno uporabimo odprte licence, npr. Creative Commons. Licence morajo biti razumljive tako za fizične uporabnike kot za računalnike pri strojnem branju in podatkovnem rudarjenju.

R1.2: Provenienca (izvor) metapodatkov in podatkov je natančno opisana

To podnačelo je eno izmed ključnih za ponovno uporabo. Drugi uporabniki morajo biti pri ponovni uporabi seznanjeni z okoliščinami nastanka podatkov (kdo, s čim, pod kakšnimi pogoji je podatke ustvaril).

Dobro zapisana provenienca zagotavlja pomembne vidike za ponovno uporabo podatkov. Oblika je v veliki meri odvisna od znanstvenega področja, tipa raziskave in predvsem od načina ustvarjanja podatkov. Več o minimalnih zahtevah glede opisa provenience podatkov si lahko preberete v našem članku o provenienci.

R1.3: Metapodatki in podatki izpolnjujejo uveljavljene standarde na posameznem raziskovalnem področju

Ponovna uporaba podatkov je lažja, če so podatkovni nizi podobni. Pri tem ne govorimo o vsebini, temveč o standardnih načinih organizacije podatkov, o ustrezno vzpostavljenih in prepoznanih podatkovnih formatih ter o uporabi poznanih geslovnikov in slovarjev pri tvorbi metapodatkov. Na večini raziskovalnih področij skupnost raziskovalcev uporablja določene minimalne informacijske standarde, saj je to nujno za izmenjavo informacij (npr. Minimum information about a proteomics experiment – MIAPE ali Minimum information about a microarray experiment – MIAME).

Na nekaterih znanstvenih področjih so ti standardi manj formalni, a kljub temu naj bodo objavljeni podatki opisani v jeziku, ki omogoča ponovno uporabo v skupnosti. V nekaterih primerih boste lahko imeli utemeljene in določene razloge za odstopanje od standardov pri arhiviranju v repozitorije (npr. poseben podatkovni format, nov podatkovni format ipd.). To je potrebno zabeležiti v metapodatkih.

Nazadnje spremenjeno: 7. 9. 2022

Skip to content