Splošno o metapodatkih

Metapodatki so, preprosto povedano, »podatki o podatkih«. Vsebovati morajo vse informacije, ki naredijo raziskovalne podatke razumljive, interoperabilne in ponovno uporabljive, razen same vsebine raziskovalnih podatkov. To pomeni najmanj:
- informacije o raziskovalnem projektu in avtorjih,
- informacije o izvoru oz. provenienci podatkov (kraj in čas nastanka, merilni instrumenti in njihove nastavitve, načini obdelave podatkov …),
- spremljevalne dokumente, npr. protokole in programsko opremo, potrebne za ponovno uporabo podatkov.
Metapodatke načeloma licenciramo z licenco CC0 (“Brez pridržanih pravic”), saj gre večinoma za faktualne informacije, za katere ni mogoče terjati avtorskih pravic. Tudi v primeru, da je potrebno raziskovalne podatke po določenem času izbrisati (npr. v skladu s »pravico do pozabe«, kot jo definira GDPR), morajo metapodatki ostati trajno in javno dostopni kot dokaz o obstoju in lastnostih podatkov. Odstopanja od tega načela so mogoča le v izjemnih primerih, npr. ko bi že sami metapodatki ogrožali varstvo intelektualne lastnine, varstvo osebnih podatkov, zakonsko predpisane tajnosti ipd. V tem primeru veljajo upravičene izjeme od odprtosti.
Metapodatki so lahko zapisani v različnih oblikah, od neoblikovanega teksta v datotekah PreberiMe (ReadMe), podatkovnih člankov do obsežnih, standardiziranih, strojno berljivih metapodatkovnih shem. Posamezne discipline ali repozitoriji lahko usmerjajo ali celo natančno določajo vsebino ali format metapodatkov, po možnosti na podlagi formalnega standarda.
Kategorije metapodatkov
Metapodatke lahko kategoriziramo na različne načine. Tukaj si bomo ogledali dva, ki sta najbolj praktična z raziskovalnega vidika.
Metapodatki glede na vsebino
Knjižnica Državne univerze v Oregonu (Oregon State University) glede na vsebino razlikuje med metapodatki na nivoju projekta in metapodatki na nivoju podatkov.
Metapodatki na nivoju projekta so npr.:
- naslov projekta,
- opis projekta,
- financer,
- naslov podatkovnega seta,
- povzetek podatkovnega seta,
- datum objave podatkovnega seta,
- kraj in čas zbiranja oz. nastanka podatkov,
- vodja projekta in sodelavci,
- kontaktne informacije,
- trajni identifikator oz. povezava do podatkovnega seta (DOI, Handle, trajni URL – PURL ipd.),
- ključne besede,
- navodila oz. pravice za ponovno uporabo podatkov (vključno z licenco).
Metapodatki na nivoju podatkov pa so:
- informacije o izvoru podatkov (ali so bili pridobljeni eksperimentalno, z opazovanjem, izpeljani ali združeni na podlagi drugih podatkovnih setov, z modeliranjem, iz referenčnih oz. uradnih podatkovnih baz),
- informacije o tipu podatkov (števila, besedilo, fotografije, video, zvok …),
- informacije o datotečnih formatih,
- informacije o instrumentih oz. opazovalcih,
- podrobnosti procesa pridobivanja podatkov (npr. zasnova in izvedba eksperimenta, podatki o kalibraciji instrumentov, podatki o lokaciji senzorjev ipd.),
- informacije o procesiranju podatkov, vključno s programsko opremo in/ali uporabljenimi skripti oz. kodo,
- oznake vnosov v podatkovnem setu:
- imena spremenljivk,
- opisi spremenljivk (sploh če imena oz. okrajšave niso splošno uveljavljene),
- merske enote.
Metapodatki glede na namen
Knjižnica Univerze Cornell (Cornell University) pa metapodatke glede na namen deli na opisne, strukturne in administrativne.
1. Opisni metapodatki
Opisni metapodatki omogočajo najdljivost podatkov na:
- lokalnem oz. sistemskem nivoju, npr. prek iskanja po vsebini trdega diska, repozitorija ali lokalne bibliografske baze,
- nivoju svetovnega spleta, npr. prek iskanja s splošnimi ali specializiranimi brskalniki (Google, Bing, Yahoo!, DuckDuckGo, Google Učenjak itd.).
Informacijski elementi, ki to omogočajo, so:
- trajni identifikatorji (npr. PURL, DOI, Handle ipd.),
- informacije o lastnostih podatkovnih datotek (npr. datotečni format, velikost datoteke, datum nastanka),
- bibliografske informacije o podatkovnih datotekah (naslov, avtor/-ica, jezik, ključne besede).
Opisni metapodatki se tvorijo s pomočjo standardnih metapodatkovnih shem, ki bodo opisane v nadaljevanju, ter področno specifičnih geslovnikov in ontologij.
Opisni metapodatki, vključno s primernim poimenovanjem datotek in vključevanjem ključnih besed, bodo postajali vedno pomembnejši z razvojem namenskih brskalnikov za iskanje po podatkih. Google je tako poleg Google Učenjaka, ki je namenjen iskanju znanstvenih publikacij, leta 2018 lansiral še brskalnik Google Dataset Search, ki je namenjen iskanju po odprto dostopnih podatkovnih setih. Navodila za njegovo uporabo najdete na Googlovem blogu The Keyword.
Da bodo Google Dataset Search in splošni brskalniki vaše podatkovne sete prikazali med zadetki, jih morate opremiti s čim bolj informativnim naslovom, ki vključuje primerne ključne besede. Pri izbiri ključnih besed si lahko pomagate z Googlovima orodjema Google Trends in Google Ngram Viewer.
2. Strukturni metapodatki
Strukturni metapodatki dajejo vpogled v strukturo elektronskih virov in omogočajo navigacijo po njih. Delujejo kot neke vrste kazalo, in sicer tako, da:
- zagotavljajo informacije o notranji strukturi virov, kar se v kontekstu raziskovalnih podatkov nanaša predvsem na hierarhijo datotečnih map (število map, število hierarhičnih nivojev, razporeditev vsebine po mapah),
- opisujejo razmerje med podatki in znanstvenimi publikacijami (npr. fotografija B je bila vključena v izvirni znanstveni članek A),
- povezujejo sorodne datoteke in programsko kodo (npr. fotografija D je obdelana različica surove fotografije C; rezultat F je nastal s pomočjo programske kode E).
V kontekstu raziskovalnih podatkov se za strukturne metapodatke uporabljajo predvsem bogate metapodatkovne sheme v formatu XML ali JSON. Lahko so tudi del digitalne infrastrukture repozitorija.
3. Administrativni metapodatki
Administrativni metapodatki omogočajo kratkoročno procesiranje podatkov in dolgoročno upravljanje podatkovnih zbirk. Vključujejo:
- tehnične informacije o nastanku podatkovnih datotek, verzioniranju in kontroli kakovosti,
- pravice do ponovne uporabe, nadzor dostopa in zahteve do uporabnikov,
- informacije o trajni hrambi.
V kontekstu raziskovalnih podatkov med administrativne metapodatke sodijo informacije o odprtih licencah, upravičenih izjemah od odprtosti ter lastnostih in delovanju repozitorijev, ki morajo biti zaupanja vredni.
Metapodatkovne sheme in standardi
Pri pripravi metapodatkov se je najbolje ravnati po metapodatkovnih shemah, ki jih predpiše repozitorij, kamor nameravate odložiti svoje podatke. Kot navaja Knjižnica Univerze v Kaliforniji – San Diego, metapodatkovne sheme definirajo splošne koncepte o strukturi podatkov (tj. o njihovih gradnikih in lastnostih) za namen opisovanja podatkov. Ko shemo formalno povzame oz. implementira neka (po možnosti mednarodna) organizacija za standardizacijo, ta shema postane metapodatkovni standard.
Z izjemami splošnih standardov, kot sta Dublin Core in schema.org, metapodatkovni standardi večinoma veljajo samo znotraj določene domene oz. specializiranega področja. Npr. standard Data Documentation Initiative (DDI) se večinoma uporablja za opisovanje družboslovnih podatkov, Geospatial Metadata (ISO 19115) za geografske podatke in z njimi povezane storitve, Simple Darwin Core pa za opisovanja biodiverzitete prek beleženja prostorske razširjenosti vrst.
Dokumentacija, ki spremlja posamezno metapodatkovno shemo, natančneje definira ponovljivost elementov in pravila kardinalnosti ter nudi navodila za vnos in formatiranje vrednosti. Mnoge sheme uporabljajo geslovnike in ontologije, tj. dogovorjene pojme v znanstveni skupnosti, ki zagotavljajo, da metapodatki za stvari in koncepte uporabljajo ista imena. Z izbiro primernega metapodatkovnega standarda zagotovite, da bo opis vaših podatkov dovolj podroben, da bo upošteval uveljavljene prakse znanstvene skupnosti in da bo karseda koristen za druge uporabnike vaših podatkov.
Seznam področno specifičnih metapodatkovnih shem najdete na spletnih straneh UK Digital Curation Centre in Research Data Alliance.
Nazadnje spremenjeno: 12. 5. 2022