Metapodatkovne ontologije

Če želimo zagotoviti, da bodo naši podatki interoperabilni in ponovno uporabni, jih moramo najprej opisati na enoten in razumljiv način. To dosežemo s pomočjo metapodatkovnih geslovnikov in ontologij, ki definirajo v raziskovalni skupnosti splošno sprejete izraze ter odnose med njimi. Pomemben vidik metapodatkov je strojna berljivost, ki jo prav tako dosežemo s pomočjo dogovorjenega, enoznačnega kodiranja pojmov v obliki standardiziranih metapodatkovnih shem. Ljudje namreč lahko do neke mere razberemo pomen nestandardno opisanih podatkov iz njihovega konteksta, toda računalniki lahko pravilno interpretirajo podatke le na podlagi natančnih, nedvoumnih in strukturiranih metapodatkovnih oznak. Primerno definirano in strukturirano omrežje podatkov in metapodatkov je temelj t.i. semantičnega (pomenskega) spleta ali spleta 3.0 (Web 3.0).
Semantični splet
Izraz “semantični splet” je leta 1999 skoval oče svetovnega spleta Tim Berners-Lee. Pojem “semantični” se nanaša na področji jezikoslovja in formalne logike, ki se ukvarjata s pomenom. Semantični splet je nadgradnja spletov 1.0 (“samo za branje”) in 2.0 (“socialni splet”), ki sestojita iz mreže dokumentov in spletnih strani (digitalnih objektov), med sabo povezanih s hiperpovezavami. Takšni objekti so strojno najdljivi, a njihova vsebina je razumljiva le ljudem. Cilj semantičnega spleta je obstoječe digitalne objekte opremiti z metapodatki, ki opisujejo njihove lastnosti in odnose med njimi, s čimer postane strojno najdljiv oz. berljiv tudi njihov pomen in ne le lokacija. Na ta način bi se pospešilo in poenostavilo izmenjevanje, analiziranje in uporaba digitaliziranih informacij, vključno z raziskovalnimi podatki.
Semantični splet gradi organizacija World Wide Web Consortium (W3C) na podlagi standardnega modela za izmenjavo podatkov na spletu, imenovanega Resource Description Framework (RDF). RDF temelji na sintaksah, ki pomen podatkov in povezave med njimi izražajo s pomočjo enoličnih identifikatorjev virov (uniform resource identifiers, URIs). Osnovni gradnik te sintakse je t.i. “semantični trojček” oz. “RDF trojček”, ki kodira razmerje med podatki v obliki jezikovne zveze osebek → povedek → predmet. Stavek “Janez Novak piše knjigo” bi se v RDF obliki tako dalo zapisati kot:
http://primer.ime#JanezNovak1083 → http://xmlns.com/foaf/0.1/pisati → http://primer.objekt#knjiga
Semantični trojčki se nadalje povezujejo v pomenske mreže, imenovane “semantični grafi” oz. “RDF grafi”, s katerimi lahko opišemo celoten nabor relevantnih pojmov. Na spodnji shemi je primer takšnega preprostega grafa.

Domensko-specifični geslovniki
Osnovni pogoj za učinkovito delovanje semantičnega spleta je poenoteno in nedvoumno izrazoslovje. Standardizirano izrazoslovje je plod dogovora strokovne skupnosti na določenem raziskovalnem oz. strokovnem področju. Njegov pomen ponazarjajo Clark in sod. (2021) v članku naslovom Toward a Unified Description of Battery Data na primeru definicije pojma “elektroda”, ki se med avtorji zelo razlikuje. Za rabo v metapodatkovnih ontologijah je primerna le definicija Mednarodne komisije za elektrotehniko (International Electrotechnical Commission, IEC), ki odraža naravo elektrod in ne le njihove lastnosti:
Pojem | Definicija | Vir |
Elektroda | Električni prevodnik v elektrokemijski celici, priključen na zunanji tokokrog. | IUPAC |
Prevodnik v električnem stiku z manj prevodnim medijem, ki opravlja eno ali več vlog: oddajanje nosilcev naboja v medij, sprejemanje nosilcev naboja iz medija ali vzpostavljanje električnega polja v mediju. | IEC 60 050 | |
Material, v katerem so elektroni mobilna zvrst in se zato lahko uporablja za zaznavanje električnega potenciala. | Electrochemical Systems | |
Mesto, površina ali lokacija, kjer potekajo elektrokemijski procesi. | Linden’s Handbook of Batteries |
Nekatere strokovne skupnosti so poenoteno izrazoslovje že uspele doreči. Dva tovrstna primera dobre prakse sta npr. mednarodna klasifikacija bolezni, ki jo je vzpostavila Svetovna zdravstvena organizacija, in kontrolirani geslovniki konzorcija CESSDA za raziskave s področja družbenih ved in humanistike. Drugod je proces še v teku; ena najaktivnejših organizacij na tem področju je Research Data Alliance (RDA). Eden od primerov dobre prakse, ki ga lahko omenimo, sta geslovnik in metapodatkovna shema za odkrivanje podatkov s področja znanosti o materialih, ki sta plod dela članov RDA.
Metapodatkovne ontologije
Na podlagi dogovorjenega, standardiziranega, domensko-specifičnega besedišča je mogoče zgraditi metapodatkovno ontologijo. V računalniškem oz. informacijskem smislu je ontologija podatkovni model, formaliziran v obliki strojno berljive kode, ki ponazarja znanje kot mrežo konceptov z nekega področja ter razmerij med njimi. Ontologija definira nabor konceptov in njihovih kategorij, podatkom pripisuje (anotira) pomen, zagotavlja povezave med podatki in omogoča strojno sklepanje na podlagi njihovega pomena. Ontologije so med drugim uporabne na področjih razvoja programske opreme, interoperabilnosti podatkov in avtomatizacije procesov.
Znanstveno področje, kjer ima uporaba ontologij najdaljšo tradicijo, so vede o življenju, oz., natančneje, bioinformatika. Najbolj znan primer je genska ontologija (Gene Ontology), ki predstavlja strukturirano, strojno berljivo znanje o funkcijah genov in njihovih produktov. Nekatere druge znane ontologije so npr. še:
- Basic Formal Ontology kot podlaga za ostale ontologije, ki jih gradi organizacija Open Biological and Biomedical Ontology (OBO) Foundry,
- Chemical Entities of Biological Interest (ChEBI) za kemijske spojine,
- Human Disease Ontology za človeške bolezni,
- Protein Ontology za beljakovine,
- Plant Ontology, ki povezuje informacije o anatomiji, morfologiji, rasti in razvoju rastlin z rastlinsko genomiko.
Obsežno zbirko ontologij s področja biomedicine si lahko ogledate v repozitoriju BioPortal.
V CTK UL priporočamo, da za opis svojih raziskovalnih podatkov z metapodatki uporabite že izdelane ontologije. Če le-te ne obstajajo, priporočamo, da jih izgradite sami. Pri tem vam je lahko v pomoč vodič Ontology Development 101: A Guide to Creating Your First Ontology, ki ga je pripravila Univerza Stanford. Za izdelavo ontologij lahko uporabite odprtokodno programsko opremo, kot sta npr. Protégé ali Owlready2.
Nazadnje spremenjeno: 2. 9. 2022