Najpogostejše goljufije z raziskovalnimi podatki in kako jih odkriti

Gibanje za odprto znanost temelji na predpostavki, da bo odprto deljenje povečalo vsesplošno dostopnost raziskovalnih izsledkov ter pospešilo njihovo izmenjavo. Vendar sama odprtost raziskovalnih rezultatov še ni dovolj, saj ne zagotavlja njihove ponovljivosti in ponovne uporabnosti. Odprti podatki morajo biti natančno opisani z metapodatki ter opremljeni z vsemi spremljevalnimi dokumenti in računalniško kodo, ki omogoča ponovitev raziskav. Že v osnovi pa morajo biti tudi točni in verodostojni, torej pridobljeni s kar največjo mero raziskovalne integritete. Žal je realnost mnogokrat drugačna. Znanstvenim publikacijam in raziskovalnim podatkom ne gre slepo zaupati, in sicer ne glede na to, ali so bili objavljeni v odprtem dostopu ali za plačilnim zidom. V tem prispevku si bomo ogledali, na katere goljufije s podatki moramo biti najbolj pozorni in kako jih lahko odkrijemo.
Pogostost kršitev raziskovalne integritete in njihovi vzroki
Število umikov znanstvenih objav se je po podatkih Ivana Oranskyja, soustanovitelja spletne strani RetractionWatch, od preloma tisočletja povzpelo na približno 1400 na leto. Elisabeth Bik in Enrico Bucci, specialista za odkrivanje goljufij s slikami v biomedicinskih člankih, ocenjujeta, da približno 4% oz. 6% teh člankov vsebuje klonirano ali kako drugače zmanipulirano slikovno gradivo. Ocene veljajo za obdobje pred množičnim privzemom orodij generativne umetne inteligence, kot sta npr. ChatGPT in Midjourney; zaenkrat še ni jasno, kako bodo ta orodja vplivala na pogostost kršitev raziskovalne integritete.
Tudi če izvzamemo namerne goljufije, se sodobna znanost iz različnih razlogov sooča s krizo ponovljivosti raziskovalnih rezultatov. Najbolj znana metaanaliza o ponovljivosti raziskav na področju psihologije je pokazala, da je bilo mogoče ponoviti le približno 40% analiziranih rezultatov. Še bolj zaskrbljujoče ocene prihajajo iz industrije; raziskovalci koncerna Bayer poročajo, da so zmožni ponoviti rezultate približno četrtine predkliničnih študij, raziskovalci podjetja Amgen pa še manj, le približno 11 %. Vsaj 44 % kliničnih študij vsebuje napake v podatkih, pri 26 % pa so napake tako pogoste oz. hude, da jim je nemogoče zaupati.
Revija Nature je leta 2016 1576 raziskovalcem zastavila vprašanje, kaj so po njihovem mnenju glavni vzroki za krizo ponovljivosti. Trije najpogostejši odgovori so bili selektivno poročanje, pritisk po objavljanju ter nizka statistična moč oz. nepravilna analiza rezultatov. Po mnenju Marcusa Munafòja z Univerze v Bristolu je sodobna akademska kultura s poudarjanjem novosti in prebojnosti destimulirala temeljne in replikacijske študije ter objavljanje negativnih oz. ničelnih rezultatov, s tem pa tudi spodkopala pomen ponovitev, potrjevanj in transparentnosti. Rešitve tega problema obsegajo širok spekter ukrepov, od spremembe sistema nagrajevanj in spodbud, večjega nadzora nad kakovostjo publikacij pred objavo do preizpraševanja obstoječih načinov dela.
Tipi goljufij z raziskovalnimi podatki
Goljufije z raziskovalnimi podatki lahko v grobem razdelimo v spodaj naštetih pet skupin:
1. Izmišljanje (fabrication)
Izmišljanje (fabrication) pomeni ustvarjanje lažnih podatkov in poročanje o njih kot o rezultatu dejansko izvedene raziskave. To je najhujša oblika znanstvene goljufije, ki je bila odgovorna za množico medijsko odmevnih umikov znanstvenih publikacij. Daniele Fanelli z Univerze v Edinburghu je leta 2009 v metaanalizi znanstvenih raziskav o pogostosti izmišljanja in potvorbe podatkov ocenil, da se ju poslužuje 0.3–4.9 % raziskovalcev, z obteženim povprečjem 1.97 % (oba pojava je sicer obravnaval skupaj). Analizirane raziskave so temeljile na izjavah raziskovalcev o lastnem vedenju ter o vedenju ljudi v njihovi okolici, ki niso bile nujno iskrene, zato so dejanske številke lahko višje.
V zadnjih letih veliko izmišljenih znanstvenih publikacij prihaja iz t.i. znanstvenih papirnic (paper mills), podjetij s Kitajske, Rusije in Irana, ki raziskovalcem prodajajo znanstvene članke in soavtorstva. Vsesplošna dostopnost orodij generativne umetne inteligence še pospešuje in olajšuje njihovo obratovanje, ki je že pred letom 2022 močno naraščalo. Eden od ukrepov, ki bi lahko pomagal zajeziti poplavo izmišljenih publikacij, bi bila obvezna oddaja surovih podatkov skupaj z osnutkom publikacije v recenzijski proces. Vendar je za implementacijo tovrstnih ukrepov potreben čas, saj od znanstvenih založnikov zahteva, da prilagodijo digitalno infrastrukturo za ustrezno ravnanje z raziskovalnimi podatki.
2. Potvarjanje (falsification)
Potvarjanje (falsification) zajema vse posege v sicer resnične podatke, s katerimi dosežemo, da odražajo drugačno situacijo od dejanske. Sem spadajo npr.:
- odstranjevanje dela podatkov s slik z retuširanjem in obrezovanjem;
- spreminjanje številčnih vrednosti (npr. pretirano zaokroževanje);
- združevanje podatkov nepovezanih poskusov in njihovo prikazovanje kot enoten podatkovni niz;
- dodajanje ali odvzemanje podatkovnih točk na grafih;
- uporaba parametričnih statističnih testov, kjer bi bili potrebni neparametrični (npr. na majhnih vzorcih);
- izločanje osamelcev iz statističnih analiz;
- p-hekanje (p-hacking) itd.
Nekateri za ta tip goljufij uporabljajo tudi izraz olepševanje (beautification), še posebej če so bili podatki odbrani, da bi bili bolj enoznačni in izraziti, interpretacija pa zato preprostejša in jasnejša. Še en izraz, ki bi ga lahko uvrstili v to skupino, je obiranje češenj (cherry picking). Ta pomeni izbiranje le tistih podatkov, ki podpirajo določene ideje oz. vnaprej oblikovane zaključke, ter zanemarjanje vseh podatkov, ki govorijo o nasprotnem.
3. Zavajanje (misrepresentation)
Zavajanje (misrepresentation) pomeni interpretacijo raziskovalnih podatkov na način, ki ni skladen z njihovim dejanskim pomenom. Pri tem so sami podatki lahko popolni in točni ali pa tudi ne. Primeri tovrstnih goljufij obsegajo npr.:
- pretiravanje glede pomembnosti oz. odmevnosti raziskovalnih izsledkov, vključno z racionalizacijo negativnih rezultatov (JARKing);
- postavljanje oz. spreminjanje hipotez po tem, ko so rezultati že znani (HARKing);
- statistično ekstrapolacijo brez upoštevanja, da se zanesljivost napovedi zmanjšuje z oddaljevanjem od intervala znanih vrednosti;
- prikazovanje korelacije kot vzročnosti;
- zanemarjanje zavajajočih spremenljivk (confounding factors/variables);
- interpretacijo p-vrednosti kot mere učinka, čeprav je v resnici le mera za verjetnost, s katero se zgodi določen izid;
- manipulacijo s skalami na oseh grafov;
- recikliranje istih slik v različnih člankih, s katerimi so enkrat utemeljeni eni, drugič pa drugi zaključki itd.
Zavajanje se lahko dogaja tudi pri predstavitvah znanstvenih izsledkov na poljuden način splošni javnosti, za kar se uporablja tudi izraz obračanje resnice (spinning).
4. Plagiarizem
Plagiarizem je prisvajanje tujih idej brez primernega navajanja izvornih avtorjev oz. pridobitve dovoljenja za ponovno uporabo tujih avtorskih del. Čeprav je najpogostejši pri besedilih, se plagiarizem lahko pojavlja tudi v zvezi z raziskovalnimi podatki, še posebej pri slikovnem gradivu v kombinaciji s potvarjanjem. Plagiarizem besedila in podatkov se pogosto pojavlja pri znanstvenih publikacijah, ki izvirajo iz znanstvenih papirnic (paper mills).
5. Sabotaža
Sabotaža v akademskem kontekstu pomeni preprečevanje kolegom, da bi kakovostno opravili svoje raziskovalno delo. Kot sabotažo lahko štejemo npr. namerno izpuščanje informacij iz raziskovalnih protokolov z namenom, da za druge osebe ne bi bili uporabni (vključno s postopki, opisanimi v znanstvenih člankih), uničevanje lastnih ali tujih raziskovalnih podatkov ipd.
Goljufije s statistiko
Goljufije s statistiko so ene najpogostejših znanstvenih goljufij, saj jih je mogoče izvajati na resničnih, korektno pridobljenih raziskovalnih podatkih in tako ne spadajo v skupino odkritih izmišljotin. Večina spada med potvarjanje rezultatov oz. zavajajočo interpretacijo. Za njihovo odkrivanje je potrebno poglobljeno znanje statistike, saj jih neuko oko ne opazi zlahka. Seveda niso vse statistične napake posledica odkrite goljufije; pogosto gre za nevednost in slabe prakse, ki se zaradi sistemskih težav v znanosti prenašajo z roda v rod.
Preden si ogledamo najpogostejše tipe statističnih napak, poskušajmo opredeliti, kdaj so statistične analize pravilne. Statističarka Karen Grace-Martin, ustanoviteljica podjetja The Analysis Factor, v članku z naslovom What makes a statistical analysis wrong? opredeli dva pogoja za to:
- statistični test je ustrezen glede na dane predpostavke (upošteva mersko skalo spremenljivk, zasnovo študije oz. eksperimenta in lastnosti podatkov) in
- statistični test je zmožen odgovoriti na dano raziskovalno vprašanje.
Zatakne se lahko pri kateremkoli od teh dveh pogojev, zato je potrebno statistične analize skrbno načrtovati, tako s teoretičnega kot praktičnega vidika.
Tamar R. Makin z University College London in Jean-Jacques Orban de Xivry s KU Leuven sta leta 2019 v članku Ten common statistical mistakes to watch out for when writing or reviewing a manuscript zbrala deset najpogostejših statističnih napak, ki izhajajo iz neučinkovite eksperimentalne zasnove, neprimernih analiz in/ali zmotnega sklepanja. Te napake postanejo goljufije, kadar so storjene namenoma, vendar tudi nenamerne napake niso za kakovost raziskovalnih rezultatov nič manj škodljive.
Stuart McErlain-Naylor z Loughborough University je vsebino omenjenega članka nazorno vizualiziral v spodnjem videu, s katerim si lahko pomagate pri razumevanju opisov v nadaljevanju. Raghuveer Parthasarathy z University of Oregon pa je na svojem blogu The Eighteenth Elephant podal dodatno razlago in primere za napake, opisane v članku, ki jih bomo uporabili pri razlagi.
1. Odsotnost primernih kontrolnih pogojev oz. kontrolne skupine
Če želimo preveriti, ali nek dejavnik vpliva na izbrano spremenljivko, moramo v eksperiment oz. študijo nujno vključiti kontrolne pogoje (odsotnost dejavnika). Vrednost spremenljivke se namreč lahko spremeni tudi zaradi vpliva drugih okoliščin in ne le dejavnika, ki nas zanima. Če želimo npr. meriti vpliv športne aktivnosti na telesno maso, moramo v študijo kot kontrolno skupino vključiti osebe, ki niso telesno aktivne, saj se telesna masa lahko spremeni zaradi spremenjene prehrane ali drugih dejavnikov.
V idealnem primeru bi morali biti kontrolni pogoji (oz. kontrolna skupina) po zasnovi in statistični moči enaki eksperimentalnim, z izjemo dejavnika, ki ga merimo. Včasih razlikujemo tudi med negativno in pozitivno kontrolo, tj. kontrolo, ki ni podvržena nobenim posegom, in kontrolo, ki je podvržena nadomestnemu dejavniku, npr. placebu. Testne in kontrolne enote je potrebno vzorčiti ob istem času ter jih v obe skupini razporediti naključno, da se izognemo pristranskosti.
Primeri neprimernih kontrolnih pogojev so npr.:
- kontrolna skupina ni podvržena nadomestnemu dejavniku (odsotnost pozitivne kontrole),
- kontrolna skupina je premajhna, zato njena statistična moč ne zadošča, da bi lahko zaznali spremembo v testni skupini,
- kontrolna skupina je izpostavljena drugačnim pogojem kot testna skupina, kar lahko vodi do pristranskih primerjav,
- poskus ni “enojno slep” (izvajalci vedo oz. lahko predvidijo, kakšen bo izid).
2. Primerjava dveh učinkov prek primerjave njune statistične značilnosti namesto prek neposredne primerjave testnih skupin
Pogost način statističnega testiranja (npr. razlike v testni skupini pred in po posegu ali korelacije med dvema spremenljivkama) je iskanje “statistične značilnosti”. Poseg oz. opazovani dejavnik npr. vodi do statistično značilne razlike v testni skupini glede na izhodiščno stanje, medtem ko sprememba v kontrolni skupini v istem časovnem obdobju ni statistično značilna. Na podlagi teh ločenih eksperimentalnih izidov raziskovalci včasih zaključijo, da je vpliv posega oz. dejavnika na testno skupino večji kot vpliv na kontrolno skupino. Enako se lahko zgodi pri dveh različnih testnih skupinah.
Tak zaključek je napačen zato, ker je posledica dveh ločenih testov namesto ene neposredne primerjave med izbranima skupinama, ki bi pokazala, da med njima razlike ni (Raghuveer Parthasarathy navaja dober grafični prikaz). Tveganje za to napako je tudi razlog, da je potrebno podatke eksperimentov z eno kontrolno in več testnimi skupinami analizirati z metodo, kot je ANOVA, in ne z zaporednimi testi za dva neodvisna vzorca (t-test ali primerljiv neparametrični test).
Do te napake pride, ker so meje statistične značilnosti (tipično p < 0,05 oz. manj kot 5-odstotna verjetnost, da do izida pride po naključju) postavljene arbitrarno in niso mere učinka. Poleg tega vsaka meritev vsebuje določeno mero šuma, bodisi zaradi merske napake, variabinosti sistema ali drugega vira naključnosti. Zato je skupine potrebno primerjati na način, ki upošteva variabilnost vzorca in ne le razliko med povprečjem skupine in neko privzeto vrednostjo. Več o tem si lahko preberete v članku The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant Andrewa Gelmana in Hala Sterna iz leta 2006.
3. Napihovanje eksperimentalnih enot
Eksperimentalna enota je najmanjša enota opazovanja, ki jo je mogoče izbrati naključno in neodvisno. V klasični statistiki eksperimentalna enota odraža prostostne stopnje (degrees of freedom). Tako je pri analizi skupinskih rezultatov eksperimentalna enota število testiranih oz. opazovanih entitet in ne število meritev, opravljenih na teh entitetah. Ko se število prostostnih stopenj poveča, se prag, glede na katerega ocenjujemo “statistično značilnost”, zmanjša (poveča se statistična moč testa), kar lahko vodi do lažno značilnih rezultatov.
Raghuveer Parthasarathy navaja naslednji primer. Na dveh skupinah po 20 ljudi opravimo po tri meritve telesne mase na osebo, ker želimo izvedeti, ali je razlika v povprečni telesni masi med skupinama statistično značilna (dejanski podatki so navedeni v članku). Eksperimentalna enota je v tem primeru 20, tj. število oseb v skupini, in ne 60, tj. skupno število meritev. Zaporedne meritve namreč ne prispevajo k številu neodvisnih podatkovnih točk, na podlagi katerih primerjamo skupini. Če podatke testiramo s t-testom pri N = 20 (pravilno), pridemo do rezultata p = 0,20, kar ni statistično značilno; če uporabimo N = 60 (napačno), dobimo rezultat p = 0,03, kar je statistično značilno.
4. Lažne korelacije
Korelacije se v statistiki uporabljajo za ocenjevanje, kako močno sta dve spremenljivki povezani. Lažne korelacije najpogosteje izhajajo iz treh situacij:
- podatki vsebujejo osamelec, ki je sicer verodostojen, a ni značilen za splošno stanje vzorca (Raghuveer Parthasarathy navaja primer spontanih mutacij v eksperimentu Luria–Delbrück);
- iz podatkov so bile odstranjene določene podatkovne točke;
- analiza ne upošteva vseh spremenljivk, še posebej t.i. zavajajočih spremenljivk (confounding factors);
- podatki so nastali z združevanjem dveh skupin rezultatov, ki se po lastnostih razlikujeta.
Lažnim korelacijam se najlažje izognemo z uporabo statističnih testov, ki so bolj robustni kot Pearsonov koeficient korelacije (Makin in Orban de Xivry navajata nekaj primerov) in niso tako občutljivi na osamelce. Rezultate je dobro tudi grafično prikazati na način, da je distribucija podatkovnih točk jasno razvidna.
5. Uporaba (pre)majhnih vzorcev
Uporaba majhnih vzorcev je v znanosti pogosta, bodisi zaradi omejenega števila testnih subjektov oz. objektov bodisi zaradi dragih in zapletenih raziskovalnih postopkov. Pri statistični analizi majhnih vzorcev nastane vsaj pet problemov:
- stohastičnost; kot navaja Raghuveer Parthasarathy, je pri 10 metih kovanca verjetnost, da 6x zaporedoma pade glava, 20 %, medtem ko je pri 100 metih verjetnost, da glava pade 60x zaporedoma, le 1 %;
- povišana verjetnost za napako tipa I oz. lažno pozitiven rezultat; pri majhnih vzorcih so opaženi učinki veliki, kar raziskovalci pogosto zmotno interpretirajo kot statistično značilnost namesto kot precenjen učinek (Raghuveer Parthasarathy to tudi dobro grafično ponazori);
- povišana verjetnost za napako tipa II oz. lažno negativen rezultat; z večanjem števila vzorčnih enot se povečuje moč vzorca, tj. verjetnost, da zaznamo učinek, ki je v resnici prisoten, hkrati pa tudi zmanjša verjetnost, da ga zgrešimo;
- deviacije od normalne (Gaussove) razporeditve, ki otežujejo statistično testiranje (parametričnih testov, ki privzemajo normalno razporeditev, kot je npr. t-test, ni mogoče uporabiti, neparametrični pa imajo tudi svoje omejitve),
- pojav ekstremnih osamelcev, ki lahko vodi do lažnih korelacij, opisanih v prejšnji točki.
Makin in Orban de Xivry kot možno rešitev predlagata izračun statistične moči vzorca glede na dano velikost ter večkratno ponovitev eksperimentov. Parthasarathy dodaja komentar, da je včasih bolje počakati na ugodne pogoje za raziskavo (npr. dovolj denarja in časa, primerno opremo), kot pa izvesti raziskavo s premajhnim številom enot in iz nje izpeljevati neutemeljene zaključke. Druga možnost je, da raziskavo sicer izvedemo, a smo pri poročanju in interpretaciji rezultatov veliko bolj zadržani. Na tej točki je potrebno začeti preizpraševati same principe znanstvenega raziskovanja ter sistemske vplive nanj (financiranje, pritiske po objavljanju ipd.).
6. Krožna analiza
Makin in Orban de Xivry kot krožno analizo definirata retrospektivno opredeljevanje določenih lastnosti podatkov kot odvisnih spremenljivk, s čimer popačimo rezultate statističnega testa. Ena pogostejših oblik krožne analize je razdelitev podatkov v skupine po zaključku eksperimenta, ko so razlike v podatkih že vidne, ter odstranjevanje dela podatkov (npr. osamelcev). Primer bi bil opazovanje skupine vzorčnih enot, ki pred izpostavitvijo in po izpostavitvi testnemu dejavniku kot celota ne kaže spremembe v merjeni spremenljivki. Vendar po eksperimentu opazimo, da se je pri delu enot vrednost spremenljivke zmanjšala, pri delu pa povečala, zato testno skupino namerno razdelimo v dve podskupini glede na spremembo vrednosti merjene spremenljivke. Rezultate nato prikažemo bodisi kot posledico izvirne zasnove eksperimenta bodisi kot korelacijo z neko tretjo spremenljivko, ki ločuje skupini med sabo in prikaže močen statistično značilen učinek. S tem statistično značilnost pravzaprav izpeljujemo iz šuma.
Raghuveer Parthasarathy na svojem blogu to dobro grafično ponazarja. Pripominja tudi, da je koncept, ki ga opisujeta Makin in Orban de Xivry, soroden regresiji k povprečju in pretiranemu fitanju (overfitting).
7. p-hekanje
Želeno vrednost parametra p (običajno p < 0,05, tj. manj kot 5 % verjetnost, da dobimo nek rezultat, če velja ničelna hipoteza) je zelo enostavno doseči npr. s prilagajanjem statističnih analiz, izločanjem osamelcev, razdeljevanjem testnih enot na podskupine, dodajanjem novih testnih enot iz ponovljenih eksperimentov ipd. p-vrednost je v resnici naključno število in fluktuira s fluktuacijo podatkov. Raghuveer Parthasarathy v branje priporoča nekaj poglobljenih analiz:
- Kerr in sod., 1998: HARKing: Hypothesizing After the Results are Known
- Simmons in sod., 2011: False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant
- Gelman in Loken, 2013: The garden of forking paths: Why multiple comparisons can be a problem, even when there is no“fishing expedition” or “p-hacking” and the research hypothesis was posited ahead of time
- Head in sod., 2015: The Extent and Consequences of P-Hacking in Science
Makin in Orban de Xivry kot možno rešitev predlagata uporabo standardiziranih analiznih postopkov ter predregistracijo eksperimentalne zasnove in analiz. Parthasarathy k temu dodaja še izračun verjetnosti, da uporabljena analiza pokaže učinek, čeprav je velikost učinka (effect size) nič, ali pa preprosto uporabo drugih statističnih metod (oz. znanstvenih metod v splošnem), ki ne zahtevajo izračuna p-vrednosti.
8. Neuporaba popravkov za mnogokratne primerjave
Pilotne raziskave so pogosto namenjene preverjanju vplivov različnih testnih pogojev oz. dejavnikov na različne spremenljivke (npr. vpliv različnih kombinacij svetlobe, vode in hranil na rast in cvetenje rastlin). Če povezave med testnimi pogoji in spremenljivkami testiramo s frekventističnimi statističnimi metodami prek parnih primerjav (kot da gre vsakič za ločen eksperiment in so pogoji med sabo neodvisni), povečamo verjetnost za napako tipa I (lažno pozitivni rezultat). Tako je npr. v študiji z 2 × 3 × 3 testnimi enotami verjetnost, da dobimo vsaj en statistično značilen rezultat, kar 30 %, tudi če je velikost učinka (effect size) nič. Verjetno najbolj ilustrativen primer te napake je demonstrirala slavna detekcija možganske aktivnosti v mrtvem lososu z MRI, ki si je leta 2012 prislužila IgNobelovo nagrado.
Raghuveer Parthasarathy princip ponazori z enostavnim primerom: verjetnost, da ob metu kocke dobimo 6, je 1/6 oz. 17 %; verjetnost, da ob metu 6 kock vsaj enkrat dobimo 6, je bistveno višja, tj. 67 %. Še večja težava nastane, če kateri izmed testiranih spremenljivk korelirata. Parthasarathy opozarja tudi, da je problem soroden p-hekanju.
Makin, Orban de Xivry in Parthasarathy se strinjajo, da je edina rešitev za ta problem uporaba popravkov za mnogokratne primerjave.
9. Napihovanje neznačilnih rezultatov
V frekventistični statistiki se kot prag “statistične značilnosti” običajno uporablja arbitrarno določena vrednost p < 0,05. Pogost zaključek, ki ga raziskovalci izpeljejo iz rezultata p > 0,05, je, da učinka ni, čeprav je lahko pridobljeni rezultat zgolj posledica velikosti vzorca oz. neprimerne zasnove eksperimenta. Vrednost p > 0,05 je lahko posledica dejanske odsotnosti učinka (resnični negativni rezultat), nizke statistične moči vzorca (glej točko 5) ali učinka, ki je zaradi svoje nizke intenzitete dvoumen oz. nezadosten. Raghuveer Parthasarathy to dobro grafično ponazori, a hkrati opozarja, da je zelo pogosta tudi obratna situacija, ko raziskovalci na podlagi rezultata p < 0,05 napačno zaključijo, da je učinek prisoten. Makin in Orban de Xivry predlagata, da se skupaj s p-vrednostmi vedno poroča tudi velikost učinka (effect size), omenjata pa tudi alternativne pristope, kot je npr. Bayesova statistika.
10. Zamenjava korelacije za vzročnost
To je ena najpogostejših napak pri interpretaciji statističnih testov. Če med dvema spremenljivkama najdemo korelacijo, je najlažje zaključiti, da je to zato, ker sta spremenljivki vzročno posledično povezani (ena povzroča drugo). V resnici lahko do korelacije pride zaradi dejanske vzročno-posledične povezave (direktne ali reverzne), nekega skupnega tretjega dejavnika, ki vpliva na obe spremenljivki (t.i. confounding factor/variable oz. zavajajoča spremenljivka) ali naključja. Ta pojav, ki je pravzaprav bolj napaka v logičnem sklepanju kot v statističnih testih, zelo nazorno ilustrira blog Spurious Correlations avtorja Tylerja Vigna. Raghuveer Parthasarathy opozarja, da je veliko težje kot korelacijo dokazati resnično vzročno-posledično povezavo ter v zvezi s tem v branje priporoča delo Causal Inference: What If avtorjev Miguela A. Hernána in Jamesa M. Robinsa. Prednatis knjige je na voljo na spletni strani avtorjev.
Goljufije s številkami
Kaj pa surovi številski podatki? S spodbujanjem odlaganja podatkov, tudi neobdelanih, v temu namenjene repozitorije lahko pričakujemo, da bomo, če bomo želeli uporabiti podatke drugih raziskovalnih skupin, občasno naleteli na primere potvarjanja (falsification) in olepševanja (beautification), opisanih zgoraj. Za preverjanje verodostojnosti številskih podatkov si lahko pomagamo z več statističnimi pristopi, na primer:
- testiranje distrubucije vodilnih števk v skladu z Newcomb-Benfordovim zakonom,
- testiranje multivariatnih zvez med testnimi spremenljivkami,
- test GRIM (Granularity-Related Inconsistency of Means), ki ga avtor James Heathers tudi poljudno opisuje na svojem blogu,
- test SPRITE (Sample Parameter Reconstruction via Iterative TEchniques),
- kompleksni matematični algoritmi ipd.
Od opisanih je najstarejša in najenostavnejša metoda z upoštevanjem Newcomb-Benfordovega zakona, poljudno imenovanega tudi zakon prvih števk. Newcomb-Benfordov zakon opisuje relativno frekvenco vodilnih števk pri naključno nastalih številih, pri čemer se števke z nižjo vrednostjo pojavljajo pogosteje kot števke z visoko. Približno 30 % naključno nastalih števil se začne z 1 in manj kot 5 % z 9, kar je bilo potrjeno na mnogo različnih tipih podatkov, od vrednosti delnic, športnih statistik, populacijskih parametrov (npr. smrtnosti) ter različnih tipih finančnih podatkov. Pri potvarjanju števil ljudje na ta vzorec običajno niso pozorni, sploh če jih skušajo prilagoditi nekim vnaprej določenim vrednostim. Newcomb-Benfordov zakon se rutinsko uporablja v finančni forenziki.
Eden od praktičnih načinov, s katerimi je mogoče zmanjšati število goljufij s številskimi podatki, je uvedba elektronskih laboratorijskih dnevnikov, ki omogočajo lažje deljenje in preverjanje raziskovalnih rezultatov.
Goljufije s slikovnim gradivom
Na področju detekcije goljufij s slikovnim gradivom v znanstvenih publikacijah deluje nekaj specializiranih preiskovalcev. Med njimi je gotovo najbolj znana Elisabeth Bik, ki se osredotoča na biomedicinske publikacije. Mnogo goljufij opazi že s prostim očesom, včasih pa si pomaga tudi z namenskimi računalniškimi programi. Med najpogostejšimi manipulacijami, ki jih najde, so podvojitve, zamiki, rotacije, kloniranje in zrcaljenje celotnih podob ali njihovih delov. O svojih odkritjih redno piše na svoji spletni strani ter platformi za komentiranje znanstvenih objav PubPeer, pogosto pa tudi javno predava. Eno od njenih recentnih predavanj, v katerem si lahko ogledate, na kaj morate biti pozorni, si lahko ogledate v spodnjem videu.
Vendar tudi Elisabeth Bik od množičnega privzema orodij generativne umetne inteligence opaža pojav edinstvenih slik, ki so bile generirane računalniško in jih programska orodja za odkrivanje podvojenih podob ne morejo zaznati. Gu in sodelavci so leta 2022 v članku z naslovom AI-enabled image fraud in scientific publications tudi praktično prikazali, da računalniške metode za detekcijo računalniško generiranih slik (zaenkrat) niso nič bolj učinkovite kot izurjeno človeško oko. Oba pristopa sta tudi razmeroma slabo zanesljiva pri odkrivanju goljufij s slikami, ne glede na uporabljeno metodo (urejanje pristnih slik, računalniško generiranje izvirnih slik ali računalniško regeneriranje na podlagi ene pristne slike) ali tip slike (fotografija, vrstična elektronska mikrografija, imunohistokemijski vzorci, imunološko obarvane celične kulture, histopatološki vzorci).
Pri odkrivanju goljufij s slikovnim gradivom, ki je nastalo pred množičnim privzemom orodij generativne umetne inteligence, si lahko pomagate z orodji, ki jih navaja spletna stran Humboldt-Elsevier Advanced Data and Text Centre (HEADT Centre). HEADT Centre je raziskovalni center Humboldtove Univerze v Berlinu, ki se posveča raziskovalni integriteti vseh vrst in formatov teksta in fotografij, del financiranja pa prejema tudi s strani znanstvene založbe Elsevier.
Nazadnje spremenjeno: 27. 7. 2023