Téma: Open Science. Vědci si sami určí, komu zpřístupní svá data

- Foto: Universitas: Téma: Open Science. Vědci si sami určí, komu zpřístupní svá data, říká Matej Antol
- Video: EOSC Czech Republic: Záznam EOSC CZ konference 2024
Česká věda má teď podle něj obrovskou příležitost na rapidní posun vpřed. Pomoci tomu má zlepšení přístupu ke správě výzkumných dat. V rozhovoru Matej Antol, projektový manažer projektu EOSC-CZ, mluví i o tom, jak se v oblasti ukládání, sdílení, a hlavně zvýšení dostupnosti dat můžeme etablovat mezi evropskou, ne-li světovou špičkou. Zdůrazňuje také, jakou cestu ještě musí věda urazit, jak jí v tom pomůže vznik národní repozitářové platformy a co konkrétně to bude znamenat pro samotné vědce a vědkyně.
Předpokládá, že věda bude za sto let vypadat úplně jinak. „Dnes neumíme vědu systematicky hodnotit jinak, než sběrem čárek za články. Vědec je chtě nechtě nucen publikovat někdy až nesmyslné množství článků, protože tak může nasbírat co nejvíc citací, a tak postoupit výš ve standardním kariérním žebříčku. Navíc aktuálně do renomé vědce vstupuje ještě aspekt jeho popularity, tedy nakolik je ono renomé postavené na tom, že je vědec někde vidět a slyšet, a nakolik jsou jeho výstupy skutečně hodnotné,“ říká hned na úvod rozhovoru Matej Antol, hlavní projektový manažer projektu EOSC-CZ, integrační manažer české e-infrastruktury e-INFRA CZ a výkonný ředitel jednoho z jejích tří partnerů, infrastruktury CERIT-SC zřízeného při Ústavu výpočetní techniky Masarykovy univerzity.
Universitas: RNDr. Matej Antol, Ph.D.
RNDr. Matej Antol, Ph.D.
- Je hlavním projektovým manažerem projektu EOSC-CZ, integrační manažer české e-infrastruktury e-INFRA CZ a výkonný ředitel jednoho z jejích tří partnerů, infrastruktury CERIT-SC zřízeného při Ústavu výpočetní techniky Masarykovy univerzity.
- Má dlouholetou zkušenost s vedením IT a výzkumných projektů.
- V rámci svých aktivit vedl budování platformy pro koordinaci řízení IT služeb na MUNI, prostředí pro správu citlivých dat SensitiveCloud a další.
- Jeho výzkumné aktivity se zaměřují na správu a analýzu komplexních a vysoce dimenzionálních dat (obrazová data, data z oblasti strukturní biologie apod.) za pomocí technik umělé inteligence.
European Open Science Cloud (EOSC)
- Evropská iniciativa zaměřená na rozvoj infrastruktury podporující postupy otevřené vědy v oblasti správy výzkumných dat.
- V roce 2023 byla spuštěna iniciativa EOSC CZ, která je zaměřená na implementaci v České republice. Bližší informace na portále EOSC CZ.
Jedním z dalších zásadních nedostatků, které současná věda má, je podle něj také to, že se k výsledkům výzkumu často prostě nelze dostat. „Myslím si a doufám, že to, jak se realizuje věda, bude v těchto a dalších ohledech v blízké budoucnosti racionálnější. Velkou roli v tom, jak se věda vyvine, podle mě sehrají výzkumná data. Už dnes víme, že data jsou přinejmenším stejně tak hodnotná jako jejich interpretace. Často lze data interpretovat mnoha způsoby a publikováním jen jediného výsledku výzkumu formou článku ztrácíme ohromné množství informací, a tak i potenciálu pro další výzkum. Navíc se právě na datech dá mimo jiné ověřit kvalita výzkumu.“
FAIR přístup k vědeckému bádaní i celý koncept Open Science nabízí podle Antola směr, kterým by se problematika nastavení kvality vědy mohla dál posouvat. „Open Science říká, že by výsledky vědy měly být všeobecně dostupnější pro lidi. Data splňující FAIR principy jsou de-facto data řádně spravovaná, a iniciativa EOSC CZ pak skrz správu FAIR dat napomáhá tomu, abychom výzkumná data mohli lépe a jednoduše využívat.“
Principy FAIR
- popisují, jak by data měla být zpracována, aby byla lépe
- nalezitelná (Findable)
- dostupná (Accessible)
- interoperabilní (Interoperable)
- opětovně využitelná (Reusable)
Znamená to tedy jít cestou větší kvality než kvantity?
To je určitě součástí. Hlavní charakteristiky standardního vědeckého výstupu, tedy zejména publikování článků, jsou v této době tyto: Za prvé dnes existují stimuly publikovat tzv. MPU (Minimum Publishable Unit) – to znamená, že existují tlaky v nastavení systému, kvůli kterým výzkumník raději než jeden kvalitní článek, napíše čtyři menší a nasbírá víc, řekněme, akademického kapitálu. Za druhé, a to už se dá i celkem dobře měřit a kvantifikovat, je tady problém s reprodukovatelností. Pokud někdo napíše článek a někdo jiný by chtěl zopakovat výsledky, které v tom článku jsou, tak se to daří jen v menších procentech. Jsou pro to dvě vysvětlení: První a podle mě nejčastější je, že metoda není v článku precizně popsaná a nedá se tedy výzkum zopakovat. A druhé, že autor prostě udělal chybu nebo si v krajních případech vymýšlel. Takových anomálií existuje hned několik, a to je to, co v širším slova smyslu nazýváme krizí současné vědy. Open Science a výzkumná data přibalená k publikacím se tento problém snaží alespoň částečně řešit.
Takže ve chvíli, kdy jsou data přístupná, vědec si už nedovolí výzkum podcenit? Bude možnost ho více kontrolovat?
Spíš bych tu rétoriku otočil. Když udělá vědec nějaký výzkum, založí na něm článek a někdo ho bude chtít napadnout, že to nemá pořádně podložené, tak řekne: „Ne ne, tady jsou všechna má data, klidně můžete moje závěry sami zreprodukovat.“ Dnes dáváme ven publikace se slovy: „Hele, na co jsem přišel! Ale vlastně ti neřeknu, na základě čeho jsem na to přišel.“ Čím kompletnější datové sady vědec publikuje, tím snáze je možné jeho výzkum zopakovat a výsledky ověřit. To bychom rádi podpořili i za tu cenu, jakou ukládání dat stojí, ačkoliv se tato investice může zdát zpočátku velká.
Publikování článků znamená je zveřejnit a zajistit, aby tam zůstaly dlouho, třeba sto let. To stojí peníze, i když samotný PDF soubor má minimální objem dat. Ale když chceme zpřístupnit i data, na jejichž základě jsme dospěli k výsledkům, jejich dlouhodobé uložení už stojí mnohem víc. Současný stav je tedy racionální, protože nemáme kapacity pro dlouhodobé ukládání dat. Samozřejmě existují výjimky, ale obecně musíme začít ukládat více zdrojů. Open Science říká: věda je financována z veřejných peněz, ale výsledky vědy nejsou vždy snadno přístupné. Zkusme tedy vědu více otevřít, jak už dalším vědcům nebo občanům, kteří za to přímo nebo nepřímo platí.
Mohli bychom si říct, co to vlastně data jsou? Pod pojmem data má každý jinou představu.
Rozlišujeme surová a zpracovaná data. Když si představíme nějaký přístroj – teleskop, elektronový mikroskop nebo meteostanici, tak takový přístroj ta data chrlí. To jsou surová a většinou relativně objemná data, ale zároveň ta jediná data, která nejsou zkompromitována lidským pohledem. Ať už záměrně anebo nevědomě do nich ještě nevstoupil člověk, nejsou tedy nijak upravená.
Na druhou stranu s nimi ale většinou potřebujeme udělat hodně změn, abychom z nich mohli získat reálnou hodnotu, přičemž se typicky i významně zmenší jejich objem. V rámci EOSC CZ hledáme konsenzus ve vědeckých komunitách, co to vlastně jsou hodnotná data v konkrétní doméně, a v jakém formátu a objemu je má smysl ukládat.
Hledáte tedy shodu na tom, jaká data má smysl uložit. Je to ve všech oborech na podobné úrovni?
Není. Různé domény se nachází v různém stadiu vyspělosti, co se správy dat týká. Jeden příklad z oblasti blízké mně osobně: Za poslední roky jsme za pomoci umělé inteligence došli k velkému množství proteinových dat, která nalézají využití v různých oblastech, od výroby léků až po řešení znečištění plasty. Tato revoluce se podařila i díky tomu, že je již padesát let stanoven jasný formát a repozitáře, ve kterých se proteinová data systematicky ukládají.
Jsou ale domény, ve kterých je ta situace výrazně složitější. Příkladem mohou být snímky povrchu Země. Pokud dělám turistické mapy, zajímá mě vždy poslední aktuální fotka krajiny. Pokud řeším environmentální změnu nebo změnu urbanismu, zajímá mě obraz krajiny měnící se v čase. Ta stejná data ale můžou mít spoustu různých využití, vyžadující různé přístupy k jejich popisu a uchovávání. Příklady jako tento dokazují, že je důležité naučit se s daty správně zacházet.
Dá se odhadnout, jak dlouho bude trvat, než se správa a ukládání dat ve všech oborech ustálí? A ustálí se vůbec nebo je předpoklad, že se i ukládání dat bude stále vyvíjet?
Doufám, že se to bude vyvíjet kontinuálně, podobně jako se dodnes vyvíjí třeba publikace. Vědci publikují stovky let a dnes už máme ustálené formáty, fóra a vydavatele. Přitom jsme ale teprve nedávno zjistili, že máme problém s tzv. persistentními identifikátory. Autor se donedávna podepisoval jen svým jménem, ale dnes můžeme mít několik vědců se stejným jménem. Pokud chci opravdu vědět, kdo je autor, musím použít nějaký identifikátor, nějakou analogii k rodnému číslu, ID výzkumníka. A to je něco, co jsme do publikací zanesli poměrně nedávno. Takže i tak zdánlivě triviální věc jako přepsat vědecký výsledek na kus papíru a dát to mezi vědce, se dodnes vyvíjí. S daty to bude ještě složitější, ještě živelnější. Určitě to není něco, co vyřešíme do pěti nebo deseti let, a pak se to zakonzervuje.
Jak teď vypadá správa vědeckých dat, v jakém je stadiu a jak by ideálně vypadat měla?
Nikdo neví, jak by měla správa vědeckých dat ideálně vypadat. Vědecké komunity už ale tuto otázku prozatím poměrně nesměle diskutují. Zároveň je ten stav v různých státech a v různých doménách skutečně velice odlišný. Na individuální úrovni jsou tu již dnes někteří výzkumníci, kteří se o svá data starají, jak nejlépe umí – buď s nimi potřebují systematicky pracovat oni sami nebo vidí potenciál k jejich opětovnému využití a ochotně je sdílejí se svými kolegy. A pak jsou tací, kteří svá data nedají ven za žádnou cenu. To, co má národní iniciativa vyřešit, je posunout to plošně někam dál.
Na evropské i české úrovni už začínáme vidět posun v plánovaní práce s daty. Existují takzvané Data Management plány, a pokud si dnes podám výzkumný projekt a žádám o finance na výzkum, grantové agentury se mě skrze ně zeptají, co plánuji s daty dělat. Tedy i samotní poskytovatelé financí vidí hodnotu ve výzkumných datech. Někteří vydavatelé už dnes chtějí, abych data k publikaci přiložil, takže malinké změny už se dějí i v této oblasti. To ještě před pár lety nebylo. A ta naše iniciativa chce svým způsobem ještě přilít olej do ohně – vytvořit kapacitu na to, aby bylo kde ukládat data, vytvořit služby, se kterými se jim bude dobře pracovat, a poskytnout podporu pro vzdělávání.
...
