Martin Kubala: Hodnota poctivé vědecké práce
Přírodovědecká fakulta Univerzity Palackého v Olomouci: Martin Kubala
Současná koronavirová epidemie převrátila naše životy naruby. Míra nejistoty je obrovská, ekonomické dopady astronomické, veřejnost netrpělivě očekává, kdy přijde někdo s řešením. Mohou pomoci vědci? Pro racionální rozhodování nám stále chybí to základní. Vraťme se ke kořenům vědy a dodejme poctivá data, na která bude spolehnutí.
V současnosti je ekonomika u nás i v řadě dalších zemí drcena opatřeními v souvislosti s epidemií koronaviru. Hlubší analýzy přenechám ekonomům, ale pokud vezmeme hrubým odhadem, že schválené zvýšení schodku státního rozpočtu o 160 mld. má být účtem za dva měsíce nejtvrdších omezení a třeba další dva měsíce měkčího režimu, jedná se při konzervativním odhadu o náklady v řádech miliard korun denně, a to se bavíme pouze o státním sektoru.
Když k tomu přidáme otázky osobního diskomfortu v každodenním fungování, pak otázka, kdy ta omezení skončí, pálí každého z nás. A dostáváme se k otázce, na základě čeho rozhodnout, kdy má nějaké opatření skončit? Jak poznat, že už nemá smysl vynakládat na boj proti šíření epidemie tak enormní prostředky?
Vývoj a testování léků a vakcín je běh na dlouhou trať. Spíše než o měsíce půjde o roky. Vzhledem k rychlosti šíření viru pravděpodobně dříve dojde k přirozené ochraně populace tím, že většina lidí nemoc prodělá a bude imunní. Osobně se domnívám, že se s virem dříve či později setká prakticky každý. Odhady typu, že nákaza zasáhne 70 % populace, ve mně nevzbuzují ani tak hrůzu jako spíše otázku, jak se asi dá ochránit těch 30 % populace (aneb analogicky, ukažte mi, jak se dá zajistit, že se 30 % populace nepotká s virem chřipky). Samozřejmě, rychlost šíření a s tím spojená zátěž zdravotního systému je mnohem větší na začátku epidemie, kdy se může nakazit prakticky každý, než později, kdy už je většina populace po prodělání nemoci díky vytvořeným protilátkám imunní. Jak ale poznáme, zda jsme opravdu ještě na začátku, nebo jestli už nejsme ve fázi, kdy se „bráníme proti vlkovi, který už je dávno zabydlený v našem chlívku“? Pro druhou možnost by svědčilo třeba i svědectví závodníků Rallye Daka.
Nástroje vědy
To nejcennější, co může věda nabídnout, je její metodologie. Tedy způsob kladení jasně zodpověditelných otázek (ano/ne, kolik), na ně navazující způsob metodicky správného sběru dat a jejich korektní zpracování a vyhodnocení aparáty matematiky a logiky. Význam testování na úrovních jednotlivce, hygieniků či celé populace už jsme diskutovali jinde, zde vybírám a dále rozvádím úvahy týkající se stavu celé populace.
Populační studie je souborem výsledků vyšetření jednotlivých pacientů a možné výsledky na úrovni jednotlivce jsou tyto: (1) s virem se nepotkal a je zdravý, (2) s virem se potkal, nákazu překonal, je zdravý a předpokládejme, že imunní, (3) s virem se potkal a je nakažen, tedy je přenašeč a dále 3a) je průběh nemoci lehký a dotyčný nepotřebuje specializovanou péči, nebo je 3b) průběh nemoci těžký a dotyčný představuje zátěž pro zdravotní systém, nebo 3c) dotyčný zemřel.
Na úrovni populace pak jde o zjištění poměrného zastoupení výše uvedených stavů v prostoru a čase. Jaké má věda k dispozici nástroje?
(1) Sledování klinických příznaků. To je rychlé, levné, chřipku takto zvládáme s miliony nakažených, ale je těžké určit procenta falešně pozitivních a falešně negativních diagnóz.
(2) PCR (polymerázová řetězová reakce). Ta detekuje přítomnost virové RNA (čili nevidí zdravé a již vyléčené).
(3) ELISA (enzyme-linked immunosorbent assay). Ta detekuje přítomnost protilátek, čili reakci na virus. Nevidí nemocné v počátečním stádiu, ale její výhodou je detekce různých typů protilátek. Kombinací PCR a ELISA už můžeme poměrně slušně zjistit informace o tom, ve kterém časovém okamžiku od nakažení se dotyčný nachází.
(4) Statistické vyhodnocení dat. To by mohla být poměrně rigorózní část výzkumu, ale taky se to dá udělat špatně, třeba když budeme dávat dohromady data získaná pomocí různých metod (např. PCR a ELISA). Je třeba zdůraznit, že důležitým výstupem statistického vyhodnocení jsou nejenom průměrné hodnoty měřených popř. vypočítaných veličin, ale i odhady jejich spolehlivosti (konfidenční intervaly). Například pokud zjistíme, že máme 50 % populace s protilátkami, tak by to mohlo ukazovat na poměrně velkou promořenost populace. Pokud ale ten výsledek bude 50 ± 40 %, tak můžeme maximálně říct, že někdo byl nemocný a někdo ne, ale rozumně kvantifikovat to neumíme. Obdobně pokud bude zastoupení nějaké frakce 20 ± 20%, tak si ani nebudeme jisti, jestli tato frakce je ve vzorku vůbec zastoupena.
(5) Modelování. Asi nejnebezpečnější nástroj, protože se tváří jako rigorózní matematická metoda, ale vždy je to nějaké zjednodušení skutečnosti tak, aby se s tím dalo matematicky pracovat. Všechny faktory nezapočítá nikdo, jen se tváří, že vybral ty nejpodstatnější, což se ale zjistí až při porovnání s reálnými daty. Matematický model je v podstatě mlýnek, do kterého nasypeme nějaká čísla, on je nějak zpracuje a vyplivne čísla jiná. V případě šíření epidemie jde především o vývoj v čase: dobrý model dokáže vysvětlit data předchozí a prubířským kamenem je pro něj shoda s daty budoucími. Kritické ovšem je, že modely pracují s velkým množstvím parametrů, které – pokud nejsou vloženy na základě experimentů – mohou výsledky dost posunout od reality a – jak konstatuji níže –, s kvalitou vstupních dat to není žádná sláva.
Jaká data máme?
Pojďme se podívat, jaká data máme k dispozici. Na webu Ministerstva zdravotnictví nalezneme několik datových řad.
Jednak je to počet provedených testů, není však uvedeno jakých (PCR, ELISA, rychlotesty z Číny, ...). Zaujme i upozornění, že údaj zahrnuje i opakovaná vyšetření provedená u stejných osob (primární a jeden či více posttestů). Pak je tam počet nakažených, který je zjevně už několik dní přímo úměrný počtu provedených testů a nic víc. Dále je tam poměr těchto dvou čísel, což jak jsem uváděl už dříve, by mohlo být z hlediska populace smysluplné číslo. Ovšem jen v případě, že by se jednalo o náhodně vybrané osoby – jenže tito lidé už jsou předvybraní. V současné době tedy tento poměr neukazuje promořenost populace, ale to, jak dobře dokáže hygienik či lékař odhadnout, zda je dotyčný opravdu nakažen. Pokud do toho započítáme i faktor vyšší chybovosti testů, tak promořenost populace, která nás zajímá, je ve výsledku překryta mnohem významnějšími faktory. Pak je tam počet vyléčených, což odráží to, kolika lidem, kteří byli identifikováni jako nakažení, byl udělán opakovaný test s negativním výsledkem. To evidentně souvisí s tím, nakolik někdo uznal za vhodné udělat posttest u uzdraveného člověka, s jakým zpožděním se test udělal, či zda mezitím příslušné nemocnici nedošly testovací sady. A pak je tam počet mrtvých, u kterých někdo prohlásil, že zemřeli na COVID-19. To je číslo do značné míry závislé na tom, co napíše lékař do úmrtního listu. U většiny lidí si asi mohl vybrat z několika různých příčin, naopak u mnoha dalších osob se vyšetření na virus ani nedělalo. Suma sumárum, každé z čísel je zatíženo tolika faktory, které nesouvisí se zdravotním stavem populace, že žádná z datových řad pro epidemiologické účely bez výhrad použitelná není. Data ze zahraničí jsou pravděpodobně zatížena obdobnými chybami. Nedá se bohužel ani vyloučit cílená manipulace s hodnotami z politických důvodů. A to je ohromná škoda, poctivě sesbíraná a rozumně setříděná data by měla dnes i v budoucnu velkou hodnotu.
Jak tedy zjistit reálný zdravotní stav populace?
Jedině nezávislým vyšetřením náhodného vzorku populace – a je dobře, že o tom už vláda začala uvažovat. Koordinátorem celého experimentu by měl být statistik, který by měl mít zmapované všechny kroky a jejich možnou chybovost a možnosti případného selhání s nástroji identifikace takového dílčího selhání. Spolehlivé určení chybovosti všech procedur je klíčové, neboť chyby se kumulují a jedna nespolehlivá procedura může mít za následek takovou neurčitost finálního výsledku, že to může znehodnotit celé testování. Od určení chybovosti se odvíjí i to, jak velký statistický soubor potřebujeme pro získání výsledku s rozumnou chybou nebo to, zda má vůbec smysl dávat dohromady data z testování ve dvou laboratořích. Obecně spíše než rychlé zavádění nových neověřených metod má smysl důkladná validace (tedy jakási kalibrace) těch stávajících.