Data, relace a korelace dat - jak interpretovat data?
Pixabay: Jae Rue
Data jsou základem. Když už je konečně máme, stojíme před novým problémem: co nám vlastně říkají? Chemometrické postupy nám pomohou zjistit, zda data splňují určitou hladinu spolehlivosti. Možná bude třeba zbavit se některých dat, která obsahují tzv. odlehlé hodnoty, které jsou hodně jiné než ostatní. Mohlo dojít k nějaké chybě v měření nebo vyhodnocování. A když takto data vypipláme, učešeme, vyspravíme a upravíme do správného tvaru - co pak s nimi? Co když interpretace výsledků není jasná? Nějaká data máme, ale vlastně nevíme, co nám říkají? Je v nich nějaká informace, která je k něčemu použitelná? Vlastní získání dat může být pracné, ale až jejich interpretace dělá z dat vědeckou studii. Práce výzkumníka je tak podobná zkoumání kriminalisty, který má určitá data, ale zatím neví, co znamenají.
Vysoká škola chemicko-technologická v Praze: Data
Pokud máme jednoduchou úlohu, která spočívá třeba ve zjištění obsahu něčeho v něčem na několika vzorcích, pak jsme možná u konce práce. Sečteme, podtrhneme a máme výsledek. Analyticky zpracujeme a statisticky vyhodnotíme, což nemusí to být jednoduchá práce. Možná k tomu použijeme znalosti výpočtu střední hodnoty, rozptylu, metodu Anova nebo něco jiného. Interpretace výsledků často vychází z toho, co jsme očekávali už na začátku. Možná jsme dost přesně věděli, co chceme. A to jsme změřili a vyhodnotili.
Jednoduše interpretovatelná data jsou například z měření obsahu tuků v určitých výrobcích. Změříme obsahy tuků v máslech od několika výrobců. A pak prostým porovnáním s tabulkami minimálního a maximálního obsahu tuku můžeme vyvodit patřičné závěry. Samo porovnání nemusí být jednoduché, nicméně interpretace dat je známá už od začátku, když jsme začali měřit. Jedná se o odpověď na uzavřenou otázku: splňují měřené vzorky normu nebo ne? Když víme, co chceme, a správně měříme a používáme odpovídající postupy, tak se k výsledku ANO nebo NE dostaneme.
Složitěji interpretovatelná data vyžadují práci s relacemi. Relace nám vlastně naše data relativizují, dávají je do relací. K tomu jsou výborně uzpůsobené a přímo připravené relační databáze. Dovolují pracovat s daty v relacích. A relace mezi daty mohou být velmi složité. Za základní relaci, se kterou se v relačních databázích pracuje, lze považovat relaci 1:N. Jeden prvek může mít N výskytů. V relačních databázích pracujeme s pojmem "tabulka". Do tabulek importujeme naše data. A můžeme mít další tabulky, kde kromě názvu budeme mít třeba i chemické složení, zdravotní rizika nebo údaje o dostupnosti. Když spojíme naše data s těmito tabulkami, nemusíme pracně všude uvádět chemické složení, protože přes relaci se chemická struktura připojí k našim datům.
Užitečné je data a výsledky převést do grafu a podívat se na ně z různých pohledů. Ale co když nám data mohou dát mnohem více informací? Co když data spolu korelují složitějším způsobem? Vztah může být podmíněný nějakým jiným parametrem nebo například podmínkou "když A tak B ale nesmí C". Jak takovéto závislosti zjistit?
Příklad z praxe
Získali jsme data z projektu sledování exprese genů u pilotů. Data o expresi genů byla odebírána spolu s údaji o aktuální hladině alkoholu v krvi. Na odebraných vzorcích krve se pak zjistila exprese genů. Autoři projektu hledali odpověď na jednoduchou otázku: Které geny se nejvíce exprimují při zvyšující se hladině alkoholu v krvi? U těchto genů pak předpokládali, že budou těmi, které stačí sledovat při testech vlivu alkoholu na organismus. Jednalo se tedy o hledání korelace exprese genů s hladinou alkoholu v krvi. Exprese genů se u různých lidí i etnik chovají různě. Závisí třeba na tom, zda jsou dotyční zvyklí alkohol konzumovat nebo na tom, zda jde o Evropana nebo člověka z východu.
Pro hledání vztahů a korelací jsme použili databázový stroj Postgres s interfacem DBeaver a RStudio pro grafy. Po importu dat se tato dají v databázi různě propojovat, filtrovat a zobrazovat. Brzy bylo patrné, že geny se pod vlivem alkoholu chovaly v čase velmi různě. Produkce jedněch nejprve stoupala a pak klesala. Na začátku konzumace alkoholu exprese stoupla, v průběhu konzumace klesla. A u jiných genů to bylo obráceně. Nebo dokonce stoupla, klesla a na konci zase stoupla. Napadla nás otázka: které geny mají podobnou dynamiku exprese? Tedy které geny se chovají při zvyšování hladiny alkoholu podobně u různých lidí? Bylo třeba si vytvořit nástroj, jak sledovat dynamiku exprese. V relační databázi stačilo vytvořit několik funkcí, které změny v expresi převáděly do porovnatelných hodnot. Nalezli jsme pak určité korelace v chování dynamiky exprese některých genů.
Hledání korelací v datech by mělo být základní metodou výzkumu. Stojí za to nad daty přemýšlet a hledat, co je v nich obsaženo. Umět pracovat s daty tak, abychom v nich neviděli jen čísla. Musíme být připraveni na to, že data mohou obsahovat něco, o čem jsme dopředu nevěděli a možná ani netušili. Nezapomeňme ale, že nalezené korelace neznamenají nutně kauzalitu. Ukazují nám určité tendence a možnosti. Napovídají nám, jak a pro co hledat vysvětlení.
Když tedy konečně data máme, naše práce nekončí, ale interpretace dat může začít. Získáním dobrých, spolehlivých dat vědecká práce a dobrodružství poznání nekončí, ale začíná.