Data, relace a korelace dat - jak interpretovat data?

Čt, 21.11.2019
| Originální článek z: Vysoká škola chemicko-technologická v Praze
Data jsou základem. Když už je konečně máme, stojíme před novým problémem: co nám vlastně říkají?
Pixabay: Jae Rue

Pixabay: Jae Rue

Data jsou základem. Když už je konečně máme, stojíme před novým problémem: co nám vlastně říkají? Chemometrické postupy nám pomohou zjistit, zda data splňují určitou hladinu spolehlivosti. Možná bude třeba zbavit se některých dat, která obsahují tzv. odlehlé hodnoty, které jsou hodně jiné než ostatní. Mohlo dojít k nějaké chybě v měření nebo vyhodnocování. A když takto data vypipláme, učešeme, vyspravíme a upravíme do správného tvaru - co pak s nimi? Co když interpretace výsledků není jasná? Nějaká data máme, ale vlastně nevíme, co nám říkají? Je v nich nějaká informace, která je k něčemu použitelná? Vlastní získání dat může být pracné, ale až jejich interpretace dělá z dat vědeckou studii. Práce výzkumníka je tak podobná zkoumání kriminalisty, který má určitá data, ale zatím neví, co znamenají.

Vysoká škola chemicko-technologická v Praze: Data

Pokud máme jednoduchou úlohu, která spočívá třeba ve zjištění obsahu něčeho v něčem na několika vzorcích, pak jsme možná u konce práce. Sečteme, podtrhneme a máme výsledek. Analyticky zpracujeme a statisticky vyhodnotíme, což nemusí to být jednoduchá práce. Možná k tomu použijeme znalosti výpočtu střední hodnoty, rozptylu, metodu Anova nebo něco jiného. Interpretace výsledků často vychází z toho, co jsme očekávali už na začátku. Možná jsme dost přesně věděli, co chceme. A to jsme změřili a vyhodnotili.

Jednoduše interpretovatelná data jsou například z měření obsahu tuků v určitých výrobcích. Změříme obsahy tuků v máslech od několika výrobců. A pak prostým porovnáním s tabulkami minimálního a maximálního obsahu tuku můžeme vyvodit patřičné závěry. Samo porovnání nemusí být jednoduché, nicméně interpretace dat je známá už od začátku, když jsme začali měřit. Jedná se o odpověď na uzavřenou otázku: splňují měřené vzorky normu nebo ne? Když víme, co chceme, a správně měříme a používáme odpovídající postupy, tak se k výsledku ANO nebo NE dostaneme.

Složitěji interpretovatelná data vyžadují práci s relacemi. Relace nám vlastně naše data relativizují, dávají je do relací. K tomu jsou výborně uzpůsobené a přímo připravené relační databáze. Dovolují pracovat s daty v relacích. A relace mezi daty mohou být velmi složité. Za základní relaci, se kterou se v relačních databázích pracuje, lze považovat relaci 1:N. Jeden prvek může mít N výskytů. V relačních databázích pracujeme s pojmem "tabulka". Do tabulek importujeme naše data. A můžeme mít další tabulky, kde kromě názvu budeme mít třeba i chemické složení, zdravotní rizika nebo údaje o dostupnosti. Když spojíme naše data s těmito tabulkami, nemusíme pracně všude uvádět chemické složení, protože přes relaci se chemická struktura připojí k našim datům.

Užitečné je data a výsledky převést do grafu a podívat se na ně z různých pohledů. Ale co když nám data mohou dát mnohem více informací? Co když data spolu korelují složitějším způsobem? Vztah může být podmíněný nějakým jiným parametrem nebo například podmínkou "když A tak B ale nesmí C". Jak takovéto závislosti zjistit?

Příklad z praxe

Získali jsme data z projektu sledování exprese genů u pilotů. Data o expresi genů byla odebírána spolu s údaji o aktuální hladině alkoholu v krvi. Na odebraných vzorcích krve se pak zjistila exprese genů. Autoři projektu hledali odpověď na jednoduchou otázku: Které geny se nejvíce exprimují při zvyšující se hladině alkoholu v krvi? U těchto genů pak předpokládali, že budou těmi, které stačí sledovat při testech vlivu alkoholu na organismus. Jednalo se tedy o hledání korelace exprese genů s hladinou alkoholu v krvi. Exprese genů se u různých lidí i etnik chovají různě. Závisí třeba na tom, zda jsou dotyční zvyklí alkohol konzumovat nebo na tom, zda jde o Evropana nebo člověka z východu.

Pro hledání vztahů a korelací jsme použili databázový stroj Postgres s interfacem DBeaver a RStudio pro grafy. Po importu dat se tato dají v databázi různě propojovat, filtrovat a zobrazovat. Brzy bylo patrné, že geny se pod vlivem alkoholu chovaly v čase velmi různě. Produkce jedněch nejprve stoupala a pak klesala. Na začátku konzumace alkoholu exprese stoupla, v průběhu konzumace klesla. A u jiných genů to bylo obráceně. Nebo dokonce stoupla, klesla a na konci zase stoupla. Napadla nás otázka: které geny mají podobnou dynamiku exprese? Tedy které geny se chovají při zvyšování hladiny alkoholu podobně u různých lidí? Bylo třeba si vytvořit nástroj, jak sledovat dynamiku exprese. V relační databázi stačilo vytvořit několik funkcí, které změny v expresi převáděly do porovnatelných hodnot. Nalezli jsme pak určité korelace v chování dynamiky exprese některých genů.

Hledání korelací v datech by mělo být základní metodou výzkumu. Stojí za to nad daty přemýšlet a hledat, co je v nich obsaženo. Umět pracovat s daty tak, abychom v nich neviděli jen čísla. Musíme být připraveni na to, že data mohou obsahovat něco, o čem jsme dopředu nevěděli a možná ani netušili. Nezapomeňme ale, že nalezené korelace neznamenají nutně kauzalitu. Ukazují nám určité tendence a možnosti. Napovídají nám, jak a pro co hledat vysvětlení.

Když tedy konečně data máme, naše práce nekončí, ale interpretace dat může začít. Získáním dobrých, spolehlivých dat vědecká práce a dobrodružství poznání nekončí, ale začíná.

Vysoká škola chemicko-technologická v Praze
 

Mohlo by Vás zajímat

Analysis of Elemental Impurities in Lithium-Ion Battery Electrolyte Solvents by ICP-MS

Instrumentace
ICP/MS
Výrobce
Agilent Technologies
Zaměření
Průmysl a chemie, Materiálová analýza

Void Analysis and Shape Analysis of Automobile Inverter Components with X-Ray CT System

Instrumentace
X-ray
Výrobce
Shimadzu
Zaměření
Materiálová analýza

Jak rychle najít ty správné informace od Altium International (Portály LabRulezICPMS)

Instrumentace
ICP/MS, ICP/OES, AAS, ICP/MS/MS, MP/ICP-AES
Výrobce
Agilent Technologies
Zaměření
---

Assay of Alkali Metals in Pegmatite and Spodumene Ores by ICP-OES

Instrumentace
ICP/OES
Výrobce
Agilent Technologies
Zaměření
Životní prostředí

Assessing the Platinum Group Metal Content in Car Catalyst Recycling Materials by ICP-OES

Instrumentace
ICP/OES
Výrobce
Agilent Technologies
Zaměření
Materiálová analýza
 

Podobné články


Článek | Potraviny

Pít či nepít?

Co když už na Nový rok potřebuji jet autem? Stačí čtyři až pět hodin spánku? Stačí sníst něco mastného, popřípadě vypít hodně minerálky? Pojďme teď s odborníkem tyto fámy a mýty zbořit.

Článek | Zdraví

Ke zkoumání nemocí potřebujeme lepší data. Získáme je v Brně.

Martin Bobák zkoumá, co může za civilizační nemoci jako je Alzheimerova choroba, ADHD nebo alergie. Nový projekt CETOCOEN Excellence (RECETOX), dá jemu i dalším vědcům přesnější data nutná k pokroku ve výzkumu.

Článek | Různé

Pavel Tomančák: Chci dát české vědě to, co jsem se naučil za 25 let v zahraničí

Při příležitosti jmenování evolučního biologa Pavla Tomančáka do čela konsorcia CEITEC jsme si povídali o jeho plánech.
 

Podobné články


Článek | Potraviny

Pít či nepít?

Co když už na Nový rok potřebuji jet autem? Stačí čtyři až pět hodin spánku? Stačí sníst něco mastného, popřípadě vypít hodně minerálky? Pojďme teď s odborníkem tyto fámy a mýty zbořit.

Článek | Zdraví

Ke zkoumání nemocí potřebujeme lepší data. Získáme je v Brně.

Martin Bobák zkoumá, co může za civilizační nemoci jako je Alzheimerova choroba, ADHD nebo alergie. Nový projekt CETOCOEN Excellence (RECETOX), dá jemu i dalším vědcům přesnější data nutná k pokroku ve výzkumu.

Článek | Různé

Pavel Tomančák: Chci dát české vědě to, co jsem se naučil za 25 let v zahraničí

Při příležitosti jmenování evolučního biologa Pavla Tomančáka do čela konsorcia CEITEC jsme si povídali o jeho plánech.
 

Podobné články


Článek | Potraviny

Pít či nepít?

Co když už na Nový rok potřebuji jet autem? Stačí čtyři až pět hodin spánku? Stačí sníst něco mastného, popřípadě vypít hodně minerálky? Pojďme teď s odborníkem tyto fámy a mýty zbořit.

Článek | Zdraví

Ke zkoumání nemocí potřebujeme lepší data. Získáme je v Brně.

Martin Bobák zkoumá, co může za civilizační nemoci jako je Alzheimerova choroba, ADHD nebo alergie. Nový projekt CETOCOEN Excellence (RECETOX), dá jemu i dalším vědcům přesnější data nutná k pokroku ve výzkumu.

Článek | Různé

Pavel Tomančák: Chci dát české vědě to, co jsem se naučil za 25 let v zahraničí

Při příležitosti jmenování evolučního biologa Pavla Tomančáka do čela konsorcia CEITEC jsme si povídali o jeho plánech.
 

Podobné články


Článek | Potraviny

Pít či nepít?

Co když už na Nový rok potřebuji jet autem? Stačí čtyři až pět hodin spánku? Stačí sníst něco mastného, popřípadě vypít hodně minerálky? Pojďme teď s odborníkem tyto fámy a mýty zbořit.

Článek | Zdraví

Ke zkoumání nemocí potřebujeme lepší data. Získáme je v Brně.

Martin Bobák zkoumá, co může za civilizační nemoci jako je Alzheimerova choroba, ADHD nebo alergie. Nový projekt CETOCOEN Excellence (RECETOX), dá jemu i dalším vědcům přesnější data nutná k pokroku ve výzkumu.

Článek | Různé

Pavel Tomančák: Chci dát české vědě to, co jsem se naučil za 25 let v zahraničí

Při příležitosti jmenování evolučního biologa Pavla Tomančáka do čela konsorcia CEITEC jsme si povídali o jeho plánech.