Vědci z CIIRC a ÚOCHB stojí v čele iniciativy pro objevování molekul s využitím umělé inteligence

- Foto: ÚOCHB: Vědci z CIIRC a ÚOCHB stojí v čele iniciativy pro objevování molekul s využitím umělé inteligence
- Video: PolarisHQ: MassSpecGym: A benchmark for the discovery and identification of molecules
Bratři Roman a Anton Bushuievovi z týmů Tomáše Pluskala z ÚOCHB a Josefa Šivice z Českého institutu informatiky, robotiky a kybernetiky ČVUT v Praze (CIIRC ČVUT) vloni zahájili spolupráci s odborníky ze 14 výzkumných institucí po celém světě na procesu systematického srovnávání a hodnocení metod umělé inteligence využívaných pro objevování molekul z dat hmotnostní spektrometrie. Cílem společného projektu s názvem MassSpecGym je podnítit vývoj další generace modelů strojového učení pro identifikaci nových přírodních molekul s využitím ve vývoji léčiv, ve vědách o životním prostředí nebo v kosmickém výzkumu.
První úspěch na sebe nenechal dlouho čekat. Výsledky této mezioborové iniciativy byly v prosinci 2024 prezentovány na jedné z nejvýznamnějších světových konferencí o strojovém učení – NeurIPS 2024 ve Vancouveru.
Objevování malých molekul významně ovlivňuje řadu vědeckých oblastí, jako je organická chemie, molekulární biologie, vývoj léčiv a environmentální analýza. Navzdory významnému pokroku se ale zatím podařilo odhalit jen malý zlomek molekulární rozmanitosti života.
ÚOCHB: Vědci z CIIRC a ÚOCHB stojí v čele iniciativy pro objevování molekul s využitím umělé inteligence: Výzkumníci z CIIRC ČVUT a ÚOCHB AV ČR prezentující MassSpecGym na konferenci NeurIPS 2024 ve Vancouveru, 13. prosince 2024 – zleva doprava: Raman Samusevich, Anton Bushuiev, Roman Bushuiev.
Základní metodou pro identifikaci molekulárních struktur z biologických a environmentálních vzorků je tandemová hmotnostní spektrometrie. Ta umožňuje využití při objevování biologicky aktivních sloučenin pro vývoj léčiv, optimalizaci dávkování léčiv v klinické praxi nebo detekci stopových množství znečišťujících látek v životním prostředí. Podstatou tandemové hmotnostní spektrometrie je fragmentace molekul a záznam hmotností těchto fragmentů.
„Z typického biologického nebo environmentálního vzorku je možné změřit tisíce tandemových hmotnostních spekter, z nichž každé zpravidla představuje samostatnou molekulu. Popis těchto spekter pomocí molekulárních struktur je však stále výzva, přičemž pomocí nejmodernějších metod strojového učení se podaří popsat méně než 10 % spekter. Velká část chemického prostoru tak zůstává neobjevená, což brzdí další vědecký a technologický pokrok,“ říká Tomáš Pluskal z ÚOCHB.
V současné době je vývoj metod umělé inteligence (AI) pro hmotnostní spektrometrii omezen tím, že chybí dobře standardizované trénovací datové sady a hodnotící protokoly. Projekt „MassSpecGym: Benchmark pro objevování a identifikaci molekul“ toto omezení řeší.
„Standardizované benchmarky strojového učení, jako je ImageNet, způsobily revoluci v oblasti umělé inteligence tím, že určily referenční měřítka vývoje, hodnocení a posuzování pokroku. Podobně navrhujeme referenční standardy pro objevování molekul, které se zaměří na popis tandemových hmotnostních spekter, a snažíme se tím podpořit novou generaci AI modelů pro odhalování dosud neobjevených chemických látek vyskytujících se v přírodě,“ vysvětluje doktorand a hlavní autor projektu Roman Bushuiev.
ÚOCHB: Vědci z CIIRC a ÚOCHB stojí v čele iniciativy pro objevování molekul s využitím umělé inteligence.
MassSpecGym zahrnuje tři základní komponenty: (i) největší veřejně dostupnou datovou sadu tandemových hmotnostních spekter označených molekulárními strukturami, (ii) tři přesně definované úlohy strojového učení, které převádějí proces objevování molekul z hmotnostních spekter do dobře definovaných výpočetních problémů, a (iii) pečlivě vybrané páry hmotnostních spekter a molekul určené k vyhodnocení schopnosti modelů umělé inteligence zobecňovat naučené znalosti na nové molekuly. Kromě toho MassSpecGym poskytuje uživatelsky přívětivou platformu pro vývoj a vyhodnocování nových AI modelů.
Vědecká práce MassSpecGym byla vybrána pro „Spotlight” prezentaci na konferencí o strojovém učení NeurIPS 2024 ve Vancouveru, která je jednou z nejprestižnějších konferencí v oblasti strojového učení a podle Google Scholar se řadí mezi deset nejvýznamnějších časopisů a konferencí na světě.
Tento výzkum je spolufinancován z projektů EU FRONTIER (č. 101097822) a ELIAS (č. 101120237).
Původní článek
R. Bushuiev, A. Bushuiev, N. F. de Jonge, A. Young, F. Kretschmer, R. Samusevich, J. Heirman, F. Wang, L. Zhang, K. Dührkop, M. Ludwig, N. A. Haupt, A. Kalia, C. Brungs, R. Schmid, R. Greiner, B. Wang, D. S. Wishart, L.-P. Liu, J. Rousu, W. Bittremieux, H. Rost, T. D. Mak, S. Hassoun, F. Huber, J. J. J. van der Hooft, M. A. Stravs, S. Böcker, J. Sivic, T. Pluskal, “MassSpecGym: A benchmark for the discovery and identification of molecules”, Advances in Neural Information Processing Systems (NeurIPS), 2024. https://doi.org/10.48550/arXiv.2410.23326
