2027-143-4

Aplikace Tsetlin Machines na QSPR

Vedoucí práce: Ivan Čmelo

Konzultant: Paul Clarke

Podstata a cíl práce

Quantitative Structure-Property Relationship (QSPR) je typ metod používaných v chemii pro výpočetní odhad zájmových vlastností chemických látek, jako např. rozpustnost ve vodě, stabilita, bod tání apod. na základě jejich chemické struktury. Běžně se na odhad těchto vlastností používají standardní modely strojového učení, jako např. random forest, extreme gradient boosting, nebo i neuronové sítě. Existují však i jiné typy modelů, které jsou v cheminformatickém kontextu ještě málo prozkoumané, zejména tzv. Tsetlin Machines (TM). TM jsou v principu stavové automaty fungující podobně jako neuronové sítě, avšak s diskrétními stavy místo arbitrárních vah a výrazy výrokové logiky jako obdobou neuronů. Potenciál nasazení TM na cheminformatické problémy, zejména QSPR, nebyl ještě prozkoumán. Cílem práce je nasazení TM na odhad fyzikálně chemické vlastnosti, např. rozpustnosti ve vodě, kvantitativní porovnání jejího pozorovaného výkonu se standardními modely, jako random forest nebo gradient boosting, a implementace vhodného workflow umožňujícího odhad vybrané vlastnosti pro uživatelem danou chemickou strukturu prostřednictvím TM a popř. dalších testovaných typů modelů.

Náplň činnosti studenta

- Rešerše stávajících postupů a nástrojů pro QSPR - Seznámení se se základy fungování Tsetlin Machines a jejich současnou implementací - Příprava datových množin pro trénování a testování QSPR modelů - Trénování a testování Tsetlin Machine a vybraných referenčních modelů, jako random forest nebo gradient boosting - Kvantitativní porovnání výkonu jednotlivých modelů - Implementace uživatelsky spustitelného workflow, které umožní odhad vybrané chemické vlastnosti pro uživatelem zadanou strukturu

Doplňující informace

Místo řešení: Ústav informatiky a chemie (143)

Téma je možné zvolit pro následující specializace