2027-143-4
Vedoucí práce: Ivan Čmelo
Konzultant: Paul Clarke
Quantitative Structure-Property Relationship (QSPR) je typ metod používaných v chemii pro výpočetní odhad zájmových vlastností chemických látek, jako např. rozpustnost ve vodě, stabilita, bod tání apod. na základě jejich chemické struktury. Běžně se na odhad těchto vlastností používají standardní modely strojového učení, jako např. random forest, extreme gradient boosting, nebo i neuronové sítě. Existují však i jiné typy modelů, které jsou v cheminformatickém kontextu ještě málo prozkoumané, zejména tzv. Tsetlin Machines (TM). TM jsou v principu stavové automaty fungující podobně jako neuronové sítě, avšak s diskrétními stavy místo arbitrárních vah a výrazy výrokové logiky jako obdobou neuronů. Potenciál nasazení TM na cheminformatické problémy, zejména QSPR, nebyl ještě prozkoumán. Cílem práce je nasazení TM na odhad fyzikálně chemické vlastnosti, např. rozpustnosti ve vodě, kvantitativní porovnání jejího pozorovaného výkonu se standardními modely, jako random forest nebo gradient boosting, a implementace vhodného workflow umožňujícího odhad vybrané vlastnosti pro uživatelem danou chemickou strukturu prostřednictvím TM a popř. dalších testovaných typů modelů.
- Rešerše stávajících postupů a nástrojů pro QSPR - Seznámení se se základy fungování Tsetlin Machines a jejich současnou implementací - Příprava datových množin pro trénování a testování QSPR modelů - Trénování a testování Tsetlin Machine a vybraných referenčních modelů, jako random forest nebo gradient boosting - Kvantitativní porovnání výkonu jednotlivých modelů - Implementace uživatelsky spustitelného workflow, které umožní odhad vybrané chemické vlastnosti pro uživatelem zadanou strukturu
Místo řešení: Ústav informatiky a chemie (143)