2025-143-11

Porovnání algoritmů strojového učení pro modelování vztahů mezi strukturou a biologickou aktivitou chemických sloučenin

Vedoucí práce: Ing. Martin Šícho, Ph.D.

Konzultant: -

Podstata a cíl práce

Modelování vztahů mezi biologickou aktivitou a chemickou strukturou látek (Quantitative Structure Activity Relationship, QSAR) představuje klíčový aspekt v oblasti chemoinformatiky a medicinální chemie. Tato disciplína se zabývá vytvářením matematických modelů, které spojují strukturu chemických sloučenin s jejich biologickou aktivitou. Tímto způsobem QSAR umožňuje systematický a racionální přístup k návrhu nových léčiv a biologicky aktivních sloučenin, což má široké uplatnění v lékařském průmyslu, farmaceutickém výzkumu a agrochemii. Cílem této práce je provést porovnání různých modelů strojového učení včetně, ale neomezeně na, algoritmy jako jsou Random Forest, Support Vector Machines (SVM), hluboké neuronové sítě a Gradient Boosting. Tato srovnání budou prováděna na vytvořené validační množině z veřejně dostupných dat, což umožní posoudit, který z těchto algoritmů je nejvhodnější pro modelování vztahů mezi chemickými sloučeninami a biologickou aktivitou (QSAR) v různorodých datových množinách. Výsledky této práce budou mít potenciální dopad na oblast chemoinformatiky a farmakologie tím, že pomohou identifikovat aktuálně nejlepší přístupy k predikci QSAR. Díky otevřenému kódu a integraci s veřejně dostupnými databázemi bude možno tuto analýzu kdykoliv zopakovat a dlouhodobě tak sledovat vývoj v oblasti vývoje léčiv a modelů strojového učení.

Náplň činnosti studenta

Student provede rešerši v oblasti veřejně dostupných dat o biologické aktivitě sloučenin a vytvoří vhodnou validační množinu. Validační množina bude obsahovat rovnoměrné zastoupení proteinových cílů z různých rodin. Tato množina bude pak následně použita k modelování QSAR vztahů pomocí existujících veřejně dostupných nástrojů. Kód pro vytvoření validační množiny a spuštění analýzy bude zveřejněn a zdokumentován.

Doplňující informace

Místo řešení: Ústav informatiky a chemie (143)

Téma je možné zvolit pro následující specializace