2024-143-2

Kompilace datových množin chemických látek pro strojové učení

Vedoucí práce: Ing. Ivan Čmelo, Ph.D.

Konzultant: -

Podstata a cíl práce

Vývoj a testování metodologií pro počítačový návrh chemických struktur závisí na dostupných datech o chemických látkách. Cílem práce je pro potřeby cheminformatické komunity agregovat data z veřejně dostupných chemických databází a vytvořit obecně použitelné, bohatě anotované datové množiny pro zájmové kategorie chemických látek (komerčně dostupné látky, známé biologicky aktivní látky, přírodní látky, farmaceutika apod.). Látky budou standardizovány, charakterizovány vhodnými deskriptory, rozděleny do podmnožin pro stratifikované vzorkování a opatřeny metadaty v souladu s “FAIR” principy.

Náplň činnosti studenta

Student bude pracovat s rozsáhlými databázemi chemických struktur v různých formátech (PostgreSQL dumpy, CSV, SDF). Struktury bude parsovat a standardizovat prostřednictvím programovací knihovny RDKit pro jazyk Python. Ke standardizovaným strukturám dopočítá deskriptory a provede scaffoldovou analýzu. Z takto charakterizovaných chemických látek sestaví student hierarchii množin a podmnožin různých kategorií, které opatří vhodnými metadaty.

Doplňující informace

Místo řešení: Ústav informatiky a chemie (143)

Téma je možné zvolit pro následující specializace