2024-143-2
Vedoucí práce: Ing. Ivan Čmelo, Ph.D.
Konzultant: -
Vývoj a testování metodologií pro počítačový návrh chemických struktur závisí na dostupných datech o chemických látkách. Cílem práce je pro potřeby cheminformatické komunity agregovat data z veřejně dostupných chemických databází a vytvořit obecně použitelné, bohatě anotované datové množiny pro zájmové kategorie chemických látek (komerčně dostupné látky, známé biologicky aktivní látky, přírodní látky, farmaceutika apod.). Látky budou standardizovány, charakterizovány vhodnými deskriptory, rozděleny do podmnožin pro stratifikované vzorkování a opatřeny metadaty v souladu s “FAIR” principy.
Student bude pracovat s rozsáhlými databázemi chemických struktur v různých formátech (PostgreSQL dumpy, CSV, SDF). Struktury bude parsovat a standardizovat prostřednictvím programovací knihovny RDKit pro jazyk Python. Ke standardizovaným strukturám dopočítá deskriptory a provede scaffoldovou analýzu. Z takto charakterizovaných chemických látek sestaví student hierarchii množin a podmnožin různých kategorií, které opatří vhodnými metadaty.
Místo řešení: Ústav informatiky a chemie (143)