Kemoinformatikanın sirlərini açmaq - 1: Giriş

Biz Süni İntellekt (SI) dövründə yaşayırıq və hər gün xəbər lentlərimiz SI ilə bağlı yeniliklərlə dolur. SI-dən istifadə edən avtomobillərdən tutmuş, sizi ruhlandıran və ya iş planı hazırlayan virtual köməkçilərə qədər, SI alətləri həyatımızın bir çox aspektində, o cümlədən elmdə və xüsusilə kimyada əvəzolunmaz hala gəlib. Bu bloq yazısının diqqət mərkəzində də məhz kimya durur.

SI "boom"-unun nisbətən yeni olmasına baxmayaraq, 1960-cı illərdən bəri kimyaya tətbiq olunan SI metodları, informatika və verilənlər elmləri ilə birləşərək kemoinformatika kimi tanınan bir fənnə çevrilmişdir [1]. Bəs kemoinformatikanı bu qədər xüsusi edən nədir? Niyə böyük farmasevtik şirkətləri kemoinformatika şöbələri yaradır? Bu sahəyə artan maraq və diqqət hansı səbəbdən qaynaqlarnır və harada tətbiq olunur? Bu bloq yazısı bu suallara cavab verməyi hədəfləyir.

Kemoinformatika nədir?

Sadə dillə desək, "Kemoinformatika, kimyəvi problemləri həll etmək üçün informatika, verilənlər elmləri və SI metodlarının tətbiqidir." Bu tərif, sadə olsa da, sahənin mahiyyətini əks etdirir. Kemoinformatika kimyəvi məlumatları saxlamaq, idarə etmək, emal etmək, çevirmək və analiz etmək və dəyərli bilik əldə etməkdən ibarətdir.

Bəlkə də düşünürsünüz ki, "Eksperimental verilənlərdən bilik əldə edə bilirəmsə, niyə xüsusi proqram təminatına ehtiyacım olsun?" Əslində, bir neçə verilənlərlə qanunauyğunluqları tapmaq çətin deyil və təcrübələr aparmaqla maddənin həllolma qabiliyyəti və ya toksiklik kimi xassələrini təyin edə bilər. Lakin, onlarla, yüzlərlə, minlərlə və ya hətta milyonlarla birləşmələrlə işləyərkən çətinlik yaranır. Hansı birləşmələri seçməlisiniz? Onların istənilən nəticəni verəcəyini necə bilirsiniz? Minlərlə birləşməni vaxt və resursları riskə ataraq, sınaqdan keçirməyinizə ehtiyac varmı?

Burada, kemoinformatikanın əhəmiyyəti ortaya çıxır.

Sintez üçün mümkün olan birləşmələrin sayı 10⁶⁰-dan çox qiymətləndirilir! (Bu rəqəmi daha aydın təsəvvür etmək üçün açıq şəkildə yazaq: > 1’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000’000.) [2]

Kemoinformatika maşın öyrənməsi (MO) istifadə edərək kimyəvi strukturlar və onların xassələri arasındakı qanunauyğunluqları və əlaqələri müəyyən etməyə kömək edir. Bu əlaqələr, yeni birləşmələrin xassələrini təxmin edən modelləri formalaşdırır. Bu cür modellər kəmiyyət struktur-aktivlik (ingiliscə quantitative structure-activity relationship, QSAR) və ya kəmiyyət struktur-xassə (ingiliscə quantitative structure-property relationship, QSPR) əlaqə modelləri kimi tanınır.

QSAR modelləşdirməsi də daxil olmaqla bir çox kemoinformatika metodlarının mərkəzində molekulyar oxşarlıq prinsipi dayanır: oxşar birləşmələr tez-tez oxşar xassələrə malik olur. Bu prinsip, kimyəvi fəzanın konseptini dəstəkləyir - oxşar birləşmələrlə dolu olan abstrakt, sonsuz fəza. Lipinski və Hopkins'in qeyd etdiyi kimi, bu fəzanı naviqasiya etmək kainatın genişliyini kəşf etmək kimidir [3].

“Kimyəvi fəza, ulduzlar yerinə kimyəvi birləşmələrlə dolu olan və kosmosa bənzəyən geniş bir sahə kimi təsvir edilə bilər.”

— Lipinski və Hopkins, Navigating chemical space for biology and medicine. Nature 432, 855–861 (2004)

**Şəkil 1.** Proqnozlaşdırıcı modelin öyrədilməsi və tətbiqi üçün sadələşdirilmiş iş axınının təsviri.

Digər nəzəri kimya istiqamətləri ilə müqayisə

Kemoinformatika modellərinin, mənşəyi oxşar olan məlumatlara tətbiq olunması tövsiyə olunur. Bu modellər təbiət qanunları deyil, məlumat qanunauyğunluqlardan induktiv öyrənməyə əsaslanır. Varnek və Baskin'in [4] qeyd etdiyi kimi,

“Kemoinformatika, dünyanı hər hansı bir qaydalar toplusu ilə əvvəlcədən təsvir etməyi çox mürəkkəb hesab edir. Biliklərin natamamlığı, fərziyyə paradiqmasını dəyişdirir: dəqiq həllər axtarmaq əvəzinə, kemoinformatika ehtimal nəzəriyyəsi ilə kəmiyyətləndirilmiş mümkün səbəbləri tətbiq edir. Kemoinformatikada qaydalar (modellər) dəqiq fiziki modellərdən açıq şəkildə deyil, məlumatlardan induktiv olaraq öyrənilir. Beləliklə, induktiv öyrənmədə modellər məlumatlarda olan qanunauyğunluqların ümumiləşdirilməsinin nəticəsidir.”

— Varnek və Baskin, Chemoinformatics as a Theoretical Chemistry Discipline. Molecular Informatics 30 (1), 20-32 (2011)

Kvant kimyası və qüvvə sahələrinə əsaslanan molekulyar modelləşdirmə kimi deduktiv metodlardan fərqli olaraq, kemoinformatika induktiv metodlardan istifadə edir. Bu metodlar məlumat qanunauyğunluqlarını ümumiləşdirir, onlara əsasən modellər yaradır və sərt fiziki qanunlarına əsaslanmır. Məsələn, kvant kimyası elektronlar və nüvələri Şrödinger dalğa tənliyi və Funksional Sıxlıq Nəzəriyyəsi (ingiliscə Density Functional Theory) istifadə edərək araşdırır. Bu deduktiv yanaşma ümumi fiziki modelləri xüsusi molekullara tətbiq edir. Qüvvə sahəsi (QS; ingiliscə force field) yanaşması, klassik mexanika ilə birləşərək molekulyar trayektoriyaları və potensial enerjini hesablayır.

Hər bir nəzəri fənn vacibdir və özünə məxsus məqsədə xidmət edir. Fərqlərinə baxmayaraq, fənnlərarası yanaşmalar ortaya çıxır. Satoh və başqaları [5] tərəfindən aparılan son tədqiqatlar, kvant kimyası və kemoinformatika metodlarını birləşdirərək yeni molekullar və reaksiyaları kəşf etməyi araşdırır.

**Şəkil 2.** Deduktiv və induktiv yanaşmalarda iştirak edən intellekt və proses səviyyələri.

Tətbiq sahələri

Kemoinformatikanın çoxşaxəli olması onu müxtəlif sahələrdə dəyərli edir; vaxt, material və insan resurslarına qənaət edir. Bu, tək birləşmələrdən daha mürəkkəb obyektlərə, qarışıqlara [6] və kimyəvi reaksiyalara [7, 8] qədər genişlənir və tətbiq edilir:

Ən effektiv olan birləşmələri müəyyən etmək üçün milyonlarla birləşmənin virtual skrininqi
Məlumat paylanmasını daha yaxşı başa düşmək üçün kimyəvi fəzanın vizuallaşdırılması
Arzu olunan xassələrə malik olan yeni molekulların yaradılması
Eksperimental məlumatların keyfiyyətinə nəzarət
Kimyəvi kitabxana dizaynı
Xassələrə təsir edən əsas molekulyar xüsusiyyətlərin müəyyənləşdirilməsi

**Şəkil 3.** Skrininq və təcrübələrdə istifadə edilən insan, material və vaxt resursları.

Kemoinformatika dərman kəşfində xüsusilə diqqətəlayiqdir: vədedici molekulların müəyyən edilməsini əhəmiyyətli dərəcədə sürətləndirir. Son tədqiqatlardan biri [9] göstərdi ki, SI tərəfindən kəşf edilən molekulların 1-ci faza klinik sınaqlarda uğur nisbəti 80-90% təşkil edir, tarixi ortalamalarla müqayisədə isə, bu faiz 40-65%-dir. Əlavə olaraq, birləşmələr kitabxanasının hazırlanmasının yüksək qiyməti kemoinformatikanın resurs qənaətində dəyərini vurğulayır. Goodnou-a görə [10], bir milyon birləşmədən ibarət kitabxananın yüksək səviyyəli skrininq məqsədi ilə hazırlanması üçün orta qiymət təxminən 50 milyon ilə 5 milyard USD arasında dəyişir; kitabxananın sınaqdan keçirilməsinin təxminən qiyməti isə 100’000-dən 200’000 USD-ə qədər dəyişir. Kemoinformatikanı istifadə edərək bu kitabxanadan bir neçə yüz birləşməni seçib sintez etmək və sınaqdan keçirmək vasitəsilə resursların böyük hissəsinə qənaət etmək olar.

Dərman kəşfi ilə yanaşı [11], kemoinformatika materialşünaslıq [12, 13], qida elmi [14, 15], kənd təsərrüfatı [16-18], kimya mühəndisliyi [19-21], ətraf mühit elmi [22, 23], təhlükəsizlik və toksikologiya [24] kimi sahələrdə də tətbiq olunur.

**Şəkil 4.** Kemoinformatika və onun tətbiq sahələri.

Nəticə

Kemoinformatika, informatika, verilənlər elmi və SI istifadə edərək kimyəvi problemləri həll edən və kimyəvi verilənlərdən anlayışlar çıxaran multidissiplinar bir sahədir. Texnologiya inkişaf etdikcə, kemoinformatika üzrə mütəxəssislərin istifadə etdiyi alətlər də inkişaf edir, o cümlədən generativ SI [26] və böyük dil modelləri (ingiliscə large language model, LLM) [26]. Hesablama əsaslı dərman dizaynı şirkətlərinin [27] və elmi tədqiqat nəşrlərinin [28, 29] sayının artması kemoinformatikanın əhəmiyyətini və məşhurluğunu artırır.

Kemoinformatika marağınızı çəkdimi? Bu sahədə karyera qurmaq üçün lazımi bacarıqlara sahib olub-olmadığınızı düşünürsünüz? Spoiler: sahib olduğunuz bacarıqlar kifayətdir! Gələcək bloq yazılarımda mövcud kemoinformatika üzrə mütəxəssislərin keçdiyi müxtəlif öyrənmə yollarını paylaşacağam və bu maraqlı sahədə səyahətinizə başlamaq üçün resurslar təqdim edəcəyəm.

Ədəbiyyat siyahısı

Gasteiger, J. The Central Role of Chemoinformatics. Chemometrics and Intelligent Laboratory Systems 2006, 82 (1–2), 200–209. https://doi.org/10.1016/j.chemolab.2005.06.022.
Dobson, C. M. Chemical Space and Biology. Nature 2004, 432 (7019), 824–828. https://doi.org/10.1038/nature03192.
Lipinski, C.; Hopkins, A. Navigating Chemical Space for Biology and Medicine. Nature 2004, 432 (7019), 855–861. https://doi.org/10.1038/nature03193.
Varnek, A.; Baskin, I. I. Chemoinformatics as a Theoretical Chemistry Discipline. Molecular Informatics 2011, 30 (1), 20–32. https://doi.org/10.1002/minf.201000100.
Satoh, H.; Steiner, V.-M.; Hutter, J. “Quantum-Chemoinformatics” for Design and Discovery of New Molecules and Reactions. March 8, 2024. https://doi.org/10.26434/chemrxiv-2024-808lg.
Muratov, E. N.; Varlamova, E. V.; Artemenko, A. G.; Polishchuk, P. G.; Kuz’min, V. E. Existing and Developing Approaches for QSAR Analysis of Mixtures. Molecular Informatics 2012, 31 (3–4), 202–221. https://doi.org/10.1002/minf.201100129.
Rakhimbekova, A.; Madzhidov, T. I.; Nugmanov, R. I.; Gimadiev, T. R.; Baskin, I. I.; Varnek, A. Comprehensive Analysis of Applicability Domains of QSPR Models for Chemical Reactions. IJMS 2020, 21 (15), 5542. https://doi.org/10.3390/ijms21155542.
Schwaller, P.; Vaucher, A. C.; Laplaza, R.; Bunne, C.; Krause, A.; Corminboeuf, C.; Laino, T. Machine Intelligence for Chemical Reaction Space. WIREs Comput Mol Sci 2022, 12 (5), e1604. https://doi.org/10.1002/wcms.1604.
Kp Jayatunga, M.; Ayers, M.; Bruens, L.; Jayanth, D.; Meier, C. How Successful Are AI-Discovered Drugs in Clinical Trials? A First Analysis and Emerging Lessons. Drug Discovery Today 2024, 29 (6), 104009. https://doi.org/10.1016/j.drudis.2024.104009.
Goodnow, R. A. The Changing Feasibility and Economics of Chemical Diversity Exploration with DNA‐Encoded Combinatorial Approaches. In A Handbook for DNA‐Encoded Chemistry; Goodnow, R. A., Ed.; Wiley, 2014; pp 417–426. https://doi.org/10.1002/9781118832738.ch18.
Pun, F. W.; Ozerov, I. V.; Zhavoronkov, A. AI-Powered Therapeutic Target Discovery. Trends in Pharmacological Sciences 2023, 44 (9), 561–572. https://doi.org/10.1016/j.tips.2023.06.010.
Yosipof, A.; Shimanovich, K.; Senderowitz, H. Materials Informatics: Statistical Modeling in Material Science. Molecular Informatics 2016, 35 (11–12), 568–579. https://doi.org/10.1002/minf.201600047.
Adams, N. Polymer Informatics. In Polymer Libraries; Meier, M. A. R., Webster, D. C., Eds.; Advances in Polymer Science; Springer Berlin Heidelberg: Berlin, Heidelberg, 2010; Vol. 225, pp 107–149. https://doi.org/10.1007/12_2009_18.
Peña‐Castillo, A.; Méndez‐Lucio, O.; Owen, J. R.; Martínez‐Mayorga, K.; Medina‐Franco, J. L. Chemoinformatics in Food Science. In Applied Chemoinformatics; Engel, T., Gasteiger, J., Eds.; Wiley, 2018; pp 501–525. https://doi.org/10.1002/9783527806539.ch10.
Martinez-Mayorga, K.; Medina-Franco, J. L. Chapter 2 Chemoinformatics—Applications in Food Chemistry. In Advances in Food and Nutrition Research; Elsevier, 2009; Vol. 58, pp 33–56. https://doi.org/10.1016/S1043-4526(09)58002-3.
Mashabela, M. D.; Masamba, P.; Kappo, A. P. Metabolomics and Chemoinformatics in Agricultural Biotechnology Research: Complementary Probes in Unravelling New Metabolites for Crop Improvement. Biology 2022, 11 (8), 1156. https://doi.org/10.3390/biology11081156.
Chen, D.; Hao, G.; Song, B. Finding the Missing Property Concepts in Pesticide-Likeness. J. Agric. Food Chem. 2022, 70 (33), 10090–10099. https://doi.org/10.1021/acs.jafc.2c02757.
Barcelos, M. P.; Da Silva, C. H. T. D. P. In Silico Approaches in Pesticides. In Trends and Innovations in Energetic Sources, Functional Compounds and Biotechnology; Taft, C. A., De Almeida, P. F., Eds.; Engineering Materials; Springer Nature Switzerland: Cham, 2024; pp 335–351. https://doi.org/10.1007/978-3-031-46545-1_17.
Creton, B. Chemoinformatics at IFP Energies Nouvelles: Applications in the Fields of Energy, Transport, and Environment. Molecular Informatics 2017, 36 (10), 1700028. https://doi.org/10.1002/minf.201700028.
Solov’ev, V. P.; Oprisiu, I.; Marcou, G.; Varnek, A. Quantitative Structure–Property Relationship (QSPR) Modeling of Normal Boiling Point Temperature and Composition of Binary Azeotropes. Ind. Eng. Chem. Res. 2011, 50 (24), 14162–14167. https://doi.org/10.1021/ie2018614.
Oprisiu, I.; Varlamova, E.; Muratov, E.; Artemenko, A.; Marcou, G.; Polishchuk, P.; Kuz’min, V.; Varnek, A. QSPR Approach to Predict Nonadditive Properties of Mixtures. Application to Bubble Point Temperatures of Binary Mixtures of Liquids. Molecular Informatics 2012, 31 (6–7), 491–502. https://doi.org/10.1002/minf.201200006.
Ljoncheva, M.; Stepišnik, T.; Džeroski, S.; Kosjek, T. Cheminformatics in MS-Based Environmental Exposomics: Current Achievements and Future Directions. Trends in Environmental Analytical Chemistry 2020, 28, e00099. https://doi.org/10.1016/j.teac.2020.e00099.
Lai, A. Cheminformatics and Computational Approaches for Identifying and Managing Unknown Chemicals in the Environment. 2022.
Chemometrics and Cheminformatics in Aquatic Toxicology, 1st ed.; Roy, K., Ed.; Wiley, 2021. https://doi.org/10.1002/9781119681397.
Gangwal, A.; Lavecchia, A. Unleashing the Power of Generative AI in Drug Discovery. Drug Discovery Today 2024, 29 (6), 103992. https://doi.org/10.1016/j.drudis.2024.103992.
M. Bran, A.; Cox, S.; Schilter, O.; Baldassari, C.; White, A. D.; Schwaller, P. Augmenting Large Language Models with Chemistry Tools. Nat Mach Intell 2024, 6 (5), 525–535. https://doi.org/10.1038/s42256-024-00832-8.
Nagra, N. S.; Bleys, J.; Champagne, D.; Devereson, A.; Macak, M. Understanding the Company Landscape in AI-Driven Biopharma R&D. Biopharma Dealmakers 2023. https://doi.org/10.1038/d43747-023-00020-4.
Prati, R. C.; Rodrigues, B. S. M.; Aragão, I.; Soares, T. A.; Quiles, M. G.; Da Silva, J. L. F. The Impact of Interdisciplinary, Gender and Geographic Distributions on the Citation Patterns of the Journal of Chemical Information and Modeling. J. Chem. Inf. Model. 2024, 64 (4), 1107–1111. https://doi.org/10.1021/acs.jcim.3c02014.
Willett, P. Commentary: The First Twelve Years of the Journal of Cheminformatics. J Cheminform 2022, 14 (1), 38. https://doi.org/10.1186/s13321-022-00617-4.