А.И. Хайруллина1, Т.И. Маджидов1, Р.И. Нугманов1, В.А. Афонина1, И.И. Баскин2, А.А. Варнек1,3
1Казанский (Приволжский) федеральный университет, г. Казань, 420008, Россия
2Московский государственный университет имени М.В. Ломоносова, г. Москва, 119991, Россия
3Университет Страсбурга, г. Страсбург, 67084, Франция
Полный текст PDF
Аннотация
Ключевым этапом в компьютерном анализе информации о химических реакциях является поиск соответствия между атомами реагентов и продуктов. Процедура установления данного соответствия называется атом-атомным отображением (ААО). Наличие ААО является ключевым фактором для установления механизма и типа реакции, поиска по схожести и подструктуре, моделировании, проверки качества данных. В работе был предложен новый подход к поиску оптимального ААО в химических реакциях, основанный на применении методов машинного обучения. Задача обучения формулируется как классификация: для каждой пары атома реагента – продукта необходимо установить их отнесение к верному/неверному отображению. В работе использовался простой наивный байесовский классификатор. Данная работа представляет собой первый пример самообучающегося алгоритма для создания ААО.
Ключевые слова: атом-атомное отображение, химические реакции, машинное обучение, классификация, хемоинформатика
Благодарности. Работа выполнена при финансовой поддержке Российского научного фонда (проект № 14-43-00024).
Литература
- Varnek A., Fourches D., Hoonakker F., Solov’ev V.P. Substructural fragments: An universal language to encode reactions, molecular and supramolecular structures // J. Comput. Aided. Mol. Des. – 2005. – V. 19, No 9–10. – P. 693–703. – doi: 10.1007/s10822-005-9008-0.
- Chen W.L., Chen D.Z., Taylor K.T. Automatic reaction mapping and reaction center detection // Wiley Interdiscip. Rev. Comput. Mol. Sci. – 2013. – V. 3, No 6. – P. 560–593. – doi: 10.1002/wcms.1140.
- Raymond J.W., Willett P. Maximum common subgraph isomorphism algorithms for the matching of chemical structures // J. Comput. Aided. Mol. Des. – 2002. – V. 16, No 7. – P. 521–533. – doi: 10.1023/A:1021271615909.
- Маджидов Т.И., Баскин И.И., Варнек А.А. Хемоинформатика. Конспект лекций. – Казань: Казан. ун-т, 2014. – 137 с.
- Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Лин А.И., Антипин И.С., Варнек А. Консенсусный подход к созданию атом-атомного отображения в химических реакциях // Бутлеровские сообщ. – 2015. – Т. 44, № 12. – P. 170–176.
- Lynch M.F., Willett P. The automatic detection of chemical reaction sites // J. Chem. Inf. Comput. Sci. – 1978. – V. 18, No 3. – P. 154–159.
- Vleduts G.E. Development of a combined WLN/CTR multilevel approach to the algorithmic analysis of chemical reactions in view of their automatic indexing: Report No. 5399 – London: British Library, Research and Development Department, 1977.
- McGregor J.J. Backtrack search algorithms and the maximal common subgraph problem // Softw. Pract. Exp. – 1982. – V. 12, No 1. – P. 23–34. – doi: 10.1002/spe.4380120103.
- Funatsu K., Endo T., Kotera N., Sasaki S.I. Automatic recognition of reaction site in organic chemical reactions // Tetrahedron Comput. Methodol. – 1988. – V. 1, No 1. – P. 53–69. – doi: 10.1016/0898-5529(88)90008-5.
- Jochum C., Gasteiger J., Ugi I. The Principle of Minimum Chemical Distance (PMCD) // Angew. Chem. Int. Ed. Engl. – 1980. – V. 19, No 7. – P. 495–505. – doi: 10.1002/anie.198004953.
- Akutsu T. Efficient extraction of mapping rules of atoms from enzymatic reaction data // J. Comput. Biol. – 2004. – V. 11, No 2–3. – P. 449–462. – doi: 10.1089/1066527041410337.
- Heinonen M., Lappalainen S., Mielikäinen T., Rousu J. Computing atom mappings for biochemical reactions without subgraph isomorphism // J. Comput. Biol. – 2011. – V. 18, No 1. – P. 43–58. – doi: 10.1089/cmb.2009.0216.
- First E.L., Gounaris C.E., Floudas C.A. Stereochemically consistent reaction mapping and identification of multiple reaction mechanisms through integer linear optimization // J. Chem. Inf. Model. – 2012. – V. 52, No 1. – P. 84–92. – doi: 10.1021/ci200351b.
- Mann M., Nahar F., Schnorr N., Backofen R., Stadler P., Flamm C. Atom mapping with constraint programming // Algorithms Mol. Biol. – 2014. – V. 9, No 23. – P. 1–12. – doi: 10.1186/s13015-014-0023-3.
- Fontain E. The problem of atom-to-atom mapping. An application of genetic algorithms // Anal. Chim. Acta. – 1992. – V. 265, No 2. – P. 227–232. – doi: 10.1016/0003-2670(92)85028-5.
- ICMAP. – InfoChem GmbH. – URL: http://www.infochem.de/products/software/icmap.shtml, свободный.
- Moock T.E., Nourse J.G., Grier D., Hounshell W.D. The implementation of atom-atom mapping and related features in the reaction access system (REACCS) // Chemical Structures: The International Language of Chemistry / Ed. by W. Warr. – Berlin, Heidelberg: Springer-Verlag, 1988. – P. 303–313.
- JChem Base. – ChemAxon. – URL: https://www.chemaxon.com/products/jchem-base, свободный.
- First E.L., Gounaris C.E., Floudas C.A. DREAM – Determination of Reaction Mechanisms. – 2012. – URL: http://selene.princeton.edu/dream, свободный.
- Indigo Toolkit. – EPAM. Life Sciences Open Source – URL: http://epam.github.io/ lifescience/indigo/index.html, свободный.
- Domingos P., Pazzani M. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss // J. Machine Learning. – 1997. – V. 29. – P. 103–130. – doi: 10.1023/A:1007413511361.
- Rish I. An empirical study of the naive Bayes classifier // IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. – N. Y.: IBM, 2001. – V. 3. – P. 41–46.
- Маджидов Т.И., Баскин И.И., Антипин И.С., Варнек А.А. Введение в хемоинформатику. Компьютерное представление химических структур. – Казань: Казан. ун-т, 2013. – 174 с.
- Kuhn H.W. Variants of the Hungarian method for assignment problems // J. Naval Res. Logistics Quarterly. – 1956. – V. 3, No 4. – P. 253–258. – doi: 10.1002/nav.3800030404.
- Munkres J. Algorithms for the assignment and transportation problems // J. Soc. Indust. Appl. Math. – 1957. – V. 5, No 1. – P. 32–38. – doi: 10.1137/0105003.
Поступила в редакцию
16.11.17
Хайруллина Аделя Исмагиловна, лаборант отдела органической химии
Казанский (Приволжский) федеральный университет
ул. Кремлевская, д. 18, г. Казань, 420008, Россия
E-mail: adelihajrullina@kpfu.ru
Маджидов Тимур Исмаилович, кандидат химических наук, старший научный сотрудник отдела органической химии
Казанский (Приволжский) федеральный университет
ул. Кремлевская, д. 18, г. Казань, 420008, Россия
E-mail: Timur.Madzhidov@kpfu.ru
Нугманов Рамиль Ирекович, кандидат химических наук, старший научный сотрудник отдела органической химии
Казанский (Приволжский) федеральный университет
ул. Кремлевская, д. 18, г. Казань, 420008, Россия
E-mail: rainugmanov@kpfu.ru
Афонина Валентина Александровна, инженер-проектировщик отдела органической химии
Казанский (Приволжский) федеральный университет
ул. Кремлевская, д. 18, г. Казань, 420008, Россия
E-mail: ValAAfonina@kpfu.ru
Баскин Игорь Иосифович, доктор физико-математических наук, кандидат химических наук, ведущий научный сотрудник кафедры физики полимеров и кристаллов
Московский государственный университет имени М.В. Ломоносова
Ленинские горы, д. 1, г. Москва, 119991, Россия
E-mail: igbaskin@gmail.com
Варнек Александр Алексеевич, доктор химических наук, заведующий лабораторией хемоинформатики; главный научный сотрудник отдела органической химии
Университет Страсбурга
ул. Рене Декарта, д. 5, г. Страсбург, 67084, Франция
Казанский (Приволжский) федеральный университет
ул. Кремлевская, д. 18, г. Казань, 420008, Россия
E-mail: varnek@unistra.fr
Для цитирования: Хайруллина А.И., Маджидов Т.И., Нугманов Р.И., Афонина В.А., Баскин И.И., Варнек А.А. Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора // Учен. зап. Казан. ун-та. Сер. Естеств. науки. – 2018. – Т. 160, кн. 2. – С. 200–213.
For citation: Khayrullina A.I., Madzhidov T.I., Nugmanov R.I., Afonina V.A., Baskin I.I., Varnek A.A. A new approach to atom-to-atom mapping using the naive Bayesian classifier. Uchenye Zapiski Kazanskogo Universiteta. Seriya Estestvennye Nauki, 2018, vol. 160, no. 2, pp. 200–213. (In Russian)
Контент доступен под лицензией Creative Commons Attribution 4.0 License.