Поиск подструктуры
Поиск подструктуры (SSS) — это метод извлечения из базы данных только тех химических веществ, которые соответствуют шаблону атомов и связей, указанному пользователем. Это применение теории графов , в частности сопоставления подграфов , в котором запрос представляет собой обедненный водородом молекулярный граф . Математические основы метода были заложены в 1870-х годах, когда было высказано предположение, что рисунки химической структуры эквивалентны графам с атомами в качестве вершин и связями в качестве ребер. SSS теперь является стандартной частью хемоинформатики и широко используется химиками-фармацевтами при открытии лекарств .
В настоящее время существует множество коммерческих систем, обеспечивающих SSS, обычно имеющих графический интерфейс пользователя и программное обеспечение для химического рисования. Таким образом можно осуществлять поиск в больших общедоступных базах данных, таких как Pubchem и ChemSpider , а также в статьях Википедии, описывающих отдельные химические вещества.
Определения
[ редактировать ]Поиск по подструктурам используется для извлечения из базы данных химических веществ тех веществ, которые содержат структуру атомов и связей, указанную пользователем. Он реализуется с использованием специального языка запросов , а в реальных приложениях поиск может быть дополнительно ограничен с помощью логических операторов для дополнительных данных, хранящихся в базе данных. Таким образом, «верните все карбоновые кислоты , если имеется образец весом > 1 г». [1] [2] Одно определение «субструктуры» было дано в 2008 году: «при наличии двух химических структур A и B, если структура A полностью содержится в структуре B, то A является субструктурой B, а B является надстройкой A». [3]
молекулярный граф : граф с по-разному помеченными (цветными) вершинами (хроматический граф), которые представляют разные типы атомов, и по-разному помеченными (цветными) ребрами, связанными с разными типами связей. В рамках топологической теории распределения электронов — полная сеть путей связи для данной ядерной конфигурации. [4]
В этом определении слово «структура» не является синонимом слова « соединение ». Если бы это было так, структура этанола , CH 3 CH 2 OH не будет субструктурой пропанола , CH 3 CH 2 CH 2 OH , поскольку концевой CH 3 этанола не полностью содержится в пропанольной цепи на расстоянии двух атомов от группы OH. Вместо этого структура запроса формально представляет собой обедненный водородом молекулярный граф . Таким образом, ведется поиск веществ, содержащих три атома и две одинарные связи, соединенные как C–C–O. , является «хитом» Пропанол, как и диэтиловый эфир с C–C–O–C–C. Если пользователь хотел ограничить совпадения спиртами , то структуру запроса пришлось бы рисовать с «явным водородом», поскольку C–C–O–H и эфир больше не будут совпадать. [1] С математической точки зрения поиск подструктур — это применение теории графов , в частности сопоставления подграфов . [5]
Примеры
[ редактировать ]Стандартные соглашения, используемые химиками при рисовании химических структур. [6] необходимо учитывать при реализации поиска в подструктуре. Исторически представление таутомера [7] формы и стереохимия [8] вызвало затруднения. Это можно проиллюстрировать на примере гистидина . [9]
В верхнем ряду показан стандартный двумерный химический рисунок (S)-гистидина (природного изомера этой аминокислоты ), его энантиомера (R)-гистидина и рисунок, на котором условно обозначена рацемическая смесь равных количеств R и R. S формы. [10] В нижнем ряду показаны те же три соединения с имидазольным кольцом, изображенным в альтернативной таутомерной форме. Для гистидина оно было определено экспериментально 15 N-ЯМР-спектроскопия показала, что таутомер 1-H предпочтительнее формы 3-H в образцах. [11] Выбор представления для хранения в базе данных может влиять на поиск подструктур. Все шесть рисунков соответствуют пропанольному основанию C–C–C–O, как показано красным. Однако только верхний ряд, по-видимому, будет затронут синей субструктурой 1-H имидазол-4-метила, поскольку она не полностью содержится в трех других соединениях. По сути, каждая вертикальная пара представляет собой одно и то же химическое вещество: таутомеры вообще не могут быть выделены в отдельные образцы. [7] В современных базах данных вещества хранятся в единой канонической форме с проверкой на уникальность. InChIKey предоставляет один из способов сделать это. [9] . (S)-Гистидин стандартный ключ HNDVDQJCIGZPNO-YFKPBYRVSA-N; [12] Ключ (R)-гистидина — HNDVDQJCIGZPNO-RXMQYKEDSA-N. [13] и (RS)-гистидин представляет собой HNDVDQJCIGZPNO-UHFFFAOYSA-N. [14] Первый блок из 14 букв идентичен для всех этих веществ, поскольку кодирует молекулярный граф. [9]
Интерфейсы запросов и алгоритмы поиска
[ редактировать ]Большинство систем поиска подструктур предоставляют пользователю графический интерфейс пользователя с компонентом чертежа химической структуры . Структуры запросов могут содержать шаблоны связывания, такие как «одиночный/ароматический» или «любой», для обеспечения гибкости. Аналогично, вершины, которые в реальном соединении будут конкретными атомами, могут быть заменены списком атомов в запросе. Цис - транс- изомерия по двойным связям обеспечивается выбором: получить только форму E , форму Z или обе. [1] [15]
Алгоритмы поиска требуют больших вычислительных ресурсов, часто O ( n 3 ) или О ( н 4 ) временная сложность (где n — количество задействованных атомов), но известно, что задача NP-полна . [16] Ускорение достигается за счет скрининга фрагментов в качестве первого шага. Этот предварительный расчет обычно включает в себя создание битовых строк, отражающих наличие или отсутствие молекулярных фрагментов. Целевые соединения, которые не содержат фрагментов, присутствующих в запросе, не могут быть обнаружены и удаляются. [17] [18] Поатомный поиск, при котором ищется сопоставление атомов и связей запроса с целевой молекулой, обычно выполняется с помощью варианта алгоритма Ульмана. [5] [19]
Реализации
[ редактировать ]По состоянию на 2024 год [update]Поиск подструктур является стандартной функцией химических баз данных, доступных через Интернет . Большие базы данных, такие как PubChem , [20] [15] поддерживается Национальным центром биотехнологической информации и ChemSpider , [21] поддерживаемые Королевским химическим обществом, имеют графический интерфейс для поиска. Служба химических рефератов , подразделение Американского химического общества , предоставляет инструменты для поиска химической литературы, а Reaxys , поставляемый Elsevier, охватывает как химические вещества, так и информацию о реакциях, включая ту, которая изначально хранилась в базе данных Beilstein . [22] PATENTSCOPE, поддерживаемый Всемирной организацией интеллектуальной собственности, обеспечивает доступ к химическим патентам по подструктуре. [23] Таким же образом можно искать и статьи в Википедии, описывающие отдельные химические вещества. [24]
Поставщики химических веществ в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга регулярно предоставляют интерфейсы поиска. В настоящее время крупнейшей базой данных, доступной для свободного поиска, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [25] [26]
История
[ редактировать ]Идея о том, что химические структуры, изображенные с помощью рисунков типа Кекуле , связаны с тем, что сейчас называется теорией графов, была высказана математиком Дж. Дж. Сильвестром в 1878 году. Он был первым, кто использовал слово «граф» в смысле сеть . [27] [28] Артур Кэли уже в 1874 году думал о том, как подсчитывать химические изомеры , что было ранним подходом к молекулярным графам , где атомы находятся в вершинах , а связи соответствуют краям . [29] [30]
Структурная формула : Формула, которая дает информацию о том, как атомы в молекуле соединены и расположены в пространстве. [31]
В 20 веке химики разработали стандартные способы отображения структурных формул , особенно для отдельных органических соединений , которые все чаще синтезировались и тестировались в качестве потенциальных лекарств или агрохимикатов. [32] [6] К 1950-м годам, когда количество созданных и протестированных соединений росло, были предприняты первые попытки создания химических баз данных субдисциплина хеминформатика . и возникла [33] Как было заявлено в 2012 году, «поиск субструктур в молекулах относится к самым элементарным задачам хемоинформатики и в настоящее время является частью практически каждого программного обеспечения для хеминформатики». [34]
Первое предложение по использованию поиска по подструктурам было предложено в 1957 году для уменьшения рабочей нагрузки патентных экспертов . Им приходится искать опубликованную литературу, чтобы решить, является ли изобретение новым, что для химических патентов часто означает поиск известных примеров в общих формулировках структуры Маркуша. [35] [33] Прежде чем это могло стать реальностью, потребовался ряд разработок. способ ввода запроса о химической структуре Важно отметить, что существующую литературу необходимо было сделать доступной для поиска, а также разработать и возврата результатов сопоставления. Эти требования были частично выполнены еще в 1881 году, когда Фридрих Конрад Байльштейн представил Handbuch der Organischen Chemie ( Справочник по органической химии ), в котором известные химические вещества классифицировались очень систематическим образом, так что, например, все примеры, содержащие данный гетероцикл , были расположены вместе. [36] [37]
В 1907 году Американское химическое общество создало Службу химических рефератов (CAS). Эта еженедельная подписка включала печатную публикацию с краткими изложениями статей в тысячах научных журналов и заявками на патенты по всему миру. У него был индекс химического вещества, который, в принципе, позволял осуществлять поиск по химическому названию или формуле. [38] Однако полноценный поиск стал возможен только тогда, когда записи CAS были полностью преобразованы в машиночитаемую форму и стал доступен Интернет, позволяющий подключить базу данных к конечным пользователям. CAS предоставляла различные услуги по поиску специалистов с 1980-х годов, но только в 2008 году ее система «SciFinder» стала доступна через Интернет . [39]
К 1960-м годам компании, синтезирующие и тестирующие новые химические вещества, добились значительного прогресса в создании собственных баз данных. Компания Imperial Chemical Industries хранила химические структуры в виде текстовых строк , используя строковую нотацию Висвессера . Связанное с ним программное обеспечение CROSSBOW позволяло осуществлять поиск в подструктурах с использованием поиска на основе ключей с последующим более ресурсоемким поатомным поиском. [40] [41] Было признано, что химики-исследователи хотели не только искать в коллекциях компаний существующие запасы, но также искать в сторонних базах данных, предоставленных поставщиками низкомолекулярных промежуточных продуктов. Последнее приложение возникло в результате сотрудничества шести компаний с фармацевтическими интересами и их коммерческих поставщиков. [42] [9]
К 1980-м годам другие обозначения строк для коммерчески доступных систем поиска подконструкций использовались SMILES . Кодирование вместе с языком запросов SMARTS , [43] и обозначение строки SYBYL [9] [44] являются примерами. [45] было проведено комплексное исследование имеющихся на тот момент химических информационных систем В 1985 году для НАСА . [46]
Необходимость объединить химический поиск с биологическими данными, полученными в результате скрининга соединений во все больших масштабах, привела к внедрению таких систем, как MACCS. [46] : 73–77 [47] В этой коммерческой системе от MDL Information Systems использовался алгоритм, специально разработанный для хранения и поиска внутри групп химических веществ, отличающихся только стереохимией. [48] Обзор многих систем, доступных к середине 1980-х годов, показал, что «большинство систем собственной разработки были заменены коммерчески доступным стандартизированным программным обеспечением для управления базами данных химической структуры». [49] MDL Molfile теперь представляет собой открытый формат файла для хранения данных об отдельных молекулах в виде таблицы соединений. [50] [9]
Последующие разработки включали использование новых методов, позволяющих осуществлять эффективный поиск в очень больших базах данных, и, что немаловажно, использование стандартизированного Международного химического идентификатора , типа линейной записи, позволяющего однозначно определить химическое вещество. [9] [25] [51] [52]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Куррано, Джудит Н. (2014). «Глава 5. Поиск по структуре и подструктуре». Химическая информация для химиков . стр. 109–145. дои : 10.1039/9781782620655-00109 . ISBN 978-1-84973-551-3 .
- ^ Аграфиотис, Димитрис К.; Лобанов Виктор С.; Шеманарев Максим; и др. (2011). «Эффективный поиск подструктур в больших химических библиотеках: химический картридж ABCD». Журнал химической информации и моделирования . 51 (12): 3113–3130. дои : 10.1021/ci200413e . ПМИД 22035187 .
- ^ Цао, Ицюнь; Цзян, Тао; Гирке, Томас (2008). «Алгоритм на основе максимально общей подструктуры для поиска и прогнозирования лекарственных соединений» . Биоинформатика . 24 (13): i366–i374. doi : 10.1093/биоинформатика/btn186 . ПМЦ 2718661 . ПМИД 18586736 .
- ^ «молекулярный граф» . Золотая книга . ИЮПАК. дои : 10.1351/goldbook.MT07069 . Проверено 28 июля 2024 г.
- ^ Перейти обратно: а б Ульманн, младший (1976). «Алгоритм изоморфизма подграфов» . Журнал АКМ . 23 : 31–42. дои : 10.1145/321921.321925 .
- ^ Перейти обратно: а б Макмерри, Джон (2023). «1.12 Рисование химических структур». Органическая химия: десятое издание . OpenStax, Университет Райса. стр. 25–27. ISBN 9781711471853 .
- ^ Перейти обратно: а б Катрицки, Алан Р.; Холл, К. Деннис; Эль-Генди, Бахаа Эль-Диен М.; Драгич, Богдан (2010). «Таутомерия в открытии лекарств». Журнал компьютерного молекулярного дизайна . 24 (6–7): 475–484. Бибкод : 2010JCAMD..24..475K . дои : 10.1007/s10822-010-9359-z . ПМИД 20490619 .
- ^ Смит, Сайлас В. (2009). «Хиральная токсикология: это то же самое… только другое» . Токсикологические науки . 110 (1): 4–30. дои : 10.1093/toxsci/kfp097 . ПМИД 19414517 .
- ^ Перейти обратно: а б с д и ж г Уорр, Венди А. (2011). «Представление химических структур». Wires Вычислительная молекулярная наука . 1 (4): 557–579. дои : 10.1002/wcms.36 .
- ^ «Поисковый запрос: гистидин» . chemspider.com . Проверено 1 августа 2024 г.
- ^ Робертс, Джон Д. (2000). Азбука FT-ЯМР . Саусалито, Калифорния: Университетские научные книги. стр. 258–9. ISBN 978-1-891389-18-4 .
- ^ «L-Гистидин» . chemspider.com . Более подробная информация . Проверено 1 августа 2024 г.
- ^ «Д-Гистидин» . chemspider.com . Более подробная информация . Проверено 1 августа 2024 г.
- ^ «DL-Гистидин» . chemspider.com . Более подробная информация . Проверено 1 августа 2024 г.
- ^ Перейти обратно: а б «Поиск структуры PubChem» . pubchem.ncbi.nlm.nih.gov . Проверено 1 августа 2024 г.
- ^ Вегенер, Инго (2005). Теория сложности: исследование пределов эффективных алгоритмов . Спрингер. п. 81. ИСБН 9783540210450 .
- ^ Бонд, В. Линн; Боуман, Карлос М.; Дэвисон, Линда С.; и др. (1979). «Оперативное хранение и поиск химической информации. II. Поиск субструктуры и биологической активности». Журнал химической информации и компьютерных наук . 19 (4): 231–234. дои : 10.1021/ci60020a012 . ПМИД 551973 .
- ^ Каммингс, Максвелл Д.; Максвелл, Алан С.; ДеЖарле, Рене Л. (2007). «Обработка баз данных малых молекул для автоматического стыковки». Медицинская химия . 3 (1): 107–113. дои : 10.2174/157340607779317481 . ПМИД 17266630 .
- ^ Рахман, SA; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2000). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК 2820491 . ПМИД 20298518 .
- ^ Ким, Сонхван (2021). «Изучение химической информации в PubChem» . Текущие протоколы . 1 (8): е217. дои : 10.1002/cpz1.217 . ПМЦ 8363119 . ПМИД 34370395 .
- ^ Уильямс, Энтони Дж. (2010). «ChemSpider: интеграция структурированных ресурсов, распределенных через Интернет». Улучшение качества обучения с помощью онлайн-ресурсов, социальных сетей и цифровых библиотек . Серия симпозиумов ACS. Том. 1060. стр. 23–39. дои : 10.1021/bk-2010-1060.ch002 . ISBN 978-0-8412-2600-5 .
- ^ Джарабак, Шарлотта; Баранина, Трой; Ридли, Дэймон Д. (2020). «Информация о свойствах в записях о веществах в основных сетевых инструментах химической информации и поиска данных: понимание содержания, возможности поиска и применение в обучении». Журнал химического образования . 97 (5): 1345–1359. Бибкод : 2020JChEd..97.1345J . doi : 10.1021/acs.jchemed.9b00966 .
- ^ «Поиск подструктур теперь доступен в PATENTSCOPE» . www.wipo.int . 11 февраля 2019 г. Проверено 4 августа 2024 г.
- ^ Эртл, Питер; Патини, Люк; Сандер, Томас; и др. (2015). «Исследователь химической структуры в Википедии: поиск субструктуры и сходства молекул из Википедии» . Журнал хеминформатики . 7:10 . дои : 10.1186/s13321-015-0061-y . ПМЦ 4374119 . ПМИД 25815062 .
- ^ Перейти обратно: а б Тингл, Бенджамин И.; Тан, Хан Г.; Кастанон, Мар; Гутьеррес, Джон Дж.; Хурелбаатар, Мункхзул; Дандарчулуун, Чинзориг; Мороз Юрий С.; Ирвин, Джон Дж. (2023). «ЦИНК-22 — бесплатная многомиллиардная база данных материальных соединений для открытия лигандов» . Журнал химической информации и моделирования . 63 (4): 1166–1176. doi : 10.1021/acs.jcim.2c01253 . ПМЦ 9976280 . ПМИД 36790087 .
- ^ Уорр, Венди А.; Никлаус, Марк С.; Николау, Христос А.; Рэри, Матиас (2022). «Исследование сверхбольших коллекций соединений для открытия лекарств». Журнал химической информации и моделирования . 62 (9): 2021–2034. doi : 10.1021/acs.jcim.2c00224 . ПМИД 35421301 .
- ^ Сильвестр, Джей-Джей (1878). «Химия и алгебра» . Природа . 17 (432): 284. Бибкод : 1878Natur..17..284S . дои : 10.1038/017284a0 .
Таким образом, каждый инвариант и ковариант становится выражаемым графиком, точно идентичным диаграмме Кекуле или химикографу.
- ^ Гросс, Джонатан Л.; Йеллен, Джей (2004). Справочник по теории графов . ЦРК Пресс . п. 35. ISBN 978-1-58488-090-5 . Проверено 28 июля 2024 г.
- ^ Кэли (1874 г.). «LVII. К математической теории изомеров ». Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . 47 (314): 444–447. дои : 10.1080/14786447408641058 .
- ^ Биггс, Норман; Кейт Ллойд, Э.; Уилсон, Робин Дж. (1986). Теория графов, 1736-1936 гг . Кларендон Пресс. стр. 39, 63–64. ISBN 0198539169 .
- ^ «структурная формула» . Золотая книга . ИЮПАК. дои : 10.1351/goldbook.S06061 . Проверено 28 июля 2024 г.
- ^ Гудвин, WM (2008). «Структурные формулы и объяснение в органической химии». Основы химии . 10 (2): 117–127. дои : 10.1007/s10698-007-9033-2 .
- ^ Перейти обратно: а б Уиллетт, Питер (2008). «От химической документации к хемоинформатике: 50 лет химической информатики». Журнал информатики . 34 (4): 477–499. дои : 10.1177/0165551507084631 .
- ^ Эрлих, Ганс-Кристиан; Рэри, Матиас (2012). «Систематический тест поиска субструктур в молекулярных графах - от Ульмана до VF2» . Журнал хеминформатики . 4 . дои : 10.1186/1758-2946-4-13 .
- ^ Рэй, Луи С.; Кирш, Рассел А. (1957). «Поиск химических записей с помощью цифровых компьютеров». Наука . 126 (3278): 814–819. Бибкод : 1957Sci...126..814R . дои : 10.1126/science.126.3278.814 . ПМИД 17776535 .
- ^ Рихтер, Фридрих (1938). «Как создается Beilstein». Журнал химического образования . 15 (7): 310. Бибкод : 1938ЖЧЭд..15..310Р . дои : 10.1021/ed015p310 .
- ^ Уайт, Майкл Дж. (2014). «Глава 3. Химические патенты». Химическая информация для химиков . стр. 53–90. дои : 10.1039/9781782620655-00053 . ISBN 978-1-84973-551-3 .
- ^ «CAS Печатная продукция» . КАС. Архивировано из оригинала 12 мая 2008 г. Проверено 29 июля 2024 г.
- ^ «Новый SciFinder доступен через Интернет» . КАС. Архивировано из оригинала 13 мая 2008 г. Проверено 29 июля 2024 г.
- ^ Икин, Дайан Р.; Хайд, Эрнест; Палмер, Грэм (1974). «Использование компьютеров с химической структурной информацией: система ICI CROSSBOW». Пестицидная наука . 5 (3): 319–326. дои : 10.1002/ps.2780050316 .
- ^ Уорр, Венди А. (1982). «Разнообразное использование и будущие перспективы обозначения строковой формулы Висвессера». Журнал химической информации и компьютерных наук . 22 (2): 98–101. дои : 10.1021/ci00034a007 .
- ^ Уокер, С. Барри (1983). «Разработка CAOCI и его использование в подразделении защиты растений ICI». Журнал химической информации и компьютерных наук . 23 : 3–5. дои : 10.1021/ci00037a001 .
- ^ Вайнингер, Дэвид (1988). «SMILES, химический язык и информационная система. 1. Введение в методологию и правила кодирования». Журнал химической информации и компьютерных наук . 28 : 31–36. дои : 10.1021/ci00057a005 .
- ^ Гомер, Р. Вебстер; Суонсон, Джон; Джилек, Роберт Дж.; и др. (2008). «Линейная нотация SYBYL (SLN): единая нотация для представления химических структур, запросов, реакций и виртуальных библиотек». Журнал химической информации и моделирования . 48 (12): 2294–2307. дои : 10.1021/ci7004687 . ПМИД 18998666 .
- ^ Висвессер, Уильям Дж. (1985). «Историческое развитие химических обозначений». Журнал химической информации и компьютерных наук . 25 (3): 258–263. дои : 10.1021/ci00047a023 .
- ^ Перейти обратно: а б Шайк, Аниса Башир (5 декабря 1985 г.). «Обзор химических информационных систем» (PDF) . ntrs.nasa.gov . стр. 1–160.
- ^ Адамсон, Джордж В.; Берд, Джон М.; Палмер, Грэм; Уорр, Венди А. (1985). «Использование MACCS в ICI». Журнал химической информации и компьютерных наук . 25 (2): 90–92. дои : 10.1021/ci00046a007 .
- ^ Випке, В. Тодд; Дайотт, Томас М. (1974). «Стереохимически уникальный алгоритм именования». Журнал Американского химического общества . 96 (15): 4834–4842. дои : 10.1021/ja00822a021 .
- ^ Хагадоне, Том Р. (1988). «Современные подходы и новые направления в управлении собственными базами данных о химической структуре». Химические структуры . стр. 23–41. дои : 10.1007/978-3-642-73975-0_3 . ISBN 978-3-642-73977-4 .
- ^ «Форматы файлов CT» (PDF) . Биовия. Август 2020 г. Архивировано (PDF) из оригинала 19 февраля 2021 г. Проверено 1 августа 2024 г.
- ^ Джадсон, Филип (2019). «Глава 7. Поиск структуры, подструктуры и надстройки». Экспертные системы, основанные на знаниях в химии . Серия «Теоретическая и вычислительная химия». Королевское химическое общество. стр. 84–107. дои : 10.1039/9781788016186-00084 . ISBN 978-1-78801-471-7 .
- ^ Рэри, Матиас; Никлаус, Марк С.; Уорр, Венди (2022). «Специальный выпуск по реакционной информатике и химическому космосу» . Журнал химической информации и моделирования . 62 (9): 2009–2010. doi : 10.1021/acs.jcim.2c00390 . ПМИД 35527682 .
Внешние ссылки
[ редактировать ]- Wikipedia Chemical Structure Explorer для поиска статей по химии в Википедии по подструктуре
- Поиск
- Поиск ChemSpider
- Найдите ZINC-22 в базе данных, содержащей более 50 миллиардов молекул.