Химическая база данных
— Химическая база данных это база данных, специально предназначенная для хранения химической информации . Эта информация о химических и кристаллических структурах , спектрах, реакциях и синтезах, а также теплофизических данных.
Типы химических баз данных
[ редактировать ]База данных биоактивности
[ редактировать ]Базы данных о биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, полученными из биоанализов в литературе, патентах и программах скрининга.
Имя | Разработчик(и) | Первоначальный выпуск |
---|---|---|
СкрабХим | Джейсон Брет Харрис | 2016 [ 1 ] [ 2 ] |
PubChem-BioAssay | NIH | 2004 [ 3 ] [ 4 ] |
ХЭМБЛ | ЭМБЛ-ЭБИ | 2009 [ 5 ] |
Химические структуры
[ редактировать ]Химические структуры традиционно изображаются с помощью линий, обозначающих химические связи между атомами и нарисованных на бумаге (2D структурные формулы ). Хотя это идеальные визуальные представления для химика , они непригодны для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Однако большие молекулы, такие как белки, представляются более компактно с использованием последовательностей их строительных блоков аминокислот. Также представлены радиоактивные изотопы, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных по структурам будут обеспечивать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти. [ 6 ] [ 7 ]
База данных литературы
[ редактировать ]Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, посвященные химической характеристике.
Кристаллографическая база данных
[ редактировать ]Кристаллографические базы данных хранят данные рентгеновской кристаллической структуры. Типичные примеры включают банк данных о белках и Кембриджскую структурную базу данных .
База данных спектров ЯМР
[ редактировать ]Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .
База данных реакций
[ редактировать ]Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных по реакциям хранятся также промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, эдуктах и механизмах реакций .
Популярным примером, в котором перечислены данные о химических реакциях , является база данных Beilstein .
Теплофизическая база данных
[ редактировать ]Теплофизические данные – это информация о
- фазовые равновесия, включая равновесие пар-жидкость , растворимость газов в жидкостях, жидкости в твердых телах (SLE), теплоты смешения, испарения и плавления .
- данные о калорийности, такие как теплоемкость , теплота образования и сгорания ,
- транспортные свойства, такие как вязкость и теплопроводность
Представление химической структуры
[ редактировать ]Существует два основных метода представления химических структур в цифровых базах данных.
- В виде таблиц соединений/ матриц смежности /списков с дополнительной информацией о связях (ребрах) и атрибутах атомов (узлах), например:
- MDL Молфиле , PDB , CML
- В виде линейной строковой записи, основанной на в глубину или обходе в ширину , например:
Эти подходы были усовершенствованы, чтобы обеспечить представление стереохимических различий и зарядов, а также особых видов связей, например, наблюдаемых в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.
Поиск
[ редактировать ]Подструктура
[ редактировать ]
Химики могут осуществлять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных отличаются от других баз данных общего назначения поддержкой поиска подструктур — метода поиска химических веществ, соответствующих шаблону атомов и связей, указанному пользователем. Этот вид поиска достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изучаемым применением теории графов . [ 8 ] [ 9 ] [ 10 ]
Структуры запросов могут содержать шаблоны связывания, такие как «одиночный/ароматический» или «любой», для обеспечения гибкости. Аналогично, вершины, которые в реальном соединении будут конкретными атомами, могут быть заменены списком атомов в запросе. Цис - транс- изомерия по двойным связям обеспечивается выбором: получить только форму E , форму Z или обе. [ 8 ] [ 11 ]
Телосложение
[ редактировать ]Поиск путем сопоставления трехмерной конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиски такого типа могут быть очень дорогостоящими в вычислительном отношении. Было предложено множество приближенных методов, например BCUTS . [ 12 ] [ 13 ] [ 14 ] специальные представления функций, моменты инерции , гистограммы трассировки лучей , гистограммы максимальных расстояний, мультиполи формы и многое другое. [ 15 ] [ 16 ] [ 17 ] [ 18 ] [ 19 ]
Примеры
[ редактировать ]Большие базы данных, такие как PubChem [ 11 ] [ 20 ] и ChemSpider , [ 21 ] иметь графические интерфейсы для поиска. Служба Chemical Abstracts Service предоставляет инструменты для поиска в химической литературе, а Reaxys, поставляемый Elsevier, охватывает как химические вещества, так и информацию о реакциях, включая ту, которая изначально хранилась в базе данных Beilstein . [ 22 ] PATENTSCOPE обеспечивает доступ к химическим патентам по подструктуре [ 23 ] Таким же образом можно искать и статьи в Википедии, описывающие отдельные химические вещества. [ 24 ]
Поставщики химических веществ в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга регулярно предоставляют интерфейсы поиска. В настоящее время крупнейшей базой данных, доступной для свободного поиска, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [ 25 ] [ 26 ]
Дескрипторы
[ редактировать ]Все свойства молекул, выходящие за рамки их структуры, можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Кроме того, существуют различные искусственные и более или менее стандартизированные системы наименования молекул, которые дают более или менее двусмысленные названия и синонимы . Имя IUPAC обычно является хорошим выбором для представления структуры молекулы в удобочитаемой и уникальной строке , хотя для более крупных молекул оно становится громоздким. тривиальные имена С другой стороны, изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в большинстве случаев могут быть вычислены непосредственно на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно, используя задействованную многомерную статистику или экспериментальные ( скрининг , биоанализ результаты ). Все эти дескрипторы из соображений вычислительных затрат могут храниться вместе с представлением молекулы, что обычно и происходит.
Сходство
[ редактировать ]Не существует единого определения молекулярного сходства, однако это понятие может быть определено в соответствии с применением и часто описывается как обратная мера расстояния в пространстве дескрипторов. Две молекулы можно считать более похожими, например, если разница в их молекулярных массах меньше, чем по сравнению с другими. Для получения многомерной меры расстояния можно объединить множество других показателей. Меры расстояния часто подразделяются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . максимального общего подграфа ( MCS ) Поиск подструктуры на основе [ 27 ] (мера сходства или расстояния) также очень распространена. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем выявления молекул, имеющих общий подграф (подструктуру). [ 28 ]
Химические вещества в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. К химическим объектам с множеством атрибутов можно применять как иерархические, так и неиерархические подходы к кластеризации. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо с помощью дескрипторов, полученных путем вычислений . Одним из наиболее популярных подходов кластеризации является алгоритм Джарвиса-Патрика . [ 29 ]
В фармакологически ориентированных химических хранилищах сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из аналогичных комбинаций физико-химических дескрипторов с использованием методов QSAR .
Системы регистрации
[ редактировать ]Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.
Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, за счет использования уникальных представлений. Применяя правила приоритета для создания строковых обозначений, можно получить уникальные/ канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хэш-кодов для достижения той же цели.
Ключевое различие между системой регистрации и простой базой данных по химическим веществам заключается в способности точно представлять то, что известно, неизвестно и частично известно. Например, в химической базе данных может храниться молекула с неуказанной стереохимией , тогда как система химического реестра требует от регистратора указания, является ли стереоконфигурация неизвестной, конкретной (известной) смесью или рацемической . Каждый из них будет считаться отдельной записью в системе химического реестра.
Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета тривиальных различий, таких как различия в галогенов ионах в химических веществах.
Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также регистрационный номер CAS .
Список химических картриджей
[ редактировать ]Список систем химической регистрации
[ редактировать ]веб-интерфейс
[ редактировать ]Имя | Разработчик(и) | Первоначальный выпуск |
---|---|---|
CDD-хранилище | Совместное открытие лекарств | 2018 [ 40 ] [ 41 ] [ 42 ] |
Ловкий репозиторий [ 43 ] | Ловкий IN [ 44 ] | 2023 [ 45 ] [ 46 ] |
Инструменты
[ редактировать ]Вычислительные представления обычно становятся прозрачными для химиков за счет графического отображения данных. Ввод данных также упрощается за счет использования редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.
Также существуют многочисленные алгоритмы взаимного преобразования различных форматов представления. Утилита с открытым исходным кодом для преобразования — OpenBabel . Эти алгоритмы поиска и преобразования реализуются либо внутри самой системы баз данных, либо, как сейчас наблюдается тенденция, реализуются в виде внешних компонентов, которые вписываются в стандартные системы реляционных баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет использовать определяемые пользователем типы данных. Они позволяют пользователю выполнять SQL- запросы с условиями химического поиска (например, запрос на поиск записей, имеющих в своей структуре фенильное кольцо, представленное в виде строки SMILES в столбце SMILESCOL, может быть
SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')
Алгоритмы преобразования названий ИЮПАК в представления структур и наоборот используются также для извлечения структурной информации из текста . Однако существуют трудности из-за существования нескольких диалектов ИЮПАК. Ведется работа по созданию уникального стандарта ИЮПАК (см. ИнЧИ ).
См. также
[ редактировать ]- Биологическая база данных - база данных биологической информации.
- BindingDB - база данных по взаимодействиям белков и малых молекул.
- ChEBI - Химическая база данных и онтология молекулярных объектов
- ChEMBL - Химическая база данных биологически активных молекул, также обладающих свойствами, подобными лекарственным средствам.
- Химическое сходство - химический термин
- Chemisches Zentralblatt Structural Database - научный журнал
- Collaborative Drug Discovery - компания в Берлингейме, США.
- Источник эталонного теста колокализации
- База данных сравнительной токсикогеномики - онлайн-инструмент для исследований, описывающий взаимодействие химических веществ, генов и заболеваний.
- Список вычислительной химии
- DrugBank – онлайн-база данных, содержащая информацию о наркотиках и их целях.
- Список химических баз данных
- Список программного обеспечения для моделирования молекулярной механики
- База данных LOLI - международная база данных по регулированию химических веществ.
- База данных спектров ЯМР - коллекция спектров ЯМР для большого количества соединений.
- Поиск по сходству – поиск похожих элементов в наборе данных.
- РАСПРОСТРАНЕНИЕ базы данных
Ссылки
[ редактировать ]- ^ «Главная страница — ScrubChem» . Scrubchem.org . Архивировано из оригинала 26 мая 2017 года.
- ^ Харрис, Дж. Б. (2019). «Постобработка больших данных о биологической активности». Биоинформатика и открытие лекарств . Методы Мол Биол. Том. 1939. стр. 37–47. дои : 10.1007/978-1-4939-9089-4_3 . ISBN 978-1-4939-9088-7 . ПМИД 30848455 . S2CID 73493315 .
- ^ «ПабХим» . pubchem.ncbi.nlm.nih.gov .
- ^ Ван, Ю; Брайант, Ш.; Ченг, Т; Ван, Дж; Гиндулит, А; Шумейкер, бакалавр искусств; Тиссен, Пенсильвания; Он, С; Чжан, Дж (2017). «PubChem BioAssay: обновление 2017 г.» . Нуклеиновые кислоты Рез . 45 (Д1): Д955–Д963. дои : 10.1093/nar/gkw1118 . ПМК 5210581 . ПМИД 27899599 .
- ^ «База данных ЧЭМБЛ» .
- ^ Хоффманн, Торстен; Гастрайх, Маркус (2019). «Следующий уровень химической космической навигации: выходя далеко за рамки перечислимых библиотек соединений» . Открытие наркотиков сегодня . 24 (5): 1148–1156. дои : 10.1016/j.drudis.2019.02.013 .
- ^ Sadybekov, Anastasiia V.; Katritch, Vsevolod (2023). "Computational approaches streamlining drug discovery" . Nature . 616 (7958): 673–685. doi : 10.1038/s41586-023-05905-z . PMID 37100941 .
- ^ Перейти обратно: а б Куррано, Джудит Н. (2014). «Глава 5. Поиск по структуре и подструктуре». Химическая информация для химиков . стр. 109–145. дои : 10.1039/9781782620655-00109 . ISBN 978-1-84973-551-3 .
- ^ Ульманн, младший (1976). «Алгоритм изоморфизма подграфов» . Журнал АКМ . 23 : 31–42. дои : 10.1145/321921.321925 .
- ^ Уорр, Венди А. (2011). «Представление химических структур». Wires Вычислительная молекулярная наука . 1 (4): 557–579. дои : 10.1002/wcms.36 .
- ^ Перейти обратно: а б «Поиск структуры PubChem» . pubchem.ncbi.nlm.nih.gov . Проверено 1 августа 2024 г.
- ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x .
- ^ «BCUTDescriptor (API cdk 2.5)» . CDK — Комплект разработки химии . 05 мая 2021 г. Проверено 4 июня 2024 г.
- ^ Берден, Фрэнк Р. (1 августа 1989 г.). «Молекулярный идентификационный номер для поиска субструктур». Журнал химической информации и компьютерных наук . 29 (3): 225–227. дои : 10.1021/ci00063a011 .
- ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x .
- ^ Лин-младший, Хунг; Кларк, Тимоти (2005). «Аналитическое, переменное разрешение, полное описание статических молекул и их свойств межмолекулярного связывания». Журнал химической информации и моделирования . 45 (4): 1010–1016. дои : 10.1021/ci050059v . ПМИД 16045295 .
- ^ Мик, Пи Джей; Лю, З.; Тиан, Л.; Ван, CJ; Уэлш, WJ; Заухар, Р.Дж. (2006). «Подписи формы: ускорение открытия лекарств с помощью компьютера». ДДТ 2006 . 19–20 (19–20): 895–904. дои : 10.1016/j.drudis.2006.08.014 . ПМИД 16997139 .
- ^ Грант, Дж. А.; Галлардо, Массачусетс; Пикап, БТ (1996). «Быстрый метод сравнения формы молекул: простое применение гауссовского описания формы молекул». Журнал вычислительной химии . 17 (14): 1653–1666. doi : 10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k . S2CID 96794688 .
- ^ Баллестер, Пи Джей; Ричардс, WG (2007). «Сверхбыстрое распознавание форм для поиска сходства в молекулярных базах данных». Труды Королевского общества А. 463 (2081): 1307–1321. Бибкод : 2007RSPSA.463.1307B . дои : 10.1098/rspa.2007.1823 . S2CID 12540483 .
- ^ Ким, Сонхван (2021). «Изучение химической информации в PubChem» . Текущие протоколы . 1 (8): е217. дои : 10.1002/cpz1.217 . ПМЦ 8363119 . ПМИД 34370395 .
- ^ Уильямс, Энтони Дж. (2010). «ChemSpider: интеграция структурированных ресурсов, распределенных через Интернет». Улучшение качества обучения с помощью онлайн-ресурсов, социальных сетей и цифровых библиотек . Серия симпозиумов ACS. Том. 1060. стр. 23–39. дои : 10.1021/bk-2010-1060.ch002 . ISBN 978-0-8412-2600-5 .
- ^ Джарабак, Шарлотта; Баранина, Трой; Ридли, Дэймон Д. (2020). «Информация о свойствах в записях о веществах в основных сетевых инструментах химической информации и поиска данных: понимание содержания, возможности поиска и применение в обучении». Журнал химического образования . 97 (5): 1345–1359. Бибкод : 2020JChEd..97.1345J . doi : 10.1021/acs.jchemed.9b00966 .
- ^ «Поиск подструктур теперь доступен в PATENTSCOPE» . www.wipo.int . 11 февраля 2019 г. Проверено 4 августа 2024 г.
- ^ Эртл, Питер; Патини, Люк; Сандер, Томас; и др. (2015). «Исследователь химической структуры в Википедии: поиск субструктуры и сходства молекул из Википедии» . Журнал хеминформатики . 7:10 . дои : 10.1186/s13321-015-0061-y . ПМЦ 4374119 . ПМИД 25815062 .
- ^ Тингл, Бенджамин И.; Тан, Хан Г.; Кастанон, Мар; Гутьеррес, Джон Дж.; Хурелбаатар, Мункхзул; Дандарчулуун, Чинзориг; Мороз Юрий С.; Ирвин, Джон Дж. (2023). «ЦИНК-22 — бесплатная многомиллиардная база данных материальных соединений для открытия лигандов» . Журнал химической информации и моделирования . 63 (4): 1166–1176. doi : 10.1021/acs.jcim.2c01253 . ПМЦ 9976280 . ПМИД 36790087 .
- ^ Уорр, Венди А.; Никлаус, Марк С.; Николау, Христос А.; Рэри, Матиас (2022). «Исследование сверхбольших коллекций соединений для открытия лекарств». Журнал химической информации и моделирования . 62 (9): 2021–2034. doi : 10.1021/acs.jcim.2c00224 . ПМИД 35421301 .
- ^ Рахман, SA; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2000). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМЦ 2820491 . ПМИД 20298518 .
- ^ Рахман, С. Асад; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2009). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК 2820491 . ПМИД 20298518 .
- ^ Бутина, Дарко (1999). «Кластеризация баз данных без присмотра на основе отпечатков дневного света и сходства Танимото: быстрый и автоматизированный способ кластеризации малых и больших наборов данных». хим. Инф. Вычислить. Наука . 39 (4): 747–750. дои : 10.1021/ci9803381 .
- ^ «BIOVIA Direct – BIOVIA – Dassault Systèmes®» . 8 сентября 2023 г.
- ^ «JChem Engines | ChemAxon» .
- ^ «Химия – Oracle Cartridge | Внутренняя информатика» .
- ^ Павлов Д.; Рыбалкин М.; Карулин, Б. (2010). «Бинго от SciTouch LLC: Химический картридж для базы данных Oracle» . Журнал хеминформатики . 2 (Приложение 1): F1. дои : 10.1186/1758-2946-2-S1-F1 . ПМК 2867114 .
- ^ «Программное обеспечение для поиска низкомолекулярных лекарств» . Программное обеспечение для поиска низкомолекулярных лекарств .
- ^ «Регистрация химикатов BIOVIA — BIOVIA — Dassault Systèmes®» . www.3ds.com . 7 сентября 2023 г.
- ^ «Регистрация» . Архивировано из оригинала 10 декабря 2021 г. Проверено 13 марта 2021 г.
- ^ «Навыки РегМол | Навыки» . 6 июня 2016 г. [ постоянная мертвая ссылка ]
- ^ «Комплексная регистрация» . chemaxon.com .
- ^ «Записная книжка сигналов — информатика PerkinElmer» . perkinelmerinformatics.com .
- ^ «Обновление CDD Vault: CDD Vault теперь является ELN» . 16 февраля 2018 г.
- ^ «Электронная лабораторная тетрадь CDD (ЭЛН)» . 14 августа 2019 г.
- ^ «Электронные лабораторные тетради: что это такое (и зачем они нужны)» . 4 августа 2019 г.
- ^ «Обзор SDF Pro от Adroit DI. Июнь 2023 г. — Mac в химии» . 05.11.2023 . Проверено 11 марта 2024 г.
- ^ «Главная страница Adroit DI» . adroitdi.com . Проверено 10 марта 2024 г.
- ^ «SDF Pro от Adroit DI: быстрое и доступное решение для хранения, сортировки и обработки 10 миллионов молекул за секунды» . www.businesswire.com . 16 мая 2023 г. Проверено 10 марта 2024 г.
- ^ «Регистрация лучших из лучших организаций» . 20Визионеры15 . Проверено 10 марта 2024 г.
Внешние ссылки
[ редактировать ]- Wikipedia Chemical Structure Explorer для поиска статей по химии в Википедии по подструктуре