Jump to content

Химическая база данных

(Перенаправлено из химических баз данных )

Химическая база данных это база данных, специально предназначенная для хранения химической информации . Эта информация о химических и кристаллических структурах , спектрах, реакциях и синтезах, а также теплофизических данных.

Типы химических баз данных

[ редактировать ]

База данных биоактивности

[ редактировать ]

Базы данных о биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, полученными из биоанализов в литературе, патентах и ​​программах скрининга.

Имя Разработчик(и) Первоначальный выпуск
СкрабХим Джейсон Брет Харрис 2016 [ 1 ] [ 2 ]
PubChem-BioAssay NIH   2004 [ 3 ] [ 4 ]
ХЭМБЛ ЭМБЛ-ЭБИ 2009 [ 5 ]

Химические структуры

[ редактировать ]

Химические структуры традиционно изображаются с помощью линий, обозначающих химические связи между атомами и нарисованных на бумаге (2D структурные формулы ). Хотя это идеальные визуальные представления для химика , они непригодны для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Однако большие молекулы, такие как белки, представляются более компактно с использованием последовательностей их строительных блоков аминокислот. Также представлены радиоактивные изотопы, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных по структурам будут обеспечивать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти. [ 6 ] [ 7 ]

База данных литературы

[ редактировать ]

Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, посвященные химической характеристике.

Кристаллографическая база данных

[ редактировать ]

Кристаллографические базы данных хранят данные рентгеновской кристаллической структуры. Типичные примеры включают банк данных о белках и Кембриджскую структурную базу данных .

База данных спектров ЯМР

[ редактировать ]

Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .

База данных реакций

[ редактировать ]

Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных по реакциям хранятся также промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, эдуктах и ​​механизмах реакций .

Популярным примером, в котором перечислены данные о химических реакциях , является база данных Beilstein .

Теплофизическая база данных

[ редактировать ]

Теплофизические данные – это информация о

Представление химической структуры

[ редактировать ]

Существует два основных метода представления химических структур в цифровых базах данных.

Эти подходы были усовершенствованы, чтобы обеспечить представление стереохимических различий и зарядов, а также особых видов связей, например, наблюдаемых в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.

Подструктура

[ редактировать ]
Препарат леналидомид содержит субструктуры изоиндолин (красный) и глутаримид (синий).

Химики могут осуществлять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных отличаются от других баз данных общего назначения поддержкой поиска подструктур — метода поиска химических веществ, соответствующих шаблону атомов и связей, указанному пользователем. Этот вид поиска достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изучаемым применением теории графов . [ 8 ] [ 9 ] [ 10 ]

Структуры запросов могут содержать шаблоны связывания, такие как «одиночный/ароматический» или «любой», для обеспечения гибкости. Аналогично, вершины, которые в реальном соединении будут конкретными атомами, могут быть заменены списком атомов в запросе. Цис - транс- изомерия по двойным связям обеспечивается выбором: получить только форму E , форму Z или обе. [ 8 ] [ 11 ]

Телосложение

[ редактировать ]

Поиск путем сопоставления трехмерной конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиски такого типа могут быть очень дорогостоящими в вычислительном отношении. Было предложено множество приближенных методов, например BCUTS . [ 12 ] [ 13 ] [ 14 ] специальные представления функций, моменты инерции , гистограммы трассировки лучей , гистограммы максимальных расстояний, мультиполи формы и многое другое. [ 15 ] [ 16 ] [ 17 ] [ 18 ] [ 19 ]

Большие базы данных, такие как PubChem [ 11 ] [ 20 ] и ChemSpider , [ 21 ] иметь графические интерфейсы для поиска. Служба Chemical Abstracts Service предоставляет инструменты для поиска в химической литературе, а Reaxys, поставляемый Elsevier, охватывает как химические вещества, так и информацию о реакциях, включая ту, которая изначально хранилась в базе данных Beilstein . [ 22 ] PATENTSCOPE обеспечивает доступ к химическим патентам по подструктуре [ 23 ] Таким же образом можно искать и статьи в Википедии, описывающие отдельные химические вещества. [ 24 ]

Поставщики химических веществ в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга регулярно предоставляют интерфейсы поиска. В настоящее время крупнейшей базой данных, доступной для свободного поиска, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [ 25 ] [ 26 ]

Дескрипторы

[ редактировать ]

Все свойства молекул, выходящие за рамки их структуры, можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Кроме того, существуют различные искусственные и более или менее стандартизированные системы наименования молекул, которые дают более или менее двусмысленные названия и синонимы . Имя IUPAC обычно является хорошим выбором для представления структуры молекулы в удобочитаемой и уникальной строке , хотя для более крупных молекул оно становится громоздким. тривиальные имена С другой стороны, изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в большинстве случаев могут быть вычислены непосредственно на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно, используя задействованную многомерную статистику или экспериментальные ( скрининг , биоанализ результаты ). Все эти дескрипторы из соображений вычислительных затрат могут храниться вместе с представлением молекулы, что обычно и происходит.

Сходство

[ редактировать ]

Не существует единого определения молекулярного сходства, однако это понятие может быть определено в соответствии с применением и часто описывается как обратная мера расстояния в пространстве дескрипторов. Две молекулы можно считать более похожими, например, если разница в их молекулярных массах меньше, чем по сравнению с другими. Для получения многомерной меры расстояния можно объединить множество других показателей. Меры расстояния часто подразделяются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . максимального общего подграфа ( MCS ) Поиск подструктуры на основе [ 27 ] (мера сходства или расстояния) также очень распространена. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем выявления молекул, имеющих общий подграф (подструктуру). [ 28 ]

Химические вещества в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. К химическим объектам с множеством атрибутов можно применять как иерархические, так и неиерархические подходы к кластеризации. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо с помощью дескрипторов, полученных путем вычислений . Одним из наиболее популярных подходов кластеризации является алгоритм Джарвиса-Патрика . [ 29 ]

В фармакологически ориентированных химических хранилищах сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из аналогичных комбинаций физико-химических дескрипторов с использованием методов QSAR .

Системы регистрации

[ редактировать ]

Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.

Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, за счет использования уникальных представлений. Применяя правила приоритета для создания строковых обозначений, можно получить уникальные/ канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хэш-кодов для достижения той же цели.

Ключевое различие между системой регистрации и простой базой данных по химическим веществам заключается в способности точно представлять то, что известно, неизвестно и частично известно. Например, в химической базе данных может храниться молекула с неуказанной стереохимией , тогда как система химического реестра требует от регистратора указания, является ли стереоконфигурация неизвестной, конкретной (известной) смесью или рацемической . Каждый из них будет считаться отдельной записью в системе химического реестра.

Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета тривиальных различий, таких как различия в галогенов ионах в химических веществах.

Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также регистрационный номер CAS .

Список химических картриджей

[ редактировать ]

Список систем химической регистрации

[ редактировать ]

веб-интерфейс

[ редактировать ]
Имя Разработчик(и) Первоначальный выпуск
CDD-хранилище Совместное открытие лекарств   2018 [ 40 ] [ 41 ] [ 42 ]
Ловкий репозиторий [ 43 ] Ловкий IN [ 44 ] 2023 [ 45 ] [ 46 ]

Инструменты

[ редактировать ]

Вычислительные представления обычно становятся прозрачными для химиков за счет графического отображения данных. Ввод данных также упрощается за счет использования редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.

Также существуют многочисленные алгоритмы взаимного преобразования различных форматов представления. Утилита с открытым исходным кодом для преобразования — OpenBabel . Эти алгоритмы поиска и преобразования реализуются либо внутри самой системы баз данных, либо, как сейчас наблюдается тенденция, реализуются в виде внешних компонентов, которые вписываются в стандартные системы реляционных баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет использовать определяемые пользователем типы данных. Они позволяют пользователю выполнять SQL- запросы с условиями химического поиска (например, запрос на поиск записей, имеющих в своей структуре фенильное кольцо, представленное в виде строки SMILES в столбце SMILESCOL, может быть

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Алгоритмы преобразования названий ИЮПАК в представления структур и наоборот используются также для извлечения структурной информации из текста . Однако существуют трудности из-за существования нескольких диалектов ИЮПАК. Ведется работа по созданию уникального стандарта ИЮПАК (см. ИнЧИ ).

См. также

[ редактировать ]
  1. ^ «Главная страница — ScrubChem» . Scrubchem.org . Архивировано из оригинала 26 мая 2017 года.
  2. ^ Харрис, Дж. Б. (2019). «Постобработка больших данных о биологической активности». Биоинформатика и открытие лекарств . Методы Мол Биол. Том. 1939. стр. 37–47. дои : 10.1007/978-1-4939-9089-4_3 . ISBN  978-1-4939-9088-7 . ПМИД   30848455 . S2CID   73493315 .
  3. ^ «ПабХим» . pubchem.ncbi.nlm.nih.gov .
  4. ^ Ван, Ю; Брайант, Ш.; Ченг, Т; Ван, Дж; Гиндулит, А; Шумейкер, бакалавр искусств; Тиссен, Пенсильвания; Он, С; Чжан, Дж (2017). «PubChem BioAssay: обновление 2017 г.» . Нуклеиновые кислоты Рез . 45 (Д1): Д955–Д963. дои : 10.1093/nar/gkw1118 . ПМК   5210581 . ПМИД   27899599 .
  5. ^ «База данных ЧЭМБЛ» .
  6. ^ Хоффманн, Торстен; Гастрайх, Маркус (2019). «Следующий уровень химической космической навигации: выходя далеко за рамки перечислимых библиотек соединений» . Открытие наркотиков сегодня . 24 (5): 1148–1156. дои : 10.1016/j.drudis.2019.02.013 .
  7. ^ Sadybekov, Anastasiia V.; Katritch, Vsevolod (2023). "Computational approaches streamlining drug discovery" . Nature . 616 (7958): 673–685. doi : 10.1038/s41586-023-05905-z . PMID  37100941 .
  8. ^ Перейти обратно: а б Куррано, Джудит Н. (2014). «Глава 5. Поиск по структуре и подструктуре». Химическая информация для химиков . стр. 109–145. дои : 10.1039/9781782620655-00109 . ISBN  978-1-84973-551-3 .
  9. ^ Ульманн, младший (1976). «Алгоритм изоморфизма подграфов» . Журнал АКМ . 23 : 31–42. дои : 10.1145/321921.321925 .
  10. ^ Уорр, Венди А. (2011). «Представление химических структур». Wires Вычислительная молекулярная наука . 1 (4): 557–579. дои : 10.1002/wcms.36 .
  11. ^ Перейти обратно: а б «Поиск структуры PubChem» . pubchem.ncbi.nlm.nih.gov . Проверено 1 августа 2024 г.
  12. ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x .
  13. ^ «BCUTDescriptor (API cdk 2.5)» . CDK — Комплект разработки химии . 05 мая 2021 г. Проверено 4 июня 2024 г.
  14. ^ Берден, Фрэнк Р. (1 августа 1989 г.). «Молекулярный идентификационный номер для поиска субструктур». Журнал химической информации и компьютерных наук . 29 (3): 225–227. дои : 10.1021/ci00063a011 .
  15. ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x .
  16. ^ Лин-младший, Хунг; Кларк, Тимоти (2005). «Аналитическое, переменное разрешение, полное описание статических молекул и их свойств межмолекулярного связывания». Журнал химической информации и моделирования . 45 (4): 1010–1016. дои : 10.1021/ci050059v . ПМИД   16045295 .
  17. ^ Мик, Пи Джей; Лю, З.; Тиан, Л.; Ван, CJ; Уэлш, WJ; Заухар, Р.Дж. (2006). «Подписи формы: ускорение открытия лекарств с помощью компьютера». ДДТ 2006 . 19–20 (19–20): 895–904. дои : 10.1016/j.drudis.2006.08.014 . ПМИД   16997139 .
  18. ^ Грант, Дж. А.; Галлардо, Массачусетс; Пикап, БТ (1996). «Быстрый метод сравнения формы молекул: простое применение гауссовского описания формы молекул». Журнал вычислительной химии . 17 (14): 1653–1666. doi : 10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k . S2CID   96794688 .
  19. ^ Баллестер, Пи Джей; Ричардс, WG (2007). «Сверхбыстрое распознавание форм для поиска сходства в молекулярных базах данных». Труды Королевского общества А. 463 (2081): 1307–1321. Бибкод : 2007RSPSA.463.1307B . дои : 10.1098/rspa.2007.1823 . S2CID   12540483 .
  20. ^ Ким, Сонхван (2021). «Изучение химической информации в PubChem» . Текущие протоколы . 1 (8): е217. дои : 10.1002/cpz1.217 . ПМЦ   8363119 . ПМИД   34370395 .
  21. ^ Уильямс, Энтони Дж. (2010). «ChemSpider: интеграция структурированных ресурсов, распределенных через Интернет». Улучшение качества обучения с помощью онлайн-ресурсов, социальных сетей и цифровых библиотек . Серия симпозиумов ACS. Том. 1060. стр. 23–39. дои : 10.1021/bk-2010-1060.ch002 . ISBN  978-0-8412-2600-5 .
  22. ^ Джарабак, Шарлотта; Баранина, Трой; Ридли, Дэймон Д. (2020). «Информация о свойствах в записях о веществах в основных сетевых инструментах химической информации и поиска данных: понимание содержания, возможности поиска и применение в обучении». Журнал химического образования . 97 (5): 1345–1359. Бибкод : 2020JChEd..97.1345J . doi : 10.1021/acs.jchemed.9b00966 .
  23. ^ «Поиск подструктур теперь доступен в PATENTSCOPE» . www.wipo.int . 11 февраля 2019 г. Проверено 4 августа 2024 г.
  24. ^ Эртл, Питер; Патини, Люк; Сандер, Томас; и др. (2015). «Исследователь химической структуры в Википедии: поиск субструктуры и сходства молекул из Википедии» . Журнал хеминформатики . 7:10 . дои : 10.1186/s13321-015-0061-y . ПМЦ   4374119 . ПМИД   25815062 .
  25. ^ Тингл, Бенджамин И.; Тан, Хан Г.; Кастанон, Мар; Гутьеррес, Джон Дж.; Хурелбаатар, Мункхзул; Дандарчулуун, Чинзориг; Мороз Юрий С.; Ирвин, Джон Дж. (2023). «ЦИНК-22 — бесплатная многомиллиардная база данных материальных соединений для открытия лигандов» . Журнал химической информации и моделирования . 63 (4): 1166–1176. doi : 10.1021/acs.jcim.2c01253 . ПМЦ   9976280 . ПМИД   36790087 .
  26. ^ Уорр, Венди А.; Никлаус, Марк С.; Николау, Христос А.; Рэри, Матиас (2022). «Исследование сверхбольших коллекций соединений для открытия лекарств». Журнал химической информации и моделирования . 62 (9): 2021–2034. doi : 10.1021/acs.jcim.2c00224 . ПМИД   35421301 .
  27. ^ Рахман, SA; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2000). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМЦ   2820491 . ПМИД   20298518 .
  28. ^ Рахман, С. Асад; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2009). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК   2820491 . ПМИД   20298518 .
  29. ^ Бутина, Дарко (1999). «Кластеризация баз данных без присмотра на основе отпечатков дневного света и сходства Танимото: быстрый и автоматизированный способ кластеризации малых и больших наборов данных». хим. Инф. Вычислить. Наука . 39 (4): 747–750. дои : 10.1021/ci9803381 .
  30. ^ «BIOVIA Direct – BIOVIA – Dassault Systèmes®» . 8 сентября 2023 г.
  31. ^ «JChem Engines | ChemAxon» .
  32. ^ «Химия – Oracle Cartridge | Внутренняя информатика» .
  33. ^ Павлов Д.; Рыбалкин М.; Карулин, Б. (2010). «Бинго от SciTouch LLC: Химический картридж для базы данных Oracle» . Журнал хеминформатики . 2 (Приложение 1): F1. дои : 10.1186/1758-2946-2-S1-F1 . ПМК   2867114 .
  34. ^ «Программное обеспечение для поиска низкомолекулярных лекарств» . Программное обеспечение для поиска низкомолекулярных лекарств .
  35. ^ «Регистрация химикатов BIOVIA — BIOVIA — Dassault Systèmes®» . www.3ds.com . 7 сентября 2023 г.
  36. ^ «Регистрация» . Архивировано из оригинала 10 декабря 2021 г. Проверено 13 марта 2021 г.
  37. ^ «Навыки РегМол | Навыки» . 6 июня 2016 г. [ постоянная мертвая ссылка ]
  38. ^ «Комплексная регистрация» . chemaxon.com .
  39. ^ «Записная книжка сигналов — информатика PerkinElmer» . perkinelmerinformatics.com .
  40. ^ «Обновление CDD Vault: CDD Vault теперь является ELN» . 16 февраля 2018 г.
  41. ^ «Электронная лабораторная тетрадь CDD (ЭЛН)» . 14 августа 2019 г.
  42. ^ «Электронные лабораторные тетради: что это такое (и зачем они нужны)» . 4 августа 2019 г.
  43. ^ «Обзор SDF Pro от Adroit DI. Июнь 2023 г. — Mac в химии» . 05.11.2023 . Проверено 11 марта 2024 г.
  44. ^ «Главная страница Adroit DI» . adroitdi.com . Проверено 10 марта 2024 г.
  45. ^ «SDF Pro от Adroit DI: быстрое и доступное решение для хранения, сортировки и обработки 10 миллионов молекул за секунды» . www.businesswire.com . 16 мая 2023 г. Проверено 10 марта 2024 г.
  46. ^ «Регистрация лучших из лучших организаций» . 20Визионеры15 . Проверено 10 марта 2024 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 03422abde4fe61dc41a795cd13399954__1725534540
URL1:https://arc.ask3.ru/arc/aa/03/54/03422abde4fe61dc41a795cd13399954.html
Заголовок, (Title) документа по адресу, URL1:
Chemical database - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)