Jump to content

Химическая база данных

Химическая база данных это база данных, специально предназначенная для хранения химической информации . Эта информация о химических и кристаллических структурах , спектрах, реакциях и синтезах, а также теплофизических данных.

Типы химических данных баз

База данных по биоактивности [ править ]

Базы данных о биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, полученными из биоанализов в литературе, патентах и ​​программах скрининга.

Имя Разработчик(и) Первоначальный выпуск
СкрабХим Джейсон Брет Харрис 2016 [1] [2]
PubChem-BioAssay NIH   2004 [3] [4]
ХЭМБЛ ЭМБЛ-ЭБИ 2009 [5]

Химические структуры [ править ]

Химические структуры традиционно изображаются с помощью линий, обозначающих химические связи между атомами и нарисованных на бумаге (2D структурные формулы ). Хотя это идеальные визуальные представления для химика , они непригодны для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Однако большие молекулы, такие как белки, представляются более компактно с использованием последовательностей их строительных блоков аминокислот. Также представлены радиоактивные изотопы, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных по структурам будут обеспечивать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти.

База данных литературы [ править ]

Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, посвященные химической характеристике.

Кристаллографическая база данных [ править ]

Кристаллографические базы данных хранят данные рентгеновской кристаллической структуры. Типичные примеры включают банк данных о белках и Кембриджскую структурную базу данных .

База данных спектров ЯМР [ править ]

Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .

База данных реакций [ править ]

Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных по реакциям хранятся также промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, эдуктах и ​​механизмах реакций .

Популярным примером, в котором перечислены данные о химических реакциях , является база данных Beilstein .

Теплофизическая база данных [ править ]

Теплофизические данные – это информация о

структуры химической Представление

Существует два основных метода представления химических структур в цифровых базах данных.

Эти подходы были усовершенствованы, чтобы обеспечить представление стереохимических различий и зарядов, а также особых видов связей, например, наблюдаемых в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.

Поиск [ править ]

Подструктура [ править ]

Химики могут осуществлять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных особенно отличаются от других баз данных общего назначения поддержкой поиска подструктур. Этот вид поиска достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изученным применением теории графов . Алгоритмы поиска требуют больших вычислительных ресурсов, часто O ( n 3 ) или О ( н 4 ) временная сложность (где n — количество задействованных атомов). Интенсивный компонент поиска называется поатомным поиском (ABAS), при котором ищется отображение атомов субструктуры поиска и связей с целевой молекулой. При поиске ABAS обычно используется алгоритм Ульмана. [6] или его варианты ( например , SMSD [7] ). Ускорение достигается за счет амортизации времени , то есть часть времени на поисковые задачи экономится за счет использования предварительно вычисленной информации. Этот предварительный расчет обычно включает в себя создание битовых строк, отражающих наличие или отсутствие молекулярных фрагментов. Рассматривая фрагменты, присутствующие в поисковой структуре, можно исключить необходимость сравнения ABAS с целевыми молекулами, не имеющими фрагментов, присутствующих в поисковой структуре. Такое исключение называется скринингом (не путать с процедурами скрининга, используемыми при обнаружении лекарств). Битовые строки, используемые в этих приложениях, также называются структурными ключами. Производительность таких ключей зависит от выбора фрагментов, используемых для построения ключей, и вероятности их присутствия в молекулах базы данных. Другой тип ключа использует хэш-коды, основанные на фрагментах, полученных вычислительным путем. Их называют «отпечатками пальцев», хотя этот термин иногда используется как синоним структурных ключей. Объем памяти, необходимый для хранения этих структурных ключей и отпечатков пальцев, можно уменьшить путем «свертывания», которое достигается путем объединения частей ключа с помощью побитовых операций и тем самым уменьшения общей длины. [8]

Конформация [ править ]

Поиск путем сопоставления трехмерной конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиски такого типа могут быть очень дорогостоящими в вычислительном отношении. Было предложено множество приближенных методов, например BCUTS . [9] [10] [11] специальные представления функций, моменты инерции , гистограммы трассировки лучей , гистограммы максимальных расстояний, мультиполи формы и многое другое. [12] [13] [14] [15] [16]

Пример [ править ]

Базы данных синтезируемых и виртуальных химических веществ с каждым годом становятся все больше, поэтому способность эффективно их добывать имеет решающее значение для открытия лекарств . MolSoft , MolCart Giga Search от [17] представил 2018 год на собрании группы пользователей ICM MolSoft, [18] Это первый в мире метод, предназначенный для поиска подструктур миллиардов химических веществ. [ нужна ссылка ]

Дескрипторы [ править ]

Все свойства молекул, выходящие за рамки их структуры, можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Кроме того, существуют различные искусственные и более или менее стандартизированные системы наименования молекул, дающие более или менее двусмысленные названия и синонимы . Имя IUPAC обычно является хорошим выбором для представления структуры молекулы в удобочитаемой и уникальной строке , хотя для более крупных молекул оно становится громоздким. тривиальные имена С другой стороны, изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в основном могут быть вычислены непосредственно на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно, используя задействованную многомерную статистику или экспериментальные ( скрининг , биоанализ результаты ). Все эти дескрипторы из соображений вычислительных затрат могут храниться вместе с представлением молекулы, что обычно и происходит.

Сходство [ править ]

Единого определения молекулярного сходства не существует, однако это понятие может быть определено в соответствии с применением и часто описывается как обратная мера расстояния в пространстве дескрипторов. Две молекулы можно считать более похожими, например, если разница в их молекулярных массах меньше, чем по сравнению с другими. Для получения многомерной меры расстояния можно объединить множество других показателей. Меры расстояния часто подразделяются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . максимального общего подграфа ( MCS ) Поиск подструктуры на основе [7] (мера сходства или расстояния) также очень распространена. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем выявления молекул, имеющих общий подграф (подструктуру). [19]

Химические вещества в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. К химическим объектам с множеством атрибутов можно применять как иерархические, так и неиерархические подходы к кластеризации. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо с помощью дескрипторов, полученных путем вычислений . Одним из наиболее популярных подходов кластеризации является алгоритм Джарвиса-Патрика . [20]

В фармакологически ориентированных химических хранилищах сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из аналогичных комбинаций физико-химических дескрипторов с использованием методов QSAR .

Системы регистрации [ править ]

Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.

Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, за счет использования уникальных представлений. Применяя правила приоритета для создания строковых обозначений, можно получить уникальные/ канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хеш-кодов для достижения той же цели.

Ключевое различие между системой регистрации и простой базой данных по химическим веществам заключается в способности точно представлять то, что известно, неизвестно и частично известно. Например, в химической базе данных может храниться молекула с неуказанной стереохимией , тогда как система химического реестра требует от регистратора указания, является ли стереоконфигурация неизвестной, конкретной (известной) смесью или рацемической . Каждый из них будет считаться отдельной записью в системе химического реестра.

Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета тривиальных различий, таких как различия в галогенов ионах в химических веществах.

Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также регистрационный номер CAS .

Список химических картриджей

Список химической регистрации систем

  • ХимРег [26]
  • Зарегистрироваться [27]
  • РегМол [28]
  • Соединение-Регистрация [29]
  • Ансамбль [30]

Сетевой [ править ]

Имя Разработчик(и) Первоначальный выпуск
CDD-хранилище Совместное открытие лекарств   2018 [31] [32] [33]
Ловкий репозиторий [34] Ловкий IN [35] 2023 [36] [37]

Инструменты [ править ]

Вычислительные представления обычно становятся прозрачными для химиков за счет графического отображения данных. Ввод данных также упрощается за счет использования редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.

Также существуют многочисленные алгоритмы взаимного преобразования различных форматов представления. Утилита с открытым исходным кодом для преобразования — OpenBabel . Эти алгоритмы поиска и преобразования реализуются либо внутри самой системы баз данных, либо, как сейчас наблюдается тенденция, реализуются в виде внешних компонентов, которые вписываются в стандартные системы реляционных баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет использовать определяемые пользователем типы данных. Они позволяют пользователю выполнять SQL- запросы с условиями химического поиска (например, запрос на поиск записей, имеющих в своей структуре фенильное кольцо, представленное в виде строки SMILES в столбце SMILESCOL, может быть

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Алгоритмы преобразования названий ИЮПАК в представления структур и наоборот используются также для извлечения структурной информации из текста . Однако существуют трудности из-за существования нескольких диалектов ИЮПАК. Ведется работа по созданию уникального стандарта ИЮПАК (см. ИнЧИ ).

См. также [ править ]

Ссылки [ править ]

  1. ^ «Главная страница — ScrubChem» . Scrubchem.org . Архивировано из оригинала 26 мая 2017 года.
  2. ^ Харрис, Дж. Б. (2019). «Постобработка больших данных о биологической активности». Биоинформатика и открытие лекарств . Методы Мол Биол. Том. 1939. стр. 37–47. дои : 10.1007/978-1-4939-9089-4_3 . ISBN  978-1-4939-9088-7 . ПМИД   30848455 . S2CID   73493315 .
  3. ^ «ПабХим» . pubchem.ncbi.nlm.nih.gov .
  4. ^ Ван, Ю; Брайант, Ш.; Ченг, Т; Ван, Дж; Гиндулит, А; Шумейкер, бакалавр искусств; Тиссен, Пенсильвания; Он, С; Чжан, Дж (2017). «PubChem BioAssay: обновление 2017 г.» . Нуклеиновые кислоты Рез . 45 (Д1): Д955–Д963. дои : 10.1093/nar/gkw1118 . ПМК   5210581 . ПМИД   27899599 .
  5. ^ «База данных ЧЭМБЛ» .
  6. ^ Ульманн, Джулиан Р. (1976), «Алгоритм изоморфизма подграфов», Журнал ACM , 23 (1): 31–42, CiteSeerX   10.1.1.361.7741 , doi : 10.1145/321921.321925 , S2CID   17268751
  7. Перейти обратно: Перейти обратно: а б Рахман, SA; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2000). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК   2820491 . ПМИД   20298518 .
  8. ^ Каммингс, Максвелл Д.; Максвелл, Алан С.; ДеЖарле, Рене Л. (2007). «Обработка баз данных малых молекул для автоматического стыковки». Медицинская химия . 3 (1): 107–113. дои : 10.2174/157340607779317481 . ПМИД   17266630 .
  9. ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35.
  10. ^ «BCUTDescriptor (API cdk 2.5)» . CDK — Комплект разработки химии . 05 мая 2021 г. Проверено 4 июня 2024 г.
  11. ^ Берден, Фрэнк Р. (1 августа 1989 г.). «Молекулярный идентификационный номер для поиска субструктур». Журнал химической информации и компьютерных наук . 29 (3): 225–227. дои : 10.1021/ci00063a011 .
  12. ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x .
  13. ^ Лин-младший, Хунг; Кларк, Тимоти (2005). «Аналитическое, переменное разрешение, полное описание статических молекул и их свойств межмолекулярного связывания». Журнал химической информации и моделирования . 45 (4): 1010–1016. дои : 10.1021/ci050059v . ПМИД   16045295 .
  14. ^ Мик, Пи Джей; Лю, З.; Тиан, Л.; Ван, CJ; Уэлш, WJ; Заухар, Р.Дж. (2006). «Подписи формы: ускорение открытия лекарств с помощью компьютера». ДДТ 2006 . 19–20 (19–20): 895–904. дои : 10.1016/j.drudis.2006.08.014 . ПМИД   16997139 .
  15. ^ Грант, Дж. А.; Галлардо, Массачусетс; Пикап, БТ (1996). «Быстрый метод сравнения формы молекул: простое применение гауссовского описания формы молекул». Журнал вычислительной химии . 17 (14): 1653–1666. doi : 10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k . S2CID   96794688 .
  16. ^ Баллестер, Пи Джей; Ричардс, WG (2007). «Сверхбыстрое распознавание форм для поиска сходства в молекулярных базах данных». Труды Королевского общества А. 463 (2081): 1307–1321. Бибкод : 2007RSPSA.463.1307B . дои : 10.1098/rspa.2007.1823 . S2CID   12540483 .
  17. ^ http://www.molsoft.com/giga-search.html
  18. ^ https://www.molsoft.com/ugmArchives.html
  19. ^ Рахман, С. Асад; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2009). «Набор инструментов для детектора подграфов малых молекул (SMSD)» . Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК   2820491 . ПМИД   20298518 .
  20. ^ Бутина, Дарко (1999). «Кластеризация баз данных без присмотра на основе отпечатков дневного света и сходства Танимото: быстрый и автоматизированный способ кластеризации малых и больших наборов данных». хим. Инф. Вычислить. Наука . 39 (4): 747–750. дои : 10.1021/ci9803381 .
  21. ^ «BIOVIA Direct – BIOVIA – Dassault Systèmes®» .
  22. ^ «JChem Engines | ChemAxon» .
  23. ^ «Химия – Oracle Cartridge | Внутренняя информатика» .
  24. ^ Павлов Д.; Рыбалкин М.; Карулин, Б. (2010). «Бинго от SciTouch LLC: Химический картридж для базы данных Oracle» . Журнал хеминформатики . 2 (Приложение 1): F1. дои : 10.1186/1758-2946-2-S1-F1 . ПМК   2867114 .
  25. ^ «Программное обеспечение для поиска низкомолекулярных лекарств» . Программное обеспечение для поиска низкомолекулярных лекарств .
  26. ^ «Регистрация химикатов BIOVIA — BIOVIA — Dassault Systèmes®» . www.3ds.com .
  27. ^ «Регистрация» . Архивировано из оригинала 10 декабря 2021 г. Проверено 13 марта 2021 г.
  28. ^ «Навыки РегМол | Навыки» . 6 июня 2016 г. [ постоянная мертвая ссылка ]
  29. ^ «Комплексная регистрация» . chemaxon.com .
  30. ^ «Записная книжка сигналов — информатика PerkinElmer» . perkinelmerinformatics.com .
  31. ^ «Обновление CDD Vault: CDD Vault теперь является ELN» . 16 февраля 2018 г.
  32. ^ «Электронная лабораторная тетрадь CDD (ЭЛН)» . 14 августа 2019 г.
  33. ^ «Электронные лабораторные тетради: что это такое (и зачем они нужны)» . 4 августа 2019 г.
  34. ^ «Обзор SDF Pro от Adroit DI. Июнь 2023 г. — Mac в химии» . 05.11.2023 . Проверено 11 марта 2024 г.
  35. ^ «Главная страница Adroit DI» . adroitdi.com . Проверено 10 марта 2024 г.
  36. ^ «SDF Pro от Adroit DI: быстрое и доступное решение для хранения, сортировки и обработки 10 миллионов молекул за секунды» . www.businesswire.com . 16 мая 2023 г. Проверено 10 марта 2024 г.
  37. ^ «Регистрация лучших из лучших организаций» . 20Визионеры15 . Проверено 10 марта 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fae18ba9ca9fda3b6d5389d621cb25ae__1717896300
URL1:https://arc.ask3.ru/arc/aa/fa/ae/fae18ba9ca9fda3b6d5389d621cb25ae.html
Заголовок, (Title) документа по адресу, URL1:
Chemical database - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)