Международный химический идентификатор
Разработчик(и) | ИнЧИ Траст |
---|---|
Первоначальный выпуск | 15 апреля 2005 г. [1] [2] |
Стабильная версия | 1.06 / 15 декабря 2020 г |
Репозиторий | |
Операционная система | Microsoft Windows и Unix-подобные |
Платформа | ИА-32 и x86-64 |
Доступно в | Английский |
Лицензия | Лицензия ИЮПАК/ИнЧИ Траст |
Веб-сайт | www |
Международный химический идентификатор ( InChI , произносится / ˈ ɪ n tʃ iː / IN -chee ) [3] — это текстовый идентификатор химических веществ , предназначенный для обеспечения стандартного способа кодирования молекулярной информации и облегчения поиска такой информации в базах данных и в Интернете. Первоначально разработанный Международным союзом теоретической и прикладной химии (IUPAC) и Национальным институтом стандартов и технологий (NIST) с 2000 по 2005 год, формат и алгоритмы не являются собственностью. С мая 2009 года его разрабатывает InChI Trust, некоммерческая благотворительная организация из Великобритании , которая занимается внедрением и продвижением использования InChI. [4]
Идентификаторы описывают химические вещества с точки зрения слоев информации — атомов и их связей, таутомерной информации, об изотопах информации , стереохимии и информации об электронном заряде. [5] Не обязательно предоставлять все слои; например, слой таутомера можно опустить, если этот тип информации не имеет отношения к конкретному применению. Алгоритм InChI преобразует входную структурную информацию в уникальный идентификатор InChI в трехэтапном процессе: нормализация (для удаления избыточной информации), канонизация (для создания уникальной числовой метки для каждого атома) и сериализация (для получения строки символов). .
InChI отличаются от широко используемых регистрационных номеров CAS в трех отношениях: во-первых, они доступны для свободного использования и не являются собственностью; во-вторых, они могут быть вычислены на основе структурной информации и не обязательно должны присваиваться какой-либо организацией; и в-третьих, большая часть информации в InChI удобна для чтения человеком (при наличии практики). Таким образом, InChI можно рассматривать как нечто вроде общей и чрезвычайно формализованной версии названий IUPAC . Они могут выражать больше информации, чем более простая нотация SMILES , и, в отличие от строк SMILES, каждая структура имеет уникальную строку InChI, что важно в приложениях баз данных. Информация о трехмерных координатах атомов в ИнЧИ не представлена; такой формат, как PDB для этой цели можно использовать .
InChIKey, иногда называемый хешированным InChI, представляет собой сжатое цифровое представление InChI фиксированной длины (27 символов), которое непонятно человеку. Спецификация InChIKey была выпущена в сентябре 2007 года для облегчения поиска химических соединений в Интернете, поскольку это было проблематично при использовании полноразмерного InChI. [6] В отличие от InChI, InChIKey не уникален: хотя ожидается, что коллизии будут крайне редкими, известны случаи коллизий. [7]
В январе 2009 года была выпущена версия программного обеспечения ИнЧИ 1.02. Это предоставило средства для создания так называемого стандартного InChI, который не позволяет выбирать пользователю параметры работы со стереохимией и таутомерными слоями струны InChI. Стандартный InChIKey представляет собой хешированную версию стандартной строки InChI. Стандартный InChI упростит сравнение строк и ключей InChI, созданных различными группами и впоследствии доступных через различные источники, такие как базы данных и веб-ресурсы.
Постоянное развитие стандарта поддерживается с 2010 года некоммерческой организацией InChI Trust , членом которой является IUPAC. Текущая версия программного обеспечения — 1.06, выпущенная в декабре 2020 года. [8] До версии 1.04 программное обеспечение было свободно доступно по с открытым исходным кодом лицензии LGPL . [9] но теперь он использует специальную лицензию под названием IUPAC-InChI Trust License. [10]
Поколение
[ редактировать ]Чтобы избежать создания различных InChI для таутомерных структур, перед созданием InChI входная химическая структура нормализуется, чтобы уменьшить ее до так называемой основной родительской структуры. Это может включать изменение порядка связей, перестановку формальных зарядов и, возможно, добавление и удаление протонов. Различные входные структуры могут дать один и тот же результат; например, уксусная кислота и ацетат будут иметь одну и ту же основную исходную структуру, что и уксусная кислота. Основная родительская структура может быть отключена, состоящая из более чем одного компонента, и в этом случаеподслои в ИнЧИ обычно состоят из подслоев для каждого компонента, разделенных точкой с запятой (точка для подслоя химической формулы). Один из способов, которым это может произойти, заключается в том, что во время нормализации все атомы металла отключаются; так, например, ИнЧИ по тетраэтилсвинцу будет состоять из пяти компонентов: одного для свинца и четырех для этильных групп. [5]
Первый, основной слой InChI относится к этой основной родительской структуре, давая его химическую формулу, безводородную связь без порядка связей ( /c
подуровень) иводородная связь ( /h
подслой.) /q
часть зарядового слоя отдает свой заряд, а /p
Часть зарядового слоя сообщает, сколько протонов (ионов водорода) необходимо добавить к нему или удалить из него, чтобы восстановить исходную структуру. Если присутствует, стереохимический слой с подслоями b
, /t
, /m
и /s
, дает стереохимическую информацию иизотопный слой /i
(который может содержать подслои /h
, /b
, /t
, /m
и /s
) дает изотопную информацию. Это единственные слои, которые могут встречаться в стандартном InChI. [5]
Если пользователь хочет указать точный таутомер, фиксированный слой водорода /f
могут быть добавлены, которые могут содержать различные дополнительные подслои; однако это невозможно сделать в стандартном InChI, поэтому разные таутомеры будут иметь один и тот же стандартный InChI (например, аланин будет давать один и тот же стандартный InChI, независимо от того, введен ли он в нейтральной или цвиттер-ионной форме.)Наконец, нестандартное переподключение /r
может быть добавлен слой, что эффективно дает новый InChI, генерируемый без разрыва связей с атомами металла. Он может содержать различные подслои, в том числе /f
. [5]
Формат и слои
[ редактировать ]Тип интернет-СМИ | химическая / х-инчи |
---|---|
Тип формата | химический формат файла |
Каждый ИнЧИ начинается со строки " InChI=
", за которым следует номер версии, которая на данный момент 1
. Если ИнЧИ стандартный, за ним следует буква S
для стандартного InChI , который представляет собой полностью стандартизированную разновидность InChI, сохраняющую тот же уровень внимания к деталям структуры и те же правила восприятия рисования. Оставшаяся информация структурирована как последовательность слоев и подуровней, причем каждый уровень предоставляет один конкретный тип информации. Слои и подслои разделяются разделителем " /
" и начинаются с характерной буквы префикса (за исключением подслоя химической формулы основного слоя). Шесть слоев с важными подслоями:
- Основной слой (всегда присутствует)
- Химическая формула (без префикса). Это единственный подслой, который должен присутствовать в каждом ИнЧИ. Числа, используемые в ИнЧИ, даны в порядке элементов формулы, исключая атомы водорода. Например, «/C10H16N5O13P3» подразумевает, что атомы с номерами 1–10 представляют собой атомы углерода, 11–15 — азота, 16–28 — кислорода и 29–31 — фосфора. [11]
- Соединения атомов (префикс: "
c
"). Атомы в химической формуле (за исключением атомов водорода) нумеруются последовательно; этот подслой описывает, какие атомы связаны связями с какими другими. Тип этих связей позже указывается в стереохимическом слое с префиксом "b
". - Атомы водорода (префикс: "
h
"). Описывает, сколько атомов водорода связано с каждым из других атомов.
- Зарядовый слой
- подслой заряда (префикс: "
q
") - протонный подслой (префикс: "
p
"для "протонов")
- подслой заряда (префикс: "
- Стереохимический слой
- Изотопный слой (префикс: "
i
"), может включать в себя подслои: [11]- подслой "
h
"для изотопного водорода - подслои "
b
", "t
", "m
", "s
"для изотопной стереохимии
- подслой "
- Слой фиксированного H (префикс: "
f
") для таутомерных водородов; содержит некоторые или все вышеперечисленные типы слоев, за исключением связей атомов; может заканчиваться на "o
"подслой; никогда не входил в стандартный ИнЧИ [11] - Воссоединенный слой (префикс: "
r
"); содержит всю InChI структуры с пересоединенными атомами металла; никогда не входит в стандартный InChI
Преимущество формата разделителя-префикса заключается в том, что пользователь может легко использовать поиск по подстановочным знакам для поиска идентификаторов, совпадающих только в определенных слоях.
Структурная формула | стандартный ИнЧИ |
---|---|
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 | |
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 |
ИнЧИКей
[ редактировать ]Сокращенный 27-символьный InChIKey представляет собой хешированную версию полного InChI (с использованием алгоритма SHA-256 ), предназначенную для облегчения поиска химических соединений в Интернете. [6] Стандартный InChIKey является хешированным аналогом стандартного InChI . Большинство химических структур в Интернете до 2007 года были представлены в виде файлов GIF , в которых нельзя осуществлять поиск по химическому содержанию. Полный InChI оказался слишком длинным для удобного поиска, поэтому был разработан InChIKey. Существует очень маленькая, но ненулевая вероятность того, что две разные молекулы будут иметь один и тот же InChIKey, но вероятность дублирования только первых 14 символов была оценена как всего одно дублирование в 75 базах данных, каждая из которых содержит один миллиард уникальных структур. Поскольку все базы данных в настоящее время содержат менее 50 миллионов структур, такое дублирование в настоящее время представляется маловероятным. Недавнее исследование более подробно изучает частоту столкновений и обнаруживает, что экспериментальная частота столкновений соответствует теоретическим ожиданиям. [12]
InChIKey в настоящее время состоит из трех частей, разделенных дефисами, по 14, 10 и одному символу соответственно, например XXXXXXXXXXXXXX-YYYYYYYYFV-P
. Первые 14 символов являются результатом хэша SHA-256 информации о подключении (основной уровень и /q
подслой зарядового слоя) ИнЧИ. Вторая часть состоит из 10 символов, полученных в результате хэша остальных слоев InChI, один символ указывает тип InChIKey ( S
для стандартных и N
для нестандартного) и символ, обозначающий используемую версию InChI (в настоящее время A
для версии 1). Наконец, единственный символ в конце указывает на протонирование основной родительской структуры, соответствующее /p
подслой зарядового слоя ( N
без протонирования, O
, P
, ... если нужно добавить протоны и M
, L
, ... если их следует удалить.) [13] [5]
Пример
[ редактировать ]Морфин имеет структуру, показанную справа. Стандартный InChI для морфина составляет InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1
а стандартный InChIKey для морфия BQJCRHHNABKAKU-KBQPJGBKSA-N
. [14]
Резолверы ИнЧИ
[ редактировать ]Поскольку InChI не может быть реконструирован из InChIKey, InChIKey всегда необходимо связать с исходным InChI, чтобы вернуться к исходной структуре. InChI Resolvers действуют как служба поиска для создания этих ссылок, а услуги прототипов доступны в Национальном институте рака , службе UniChem в Европейском институте биоинформатики и PubChem . У ChemSpider был резольвер до июля 2015 года, когда он был выведен из эксплуатации. [15]
Имя
[ редактировать ]Первоначально формат назывался IChI (Химический идентификатор ИЮПАК), затем в июле 2004 года был переименован в INChI (Химический идентификатор ИЮПАК-НИСТ), а в ноябре 2004 года снова переименован в InChI (Международный химический идентификатор ИЮПАК), торговую марку ИЮПАК.
Постоянное развитие
[ редактировать ]Научное руководство стандартом InChI осуществляется Подкомитетом VIII Division IUPAC, а финансирование подгрупп, исследующих и определяющих расширение стандарта, осуществляется как IUPAC , так и InChI Trust . InChI Trust финансирует разработку, тестирование и документацию InChI. Текущие расширения определяются для работы с полимерами и смесями , структурами Маркуша , реакциями. [16] и металлоорганические соединения , и после принятия Подкомитетом Отдела VIII будут добавлены в алгоритм.
Программное обеспечение
[ редактировать ]InChI Trust разработал программное обеспечение для генерации InChI, InChIKey и других идентификаторов. Ниже приводится история выпусков этого программного обеспечения. [17]
Программное обеспечение и версия | Дата | Лицензия | Комментарии |
---|---|---|---|
InChI v. 1 | апрель 2005 г. | ||
InChI v. 1.01 | август 2006 г. | ||
ИнЧИ в. 1.02бета | Сентябрь 2007 г. | LGPL 2.1 | Добавляет функциональность InChIKey. |
InChI v. 1.02 | Январь 2009 г. | LGPL 2.1 | Изменен формат InChIKey. Представляет стандартный InChI. |
InChI v. 1.03 | июнь 2010 г. | LGPL 2.1 | |
InChI v. 1.03 source code docs | март 2011 г. | ||
InChI v. 1.04 | Сентябрь 2011 г. | Лицензия IUPAC/InChI Trust InChI 1.0 | Новая лицензия. Добавлена поддержка элементов 105-112. Поддержка CML удалена. |
InChI v. 1.05 | Январь 2017 г. | Лицензия IUPAC/InChI Trust InChI 1.0 | Добавлена поддержка элементов 113-118. Экспериментальная полимерная подложка. Экспериментальная поддержка больших молекул. |
RInChI v. 1.00 | Март 2017 г. | Лицензия IUPAC/InChI Trust InChI 1.0 и BSD-стиль | Вычисляет реакцию ИнЧИс. [16] |
InChI v. 1.06 | декабрь 2020 г. | Лицензия IUPAC/InChI Trust InChI 1.0 [10] | Пересмотренная полимерная подложка. |
Принятие
[ редактировать ]InChI был принят многими большими и меньшими базами данных, включая ChemSpider , ChEMBL , базу данных метаболома Голма , OpenPHACTS и PubChem . [18] Однако внедрение не является простым, и многие базы данных показывают несоответствие между химическими структурами и содержащимся в них ИнХИ, что является проблемой для связывания баз данных. [19]
См. также
[ редактировать ]- Молекулярный язык запросов
- Упрощенная система молекулярного ввода (SMILES)
- Редактор молекул
- Обозначение строки SYBYL
- Bioclipse генерирует InChI и InChIKeys для нарисованных структур или открытых файлов.
- Chemistry Development Kit использует JNI-InChI для генерации InChI, может преобразовывать InChI в структуры и генерировать таутомеры на основе алгоритмов InChI.
Примечания и ссылки
[ редактировать ]- ^ «Страница проекта Международного химического идентификатора ИЮПАК» . ИЮПАК . Архивировано из оригинала 27 мая 2012 года . Проверено 5 декабря 2012 г.
- ^ Хеллер, С.; Макнот, А.; Штейн, С.; Чеховской, Д.; Плетнев И. (2013). «ИнЧИ – всемирный стандарт идентификаторов химической структуры» . Журнал хеминформатики . 5 (1): 7. дои : 10.1186/1758-2946-5-7 . ПМК 3599061 . ПМИД 23343401 .
- ^ «Что такое ИнЧИ?» . ИЮПАК 100 . Проверено 10 мая 2024 г.
- ^ «Траст ИнЧИ и ИЮПАК» . ИнЧИ Трест . Проверено 22 августа 2022 г.
- ^ Перейти обратно: а б с д и Хеллер, СР; Макнот, А.; Плетнев И.; Штейн, С.; Чеховской, Д. (2015). «InChI, Международный химический идентификатор ИЮПАК» . Журнал хеминформатики . 7:23 . дои : 10.1186/s13321-015-0068-4 . ПМК 4486400 . ПМИД 26136848 .
- ^ Перейти обратно: а б «Международный химический идентификатор ИЮПАК (ИнХИ)» . ИЮПАК . 5 сентября 2007 года. Архивировано из оригинала 30 октября 2007 года . Проверено 18 сентября 2007 г.
- ^ Э. Л. Виллигхаген (17 сентября 2011 г.). «Коллизия InChIKey: копирование/вставка своими руками» . Проверено 6 ноября 2012 г.
- ^ Гудман, Джонатан М.; Плетнев Игорь; Тиссен, Пол; Болтон, Эван; Хеллер, Стивен Р. (декабрь 2021 г.). «ИнЧИ версия 1.06: теперь надежность более 99,99%» . Журнал хеминформатики . 13 (1): 40. дои : 10.1186/s13321-021-00517-z . ПМК 8147039 . ПМИД 34030732 .
- ^ Макнот, Алан (2006). «Международный химический идентификатор ИЮПАК: ИнХл» . Химия Интернэшнл . Том. 28, нет. 6. ИЮПАК . Проверено 18 сентября 2007 г.
- ^ Перейти обратно: а б «Лицензия IUPAC/InChI-Trust на программное обеспечение Международного химического идентификатора (InChI)» (PDF) . ИЮПАК/ИнЧИ-Траст. 2020 . Проверено 9 августа 2022 г.
- ^ Перейти обратно: а б с Хеллер, Стивен Р.; Макнот, Алан; Плетнев Игорь; Штейн, Стивен; Чеховской, Дмитрий (2015). «InChI, Международный химический идентификатор ИЮПАК» . Журнал хеминформатики . 7 .: 23. дои : 10.1186/s13321-015-0068-4 . ПМК 4486400 . ПМИД 26136848 .
- ^ Плетнев И.; Эрин, А.; Макнот, А.; Блинов, К.; Чеховской, Д.; Хеллер, С. (2012). «Устойчивость к столкновению InChIKey: экспериментальное тестирование» . Журнал хеминформатики . 4 (1): 39. дои : 10.1186/1758-2946-4-39 . ПМЦ 3558395 . ПМИД 23256896 .
- ^ «Технический FAQ — ИнЧИ Траст» . inchi-trust.org . Проверено 8 января 2021 г.
- ^ «InChI=1/C17H19NO3/c1-18...» Химический паук . Проверено 18 сентября 2007 г.
- ↑ InChI Resolver, 27 июля 2015 г.
- ^ Перейти обратно: а б Грета, Гюнтер; Бланке, Герд; Краут, Ганс; Гудман, Джонатан М. (9 мая 2018 г.). «Международный химический идентификатор реакций (RInChI)» . Журнал хеминформатики . 10 (1): 45. дои : 10.1186/s13321-018-0277-8 . ПМК 4015173 . ПМИД 24152584 .
- ^ Загрузки программного обеспечения InChI , по состоянию на 8 января 2021 г.
- ^ Уорр, Вашингтон (2015). «Много ИнЧИ и немало подвигов». Журнал компьютерного молекулярного дизайна . 29 (8): 681–694. Бибкод : 2015JCAMD..29..681W . дои : 10.1007/s10822-015-9854-3 . ПМИД 26081259 . S2CID 31786997 .
- ^ Ахонди, Ю.А.; Корс, Дж.А.; Муресан, С. (2012). «Согласованность систематических химических идентификаторов внутри и между базами данных малых молекул» . Журнал хеминформатики . 4 (1): 35. дои : 10.1186/1758-2946-4-35 . ПМЦ 3539895 . ПМИД 23237381 .
Внешние ссылки
[ редактировать ]- InChI (P234) (см. использование )
- Сайт ИЮПАК ИнЧИ
- Описание алгоритма канонизации
- Погуглил InChIs презентацию для W3C.
- Выпуск InChI 1.02. Окончательная версия InChI 1.02 и объяснение стандарта InChI, январь 2009 г.
- NCI/CADD Chemical Identifier Resolver Генерирует и распознает InChI/InChIKeys и многие другие химические идентификаторы.
- Онлайн-редактор молекул PubChem , поддерживающий SMILES /SMARTS и InChI.
- API-интерфейсы ChemSpider Compound ChemSpider REST API , который позволяет генерировать InChI и преобразовывать InChI в структуру (а также SMILES и генерировать другие свойства)
- MarvinSketch от ChemAxon , реализация для рисования структур (или открытия файлов других форматов) и вывода в формат файла InChI.
- BKchem реализует собственный синтаксический анализатор InChI и использует реализацию IUPAC для генерации строк InChI.
- CompoundSearch реализует поиск спектральных библиотек InChI и InChI Key.
- SpectraBase реализует поиск спектральных библиотек InChI и InChI Key.
- JSME. Архивировано 6 января 2015 г. на Wayback Machine. Это бесплатный молекулярный редактор на основе JavaScript, который генерирует InChI и InChI Key в веб-браузере, что позволяет легко осуществлять поиск химических соединений в Интернете.