Файл химической таблицы
Файл химической таблицы (CT-файл) — это семейство текстовых форматов химических файлов , описывающих молекулы и химические реакции. Например, в одном формате перечислен каждый атом в молекуле, координаты xyz этого атома и связи между атомами.
Форматы файлов
[ редактировать ]В семействе существует несколько форматов файлов.
Форматы были созданы компанией MDL Information Systems (MDL), которая была приобретена Symyx Technologies , затем объединена с Accelrys Corp. и теперь называется BIOVIA, дочерней компанией Dassault Systemes, входящей в Dassault Group . [1]
Файл CT имеет открытый формат . BIOVIA публикует свою спецификацию. [2] BIOVIA требует от пользователей регистрации для загрузки спецификаций формата файлов CT. [3]
Молфиле
[ редактировать ]Расширение имени файла | .моль |
---|---|
Тип интернет-СМИ | химикат/x-mdl-molfile |
Тип формата | химический формат файла |
MDL Molfile — это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.
Файл molfile состоит из некоторой информации заголовка: таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.
Мол-файл достаточно распространен, поэтому большинство, если не все, программные системы/приложения для хеминформатики способны читать этот формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторыми вычислительными программами, такими как Mathematica .
Текущей стандартной версией де-факто является molfile V2000, хотя в последнее время формат V3000 получил достаточно широкое распространение, что представляет собой потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.
L-Alanine | Строка заголовка (может быть пустой, но строка должна существовать) | Блок заголовка (3 строки) |
---|---|---|
ABCDEFGH09071717443D | Строка временной метки программы/файла (Название исходной программы и временная метка файла) | |
Exported | Строка комментария (может быть пустой, но строка должна существовать) | |
6 5 0 0 1 0 3 V2000 | Считает строку | Таблица соединений |
-0.6622 0.5342 0.0000 C 0 0 2 0 0 0 0.6622 -0.3000 0.0000 C 0 0 0 0 0 0-0.7207 2.0817 0.0000 C 1 0 0 0 0 0-1.8622 -0.3695 0.0000 N 0 3 0 0 0 0 0.6220 -1.8037 0.0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 | Атомный блок (по 1 строке на каждый атом): x, y, z (в ангстремах ), элемент и т.д. | |
1 2 1 0 0 0 01 3 1 0 1 0 01 4 1 0 0 0 02 5 2 0 0 0 02 6 1 0 0 0 0 | Блок облигаций (по 1 строке для каждой связи): 1-й атом, 2-й атом, тип и т. д. | |
M CHG 2 4 1 6 -1M ISO 1 3 13 | Блок свойств | |
M END | КОНЕЦ строки (ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед M END) | КОНЕЦ |
Спецификация блока строк подсчета
[ редактировать ]Ценить | 6 | 5 | 0 | 0 | 0 | 1 | В2000 |
---|---|---|---|---|---|---|---|
Описание | количество атомов | количество облигаций | количество атомов в списке | Хиральный флаг, 1 = киральный; 0 = не хиральный | количество текстовых записей | количество строк дополнительные свойства | мол версия |
Тип | [Общий] | [Общий] | [Запрос] | [Общий] | [ISIS/Настольный компьютер] | [Общий] |
Спецификация облигационного блока
[ редактировать ]Блок облигаций состоит из строк облигаций, по одной строке на облигацию, следующего формата:
111 222 ттт ссс ххх ррр ccc
где значения описаны в следующей таблице:
Поле | Значение | Ценности |
---|---|---|
111 | номер первого атома | |
222 | второй атомный номер | |
ттт | тип облигации | 1 = одинарный, 2 = двойной, 3 = тройной, 4 = ароматический, 5 = одинарный или двойной, 6 = одинарный или ароматический, 7 = двойной или ароматический, 8 = любой |
ссс | Бонд стерео | Для одинарных облигаций: 0 = не стерео; 1 = вверх; 4=либо, 6= вниз Для двойных облигаций: 0 = использовать координаты x, y, z из блока атомов для определения цис или транс; 3 = цис или транс (любая) двойная связь |
ххх | не используется | |
ррр | топология облигаций | 0 = любой, 1 = кольцо, 2 = цепочка |
ссс | состояние реагирующего центра | 0 = не отмечено, 1 = центр, -1 = не центр, Дополнительно: 2 = нет изменений, 4 = связь установлена/разрушена, 8 = порядок связей изменен. 12 = 4+8 (как сделано/сломано, так и изменено); Также возможны 5 = (4 + 1), 9 = (8 + 1) и 13 = (12 + 1). |
Расширенная таблица соединений (V3000)
[ редактировать ]Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует одно приложение molfile, содержащее тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфайл.
Обратите внимание, что «нет структуры» помечается пометкой «V3000» вместо отметки версии «V2000». В шапке помимо версии есть еще два изменения:
- Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие читатели проигнорируют счетчик и остановятся на M END.)
- «Пространственный код» поддерживается более явно. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены какие-либо ненулевые координаты Z.
В отличие от molfile V2000, расширенный molfile Rgroup V3000 имеет тот же формат заголовка, что и molfile, отличный от Rgroup.
L-Alanine | Описание | Блок заголовка |
---|---|---|
GSMACCS-II07189510252D 1 0.00366 0.00000 0 | Заголовок с отметкой времени | |
Figure 1, J. Chem. Inf. Comput. Sci., Vol 32, No. 3., 1992 | Строка комментария | |
0 0 0 0 0 999 V3000 | Линия совместимости с V2000 | |
M V30 BEGIN CTAB | Таблица соединений | |
M V30 COUNTS 6 5 0 0 1 | Считает строку | |
M V30 BEGIN ATOMM V30 1 C -0.6622 0.5342 0 0 CFG=2M V30 2 C 0.6622 -0.3 0 0M V30 3 C -0.7207 2.0817 0 0 MASS=13M V30 4 N -1.8622 -0.3695 0 0 CHG=1M V30 5 O 0.622 -1.8037 0 0M V30 6 O 1.9464 0.4244 0 0 CHG=-1M V30 END ATOM | Атомный блок | |
M V30 BEGIN BONDM V30 1 1 1 2M V30 2 1 1 3 CFG=1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6M V30 END BOND | Блок облигаций | |
M V30 END CTABM END |
Считает строку
[ редактировать ]Строка счетчиков обязательна и должна быть первой. Он определяет количество атомов, связей, трехмерных объектов и S-групп. Он также определяет, установлен ли флаг CHIRAL. При желании в строке count можно указать molregno. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счетчиков:
М V30 имеет значение | уже | обратите внимание | НСГ | н3д | хиральный | [КОРОЛЕВСТВО=королевство] |
М V30 имеет значение | 6 | 5 | 0 | 0 | 1 | |
количество атомов | количество облигаций | количество S-групп | количество 3D-ограничений | если 1 = молекула хиральна | молекула или модель регно |
СДС
[ редактировать ]Расширение имени файла | .сд , .sdf |
---|---|
Тип интернет-СМИ | химикат/x-mdl-sdfile |
Тип формата | химический формат файла |
SDF — один из семейства форматов файлов химических данных, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает формат структурных данных, а файлы SDF фактически обертывают формат molfile ( MDL Molfile ). Множественные записи разделяются строками, состоящими из четырех знаков доллара ($$$$). Ключевой особенностью этого формата является его способность включать связанные данные.
Связанные элементы данных обозначаются следующим образом:
> <Unique_ID>XCA3464366 > <ClogP>5.825> <Vendor>Sigma> <Molecular Weight>499.611
Также поддерживаются многострочные элементы данных. Спецификация формата MDL SDF требует, чтобы символ возврата жесткой каретки был вставлен, если длина одной строки любого текстового поля превышает 200 символов. На практике это требование часто нарушается, поскольку многие строки SMILES и InChI превышают эту длину.
Другие форматы семьи
[ редактировать ]Существуют и другие, менее распространенные форматы семейства:
- RXNFile — для представления одной химической реакции;
- RDFile — для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
- RGFile - для представления структур Маркуша (устарело, Molfile V3000 может представлять структуры Маркуша);
- XDFile — для представления химической информации в формате XML .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Долби, А.; Нурс, Дж. Г.; Хауншелл, штат Вашингтон; Гушерст, ОКИ; Гриер, Д.Л.; Леланд, бакалавр; Лауфер, Дж. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Журнал химической информации и моделирования . 32 (3): 244. doi : 10.1021/ci00007a012 .
- ^ «Форматы файлов CT» (PDF) . Биовия. Август 2020 г. Архивировано (PDF) из оригинала 19 февраля 2021 г. Проверено 19 февраля 2021 г.
- ^ «Регистрационная форма» . Биовия. 13 августа 2020 г. Архивировано из оригинала 01 октября 2020 г. Проверено 19 февраля 2021 г.
Внешние ссылки
[ редактировать ]- Платное программное обеспечение Adroit Repository для обработки файлов SD (SDF) от Adroit DI .
- Бесплатное программное обеспечение SDF Toolkit для обработки файлов SD (SDF).
- NCI/CADD Chemical Identifier Resolver генерирует файлы SD (SDF) на основе названий химических веществ, регистрационных номеров CAS, SMILES, InChI, InChIKey и т. д.
- Бесплатное программное обеспечение KNIME для управления данными и их анализа, а также может читать и записывать файлы SD (SDF).
- Служба информационной панели сравнительной токсикологии, предоставляемая Агентством по охране окружающей среды (EPA), которая генерирует файлы SD (SDF) из химических названий, регистрационных номеров CAS, SMILES, InChI, InChIKey, ...