Jump to content

Файл химической таблицы

Файл химической таблицы (файл CT) — это семейство текстовых форматов химических файлов , описывающих молекулы и химические реакции. Например, в одном формате перечислен каждый атом в молекуле, координаты xyz этого атома и связи между атомами.

Форматы файлов

[ редактировать ]

В семействе существует несколько форматов файлов.

Форматы были созданы компанией MDL Information Systems (MDL), которая была приобретена Symyx Technologies , затем объединена с Accelrys Corp. и теперь называется BIOVIA, дочерней компанией Dassault Systemes, входящей в Dassault Group . [ 1 ]

Файл CT имеет открытый формат . BIOVIA публикует свою спецификацию. [ 2 ] BIOVIA требует от пользователей регистрации для загрузки спецификаций формата файлов CT. [ 3 ]

ctab
Расширение имени файла
.моль
Тип интернет-СМИ
химикат/x-mdl-molfile
Тип формата химический формат файла

MDL Molfile — это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.

Файл molfile состоит из некоторой информации заголовка: таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.

Мол-файл достаточно распространен, поэтому большинство, если не все, программные системы/приложения для хеминформатики способны читать этот формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторыми вычислительными программами, такими как Mathematica .

Текущей стандартной версией де-факто является molfile V2000, хотя в последнее время формат V3000 получил достаточно широкое распространение, что представляет собой потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.

Содержимое молфила L-аланина
L-Alanine
Строка заголовка (может быть пустой, но строка должна существовать) Блок заголовка

(3 строки)

  ABCDEFGH09071717443D
Строка временной метки программы/файла

(Название исходной программы и временная метка файла)

Exported
Строка комментария (может быть пустой, но строка должна существовать)
6 5 0 0 1 0 3 V2000
Считает строку Таблица соединений
-0.6622  0.5342 0.0000 C 0 0 2 0 0 0
 0.6622 -0.3000 0.0000 C 0 0 0 0 0 0
-0.7207  2.0817 0.0000 C 1 0 0 0 0 0
-1.8622 -0.3695 0.0000 N 0 3 0 0 0 0
 0.6220 -1.8037 0.0000 O 0 0 0 0 0 0
 1.9464  0.4244 0.0000 O 0 5 0
Атомный блок

(по 1 строке на каждый атом): x, y, z (в ангстремах ), элемент и т.д.

1 2 1 0 0 0 0
1 3 1 0 1 0 0
1 4 1 0 0 0 0
2 5 2 0 0 0 0
2 6 1 0 0 0 0
Блок облигаций

(по 1 строке для каждой связи): 1-й атом, 2-й атом, тип и т. д.

M  CHG 2 4 1 6 -1
M  ISO 1 3 13
Блок свойств
M  END
КОНЕЦ строки

(ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед M END)

КОНЕЦ

Спецификация блока строк подсчета

[ редактировать ]
Ценить 6 5 0 0 0 1 В2000
Описание количество атомов количество облигаций количество атомов в списке Хиральный флаг, 1 = киральный;

0 = не хиральный

количество текстовых записей количество строк

дополнительные свойства

мол версия
Тип [Общий] [Общий] [Запрос] [Общий] [ISIS/Настольный компьютер] [Общий]

Спецификация облигационного блока

[ редактировать ]

Блок облигаций состоит из строк облигаций, по одной строке на каждую облигацию, следующего формата:

111 222 ттт ссс ххх ррр ccc

где значения описаны в следующей таблице:

Поле Значение Ценности
111 номер первого атома
222 второй атомный номер
ттт тип облигации 1 = одинарный, 2 = двойной, 3 = тройной, 4 = ароматический, 5 = одинарный или двойной, 6 = одинарный или ароматический, 7 = двойной или ароматический, 8 = любой
ссс Бонд стерео Для одинарных облигаций:

0 = не стерео; 1 = вверх; 4=либо, 6= вниз

Для двойных облигаций:

0 = использовать координаты x, y, z из блока атомов для определения цис или транс; 3 = цис или транс (любая) двойная связь

ххх не используется
ррр топология облигаций 0 = любой, 1 = кольцо, 2 = цепочка
ссс состояние реагирующего центра 0 = не отмечено, 1 = центр, -1 = не центр, Дополнительно: 2 = нет изменений, 4 = связь установлена/разрушена, 8 = порядок связей изменен.

12 = 4+8 (как сделано/сломано, так и изменено);

Также возможны 5 = (4 + 1), 9 = (8 + 1) и 13 = (12 + 1).

Расширенная таблица соединений (V3000)

[ редактировать ]

Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует одно приложение molfile, содержащее тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфайл.

Обратите внимание, что «нет структуры» помечается пометкой «V3000» вместо отметки версии «V2000». В шапке помимо версии есть еще два изменения:

  • Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие читатели проигнорируют счетчик и остановятся на M END.)
  • «Пространственный код» поддерживается более явно. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены какие-либо ненулевые координаты Z.

В отличие от molfile V2000, расширенный molfile Rgroup V3000 имеет тот же формат заголовка, что и molfile, отличный от Rgroup.

L-Alanine
Описание Блок заголовка
GSMACCS-II07189510252D 1 0.00366 0.00000 0
Заголовок с отметкой времени
Figure 1, J. Chem. Inf. Comput. Sci., Vol 32, No. 3., 1992
Строка комментария
0 0 0 0 0 999 V3000
Линия совместимости с V2000
M V30 BEGIN CTAB
Таблица соединений
M V30 COUNTS 6 5 0 0 1
Считает строку
M V30 BEGIN ATOM
M V30 1 C -0.6622 0.5342 0 0 CFG=2

M V30 2 C 0.6622 -0.3 0 0

M V30 3 C -0.7207 2.0817 0 0 MASS=13

M V30 4 N -1.8622 -0.3695 0 0 CHG=1

M V30 5 O 0.622 -1.8037 0 0

M V30 6 O 1.9464 0.4244 0 0 CHG=-1

M V30 END ATOM
Атомный блок
M V30 BEGIN BOND
M V30 1 1 1 2

M V30 2 1 1 3 CFG=1

M V30 3 1 1 4

M V30 4 2 2 5

M V30 5 1 2 6

M V30 END BOND
Блок облигаций
M V30 END CTAB
M END

Считает строку

[ редактировать ]

Строка счетчиков обязательна и должна быть первой. Он определяет количество атомов, связей, трехмерных объектов и S-групп. Он также определяет, установлен ли флаг CHIRAL. При желании в строке count можно указать molregno. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счетчиков:

M V30 COUNTS na nb nsg n3d chiral
М V30 имеет значение уже обратите внимание НСГ н3д хиральный [КОРОЛЕВСТВО=королевство]
М V30 имеет значение 6 5 0 0 1
количество атомов
количество облигаций
количество S-групп
количество 3D-ограничений
если 1 = молекула хиральна
молекула или модель регно
ctab
Расширение имени файла
.сд , .sdf
Тип интернет-СМИ
химикат/x-mdl-sdfile
Тип формата химический формат файла

SDF — один из семейства форматов файлов химических данных, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает формат структурных данных, а файлы SDF фактически обертывают формат molfile ( MDL Molfile ). Множественные записи разделяются строками, состоящими из четырех знаков доллара ($$$$). Ключевой особенностью этого формата является его способность включать связанные данные.

Связанные элементы данных обозначаются следующим образом:

>  <Unique_ID>
XCA3464366
 
>  <ClogP>
5.825

>  <Vendor>
Sigma

>  <Molecular Weight>
499.611

Также поддерживаются многострочные элементы данных. Спецификация формата MDL SDF требует, чтобы символ возврата жесткой каретки был вставлен, если длина одной строки любого текстового поля превышает 200 символов. На практике это требование часто нарушается, поскольку многие строки SMILES и InChI превышают эту длину.

Другие форматы семьи

[ редактировать ]

Существуют и другие, менее распространенные форматы семейства:

  • RXNFile — для представления одной химической реакции;
  • RDFile — для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
  • RGFile - для представления структур Маркуша (устарело, Molfile V3000 может представлять структуры Маркуша);
  • XDFile — для представления химической информации в формате XML .

См. также

[ редактировать ]
  1. ^ Долби, А.; Нурс, Дж. Г.; Хауншелл, штат Вашингтон; Гушерст, ОКИ; Гриер, Д.Л.; Леланд, бакалавр; Лауфер, Дж. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Журнал химической информации и моделирования . 32 (3): 244. doi : 10.1021/ci00007a012 .
  2. ^ «Форматы файлов CT» (PDF) . Биовия. Август 2020 г. Архивировано (PDF) из оригинала 19 февраля 2021 г. Проверено 19 февраля 2021 г.
  3. ^ «Регистрационная форма» . Биовия. 13 августа 2020 г. Архивировано из оригинала 01 октября 2020 г. Проверено 19 февраля 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6114a4f36a303b7a8124923d26f8befb__1710088860
URL1:https://arc.ask3.ru/arc/aa/61/fb/6114a4f36a303b7a8124923d26f8befb.html
Заголовок, (Title) документа по адресу, URL1:
Chemical table file - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)