Формат химического файла
этой статьи Начальный раздел может быть слишком коротким, чтобы адекватно суммировать ключевые моменты . ( август 2022 г. ) |
Формат химического файла — это тип файла данных, который используется специально для изображения молекулярных данных. Одним из наиболее широко используемых является формат файлов химических таблиц , который аналогичен файлам формата структурных данных (SDF) . Это текстовые файлы, которые представляют собой несколько записей химической структуры и связанных с ними полей данных. Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат банка данных белков обычно используется для белков, но также используется и для других типов молекул. Есть много других типов, которые подробно описаны ниже. Доступны различные программные системы для преобразования из одного формата в другой.
Различение форматов
[ редактировать ]Химическая информация обычно предоставляется в виде файлов или потоков , и было создано множество форматов с различной степенью документирования. Формат указывается тремя способами:
(см . § Проект химического MIME )
- расширение файла (обычно 3 буквы). Он широко используется, но ненадежен, так как распространенные суффиксы, такие как
.mol
и.dat
используются многими системами, в том числе нехимическими. - файлы с самоописанием , в которых информация о формате включена в файл. Примерами являются CIF и CML.
- Химический/MIME-тип, добавленный химически осведомленным сервером.
Химический язык разметки
[ редактировать ]Язык химической разметки (CML) — это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях Инструменты для работы с языком химической разметки и XML для химии и биологических наук ХМЛ обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.
Формат банка данных белков
[ редактировать ]Формат банка данных белков — это устаревший формат белковых структур, разработанный в 1972 году. [ 1 ] Это формат фиксированной ширины , поэтому он ограничен максимальным количеством атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Например, в 2009 году E. coli 70S была представлена в виде 4 файлов PDB: 3I1M, заархивировано 5 октября 2016 г. на Wayback Machine , 3I1N, заархивировано 16 октября 2016 г. на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C . В 2014 году формат PDB был официально заменен на mmCIF, и в новых структурах PDB файлы PDB могут отсутствовать.
Некоторые файлы PDB содержали дополнительный раздел, описывающий соединение атомов, а также их положение. Поскольку эти файлы иногда использовались для описания макромолекулярных ансамблей или молекул, представленных в явном растворителе , они могли вырасти очень большими и часто сжимались. Некоторые инструменты, такие как Jmol и KiNG, [ 2 ] мог читать файлы PDB в формате gzip. wwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0), а также были устранены многие проблемы с файлами в существующей базе данных. [ 3 ] Типичное расширение файла PDB было .pdb
, хотя некоторые старые файлы использовались .ent
или .brk
. Некоторые инструменты молекулярного моделирования создавали нестандартные файлы в стиле PDB, которые адаптировали базовый формат к своим потребностям.
формат ГРОМАКС
[ редактировать ]Семейство форматов файлов GROMACS было создано для использования с пакетом программного обеспечения для молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому обеспечивает дополнительную числовую точность и при необходимости сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и системы. Типичное расширение файла GROMACS — .gro
.
Формат ШАРМ
[ редактировать ]Пакет CHARMM молекулярной динамики [ 4 ] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF ( файл структуры белка ) во многом уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, похож на формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и необходим перед началом моделирования. Типичные используемые расширения файлов: .crd
и .psf
соответственно.
формат GSD
[ редактировать ]Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи типовых моделей частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue . Пакет также содержит модуль Python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом. [1]
Гемический формат файла
[ редактировать ]Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию используется формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header
, !Info
, !Atoms
, !Bonds
, !Coord
, !PartialCharges
и !End
).
Предлагаемый тип MIME для этого формата — application/x-ghhemical .
Обозначение строки SYBYL
[ редактировать ]SYBYL Line Notation (SLN) — это химическая линия обозначения . Основанный на SMILES, он включает в себя полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.
Примеры SLN Описание строка SLN Бензол C[1]H:CH:CH:CH:CH:CH:@1
Аланин NH2C[s=n]H(CH3)C(=O)OH
Запрос, показывающий сайдчейн R R1[hac>1]C[1]:C:C:C:C:C:@1
Запрос на амид/сульфамид NHC=M1{M1:O,S}
УЛЫБКИ
[ редактировать ]Упрощенная система ввода строк молекулярного ввода , или УЛЫБКИ, [ 5 ] — строковое обозначение молекул. Строки SMILES включают связность, но не включают 2D- или 3D-координаты.
Атомы водорода не представлены. Другие атомы представлены символами своих элементов. B
, C
, N
, O
, F
, P
, S
, Cl
, Br
, и I
. Символ =
представляет собой двойные связи и #
представляет собой тройную связь. Ветвление обозначается ( )
. Кольца обозначаются парами цифр.
Некоторые примеры:
Имя Формула строка УЛЫБКИ Метан СН 4 C
Этанол С 2 Н 6 О CCO
Бензол С 6 Ч 6 C1=CC=CC=C1
илиc1ccccc1
Этилен С 2 Ч 4 C=C
XYZ
[ редактировать ]Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами.
номер лея
[ редактировать ]Номер MDL содержит уникальный идентификационный номер для каждой реакции и варианта. Формат: RXXXnnnnnnnn. R указывает реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.
Другие распространенные форматы
[ редактировать ]Одним из наиболее широко используемых отраслевых стандартов являются файлов химических таблиц форматы , такие как файлы формата структурных данных (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных с ними полей данных. Формат был первоначально разработан и опубликован компанией Molecular Design Limited (MDL). MOL — еще один формат файлов MDL. Это описано в Главе 4 Форматов CTfile . [ 6 ]
PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (ASN1 чаще всего представляет собой двоичный формат).
В таблице ниже указано большое количество других форматов.
Преобразование между форматами
[ редактировать ]OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.
obabel -i input_format input_file -o output_format output_file
Например, чтобы преобразовать файл эпинефрин.sdf из SDF в CML, используйте команду
obabel -i sdf epinephrine.sdf -o cml epinephrine.cml
Полученный файл — эпинефрин.cml.
IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и программ по теории функционала плотности плоских волн. Он также поддерживает гибкую структуру для создания входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов можно найти по адресу https://iodata.readthedocs.io/en/latest/formats.html .
Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в различных форматах и записывать их в других форматах. Инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol. [ 7 ] [ нужна ссылка ] и Discovery Studio подходят под эту категорию.
Химический проект MIME
[ редактировать ]
«Химический MIME» — это фактический подход для добавления типов MIME к химическим потокам.
Этот проект начался в январе 1994 года и впервые был анонсирован на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 года. ... Первая версия интернет-проекта была опубликована в мае – октябре 1994 года, а вторая пересмотренная версия в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитет по печатным и электронным публикациям) на заседании IUPAC в августе 1996 г. доступен для обсуждения. [ 8 ]
В 1998 году работа была официально опубликована в JCIM . [ 9 ]
Расширение файла MIME -тип Имя собственное Описание .alc
химическая/х-алхимия Алхимический формат .csf
химикат/x-cache-csf КЭШ МолСтрукт CSF .cbin
,.cascii
,.ctab
химический/x-cactvs-бинарный Формат CACTVS .cdx
химическое вещество/x-cdx Файл обмена ChemDraw .cer
химическое вещество/х-церий Формат MSI Cerius II .c3d
химическая / x-chem3d Формат Chem3D .chm
химикат/x-chemdraw Файл ChemDraw .cif
химикат/x-cif Файл кристаллографической информации , Структура кристаллографической информации Обнародовано Международным союзом кристаллографии. .cmdf
химикат/x-cmdf Формат данных CrystalMaker .cml
химическое/х-смл Химический язык разметки XML на основе Язык химической разметки . .cpa
химический/х-компас Программа «Компас» Такахаши .bsd
химическое/х-перекрестное пламя Файл перекрестного огня .csm
,.csml
химикат/x-csml Язык разметки химического стиля .ctx
химическое вещество/x-ctx Формат файла CTX группы Gasteiger .cxf
,.cef
химическая / x-cxf Формат химического обмена .emb
,.embl
химическое вещество/x-embl-dl-нуклеотид Формат нуклеотидов EMBL .spc
химический / x-galactic-spc Формат SPC для спектральных и хроматографических данных .inp
,.gam
,.gamin
химический/x-gamess-вход ИГРЫ Формат ввода .fch
,.fchk
химическая/x-гауссовая контрольная точка Гауссов формат контрольной точки .cub
химический/x-гауссов куб Формат гауссова куба (волновая функция) .gau
,.gjc
,.gjf
,.com
химический/x-гауссовский вход Гауссов формат ввода .gcg
химическая/x-gcg8-последовательность Формат белковой последовательности .gen
химический/х-генбанк Формат ToGenBank .istr
,.ist
химический/x-изостар Библиотека межмолекулярных взаимодействий IsoStar .jdx
,.dx
химическая / x-jcamp-dx JCAMP Формат обмена спектроскопическими данными .kin
химическое/x-кинемаж Кинетические изображения (структуры белка); Кинемаг .mcm
химическая/х-макмолекула Формат файла MacMolecule .mmd
,.mmod
химический/x-макромодель-вход Макромодель Молекулярная механика .mol
химикат/x-mdl-molfile MDL Молфиле .smiles
,.smi
химикат/x-дневной свет-улыбки Упрощенная спецификация ввода строки молекулярного ввода Линейное обозначение молекул. .sdf
химикат/x-mdl-sdfile Файл структуры-данных .el
химикат/х-эскиз ЭскизЭль Молекула .ds
химическое вещество/x-техническое описание XML-таблица данных SketchEl .inchi
химическая / х-инчи ИЮПАК Международный химический идентификатор (ИнХИ) .jsd
,.jsdraw
химическое вещество/x-jsdraw Собственный формат файла JSDraw .helm
,.ihelm
химикат/x-шлем Pistoia Alliance HELM Веревка Линейное обозначение биологических молекул .xhelm
химикат/x-xhelm XML-файл Pistoia Alliance XHELM XML, на основе HELM включая определения мономеров
Поддерживать
[ редактировать ]Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [ 10 ] [ 11 ] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или обработчика этих форматов, чтобы обеспечить полную поддержку химических типов MIME.
Источники химических данных
[ редактировать ]Вот краткий список источников свободно доступных молекулярных данных. В Интернете существует гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.
- США Национального института здравоохранения База данных PubChem является огромным источником химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
- Всемирный банк данных о белках ( wwPDB ) [ 12 ] является отличным источником данных о молекулярных координатах белков и нуклеиновых кислот. Данные трехмерны и представлены в формате Protein Data Bank (PDB).
- eMolecules — коммерческая база данных молекулярных данных. Данные включают в себя двумерную структурную диаграмму и строку смайлов для каждого соединения. eMolecules поддерживает быстрый поиск подструктур на основе частей молекулярной структуры.
- ChemExper — это коммерческая база данных молекулярных данных. Результаты поиска включают двумерную структурную диаграмму и файл кротов для многих соединений.
- Нью-Йоркского университета Библиотека трехмерных молекулярных структур .
- Сеть баз данных о токсичности с возможностью поиска по распределенной структуре (DSSTox) Агентства по охране окружающей среды США является проектом Программы вычислительной токсикологии Агентства по охране окружающей среды. База данных содержит молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.
См. также
[ редактировать ]- Формат файла
- OpenBabel , JOELib , OELib
- Комплект для разработки химии
- Химический язык разметки
- Программное обеспечение для молекулярного моделирования
- Резолвер химических идентификаторов NCI/CADD
Ссылки
[ редактировать ]- ^ wwwPDB.org. «wwPDB: Формат файла» . www.wwpdb.org . Проверено 13 июня 2024 г.
- ^ Чен, В.Б.; и др. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации» . Белковая наука . 18 (11): 2403–2409. дои : 10.1002/pro.250 . ПМК 2788294 . ПМИД 19768809 .
- ^ Хенрик, К.; и др. (2008). «Исправление архива банка данных белков» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D426–D433. дои : 10.1093/nar/gkm937 . ПМК 2238854 . ПМИД 18073189 .
- ^ Брукс, Б.М.; и др. (1983). «CHARMM: программа для расчета энергии, минимизации и динамики макромолекул». Дж. Компьютер. Хим . 4 (2): 187–217. дои : 10.1002/jcc.540040211 . S2CID 91559650 .
- ^ Вайнингер, Дэвид (1988). «SMILES, химический язык и информационная система: 1: Введение в методологию и правила кодирования». Журнал химической информации и моделирования . 28 (1): 31–36. дои : 10.1021/ci00057a005 . S2CID 5445756 .
- ^ Информационные системы MDL 2005
- ^ Домашняя страница Mol2mol
- ^ Домашняя страница Chemical MIME (по состоянию на 24 января 2013 г.)
- ^ Рзепа, ХС; Мюррей-Раст, П.; Уитакер, Би Джей (1998). «Применение интернет-стандартов химических многоцелевых расширений Интернет-почты (Chemical MIME) к электронной почте и обмену информацией во Всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. doi : 10.1021/ci9803233 .
- ^ «Результаты поиска пакета для «chemical-mime» | Debian» .
- ^ «Зачем использовать SourceForge? Возможности и преимущества» .
- ^ Берман, HM; и др. (2003). «Объявление о создании всемирного банка данных о белках» . Структурная биология природы . 10 (12): 980. дои : 10.1038/nsb1203-980 . ПМИД 14634627 .
Внешние ссылки
[ редактировать ]- MDL Information Systems (июнь 2005 г.), CTFile Formats (PDF) , Сан-Леандро, Калифорния, США: MDL Information Systems , заархивировано из оригинала (PDF) 30 июня 2007 г.
- «Разрешить идентификатор структуры как SDF, CML, MRV, PDB» . НЦИ . NIH : Хемоинформатические инструменты и пользовательские службы группы CADD (CACTUS). Июль 2009 года.