Jump to content

Формат химического файла

Формат химического файла — это тип файла данных, который используется специально для изображения молекулярных данных. Одним из наиболее широко используемых является формат файла химической таблицы , который аналогичен файлам формата структурных данных (SDF) . Это текстовые файлы, которые представляют собой несколько записей химической структуры и связанных с ними полей данных. Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат банка данных белков обычно используется для белков, но также используется и для других типов молекул. Есть много других типов, которые подробно описаны ниже. Доступны различные программные системы для преобразования из одного формата в другой.

Различение форматов

[ редактировать ]

Химическая информация обычно предоставляется в виде файлов или потоков , и было создано множество форматов с различной степенью документирования. Формат указывается тремя способами:
(см . § Проект химического MIME )

  • расширение файла (обычно 3 буквы). Он широко используется, но ненадежен, так как распространенные суффиксы, такие как .mol и .dat используются многими системами, в том числе нехимическими.
  • файлы с самоописанием , в которых информация о формате включена в файл. Примерами являются CIF и CML.
  • Химический/MIME-тип, добавленный химически осведомленным сервером.

Химический язык разметки

[ редактировать ]

Язык химической разметки (CML) — это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях Инструменты для работы с языком химической разметки и XML для химии и биологических наук ХМЛ обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.

Формат банка данных белков

[ редактировать ]

Формат банка данных белков — это устаревший формат белковых структур, разработанный в 1972 году. [1] Это формат фиксированной ширины , поэтому он ограничен максимальным количеством атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Например, E. coli 70S в 2009 году был представлен в виде 4 файлов PDB: 3I1M, заархивировано 5 октября 2016 г. на Wayback Machine , 3I1N, заархивировано 16 октября 2016 г. на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C .В 2014 году формат PDB был официально заменен на mmCIF, и в более новых структурах PDB файлы PDB могут отсутствовать.

Некоторые файлы PDB содержали дополнительный раздел, описывающий соединение атомов, а также их положение. Поскольку эти файлы иногда использовались для описания макромолекулярных ансамблей или молекул, представленных в явном растворителе , они могли вырасти очень большими и часто сжимались. Некоторые инструменты, такие как Jmol и KiNG, [2] мог читать файлы PDB в формате gzip. wwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0), а также были устранены многие проблемы с файлами в существующей базе данных. [3] Типичное расширение файла PDB было .pdb, хотя некоторые старые файлы использовались .ent или .brk. Некоторые инструменты молекулярного моделирования создавали нестандартные файлы в стиле PDB, которые адаптировали базовый формат к своим потребностям.

формат ГРОМАКС

[ редактировать ]

Семейство форматов файлов GROMACS было создано для использования с пакетом программного обеспечения для молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому обеспечивает дополнительную числовую точность и при необходимости сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и системы. Типичное расширение файла GROMACS — .gro.

Формат ШАРММ

[ редактировать ]

Пакет CHARMM молекулярной динамики [4] может читать и записывать файлы ряда стандартных химических и биохимических форматов; однако CARD (координата) и PSF ( файл структуры белка ) во многом уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, похож на формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и необходим перед началом моделирования. Типичные используемые расширения файлов: .crd и .psf соответственно.

формат GSD

[ редактировать ]

Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи типовых моделей частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue . Пакет также содержит модуль Python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом. [1]

Гемический формат файла

[ редактировать ]

Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию используется формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header, !Info, !Atoms, !Bonds, !Coord, !PartialCharges и !End).

Предлагаемый тип MIME для этого формата — application/x-ghemical .

Обозначение строки SYBYL

[ редактировать ]

SYBYL Line Notation (SLN) — это химическая линия обозначения . Основанный на SMILES, он включает в себя полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

Примеры SLN
Описание строка SLN
Бензол C[1]H:CH:CH:CH:CH:CH:@1
Аланин NH2C[s=n]H(CH3)C(=O)OH
Запрос, показывающий сайдчейн R R1[hac>1]C[1]:C:C:C:C:C:@1
Запрос на амид/сульфамид NHC=M1{M1:O,S}

Упрощенная система ввода строк молекулярного ввода , или УЛЫБКИ, [5] строковое обозначение молекул. Строки SMILES включают связность, но не включают 2D- или 3D-координаты.

Атомы водорода не представлены. Другие атомы представлены символами своих элементов. B, C, N, O, F, P, S, Cl, Br, и I. Символ = представляет собой двойные связи и # представляет собой тройную связь. Ветвление обозначается ( ). Кольца обозначаются парами цифр.

Некоторые примеры:

Имя Формула строка УЛЫБКИ
Метан СН 4 C
Этанол С 2 Н 6 О CCO
Бензол C6HC6H6 C1=CC=CC=C1 или c1ccccc1
Этилен С 2 Ч 4 C=C

Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами.

номер лея

[ редактировать ]

Номер MDL содержит уникальный идентификационный номер для каждой реакции и варианта. Формат: RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы

[ редактировать ]

Одним из наиболее широко используемых отраслевых стандартов являются файлов химических таблиц форматы , такие как файлы формата структурных данных (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных с ними полей данных. Формат был первоначально разработан и опубликован компанией Molecular Design Limited (MDL). MOL — еще один формат файлов MDL. Это описано в Главе 4 Форматов CTfile . [6]

PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (ASN1 чаще всего представляет собой двоичный формат).

В таблице ниже указано большое количество других форматов.

Преобразование между форматами

[ редактировать ]

OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

obabel -i input_format input_file -o output_format output_file

Например, чтобы преобразовать файл эпинефрин.sdf из SDF в CML, используйте команду

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

Полученный файл — эпинефрин.cml.

IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и программ по теории функционала плотности плоских волн. Он также поддерживает гибкую структуру для создания входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов можно найти по адресу https://iodata.readthedocs.io/en/latest/formats.html .

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в различных форматах и ​​записывать их в других форматах. Инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol. [7] [ нужна ссылка ] и Discovery Studio подходят под эту категорию.

Химический проект MIME

[ редактировать ]

«Химический MIME» — это фактический подход для добавления типов MIME к химическим потокам.

Этот проект начался в январе 1994 года и впервые был анонсирован на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 года. ... Первая версия интернет-проекта была опубликована в мае – октябре 1994 года, а вторая пересмотренная версия выпущена в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитету по печатным и электронным публикациям) на заседании ИЮПАК в августе 1996 г., доступен для обсуждения. [8]

В 1998 году работа была официально опубликована в JCIM . [9]

Расширение файла MIME -тип Имя собственное Описание
.alcхимическая/х-алхимия Алхимический формат
.csfхимикат/x-cache-csf КЭШ МолСтрукт CSF
.cbin, .cascii, .ctabхимический/x-cactvs-бинарный Формат CACTVS
.cdxхимическое вещество/x-cdx Файл обмена ChemDraw
.cerхимическое вещество/х-церий Формат MSI Cerius II
.c3dхимическая / x-chem3d Формат Chem3D
.chmхимикат/x-chemdraw Файл ChemDraw
.cifхимикат/x-cif Файл кристаллографической информации , Структура кристаллографической информации Обнародовано Международным союзом кристаллографии.
.cmdfхимикат/x-cmdf Формат данных CrystalMaker
.cmlхимическое/х-смл Химический язык разметки XML на основе Язык химической разметки .
.cpaхимический/х-компас Программа «Компас» Такахаши
.bsdхимическое/х-перекрестное пламя Файл перекрестного огня
.csm, .csmlхимикат/x-csml Язык разметки химического стиля
.ctxхимическое вещество/x-ctx Формат файла CTX группы Gasteiger
.cxf, .cefхимическая / x-cxf Формат химического обмена
.emb, .emblхимическое вещество/x-embl-dl-нуклеотид Формат нуклеотидов EMBL
.spcхимический / x-galactic-spc Формат SPC для спектральных и хроматографических данных
.inp, .gam, .gaminхимический/x-gamess-вход ИГРЫ Формат ввода
.fch, .fchkхимическая/x-гауссовая контрольная точка Гауссов формат контрольной точки
.cubхимический/x-гауссов куб Формат гауссова куба (волновая функция)
.gau, .gjc, .gjf, .comхимический/x-гауссовский вход Гауссов формат ввода
.gcgхимическая/x-gcg8-последовательность Формат белковой последовательности
.genхимический/х-генбанк Формат ToGenBank
.istr, .istхимический/x-изостар Библиотека межмолекулярных взаимодействий IsoStar
.jdx, .dxхимическая / x-jcamp-dx JCAMP Формат обмена спектроскопическими данными
.kinхимическое/x-кинемаж Кинетические изображения (структуры белка); Кинемаг
.mcmхимическая/х-макмолекула Формат файла MacMolecule
.mmd, .mmodхимический/x-макромодель-вход Макромодель Молекулярная механика
.molхимикат/x-mdl-molfile MDL Молфиле
.smiles, .smiхимикат/x-дневной свет-улыбки Упрощенная спецификация ввода строки молекулярного ввода Линейное обозначение молекул.
.sdfхимикат/x-mdl-sdfile Файл структуры-данных
.elхимикат/х-эскиз ЭскизЭль Молекула
.dsхимическое вещество/x-техническое описание XML-таблица данных SketchEl
.inchiхимическая / х-инчи ИЮПАК Международный химический идентификатор (ИнХИ)
.jsd, .jsdrawхимическое вещество/x-jsdraw Собственный формат файла JSDraw
.helm, .ihelmхимикат/х-шлем Pistoia Alliance HELM Веревка Линейное обозначение биологических молекул
.xhelmхимикат/x-xhelm XML-файл Pistoia Alliance XHELM XML, на основе HELM включая определения мономеров

Поддерживать

[ редактировать ]

Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [10] [11] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или обработчика этих форматов, чтобы обеспечить полную поддержку химических типов MIME.

Источники химических данных

[ редактировать ]

Вот краткий список источников свободно доступных молекулярных данных. В Интернете существует гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.

  1. США Национального института здравоохранения База данных PubChem является огромным источником химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных о белках ( wwPDB ) [12] является отличным источником данных о молекулярных координатах белков и нуклеиновых кислот. Данные являются трехмерными и предоставляются в формате Protein Data Bank (PDB).
  3. eMolecules — коммерческая база данных молекулярных данных. Данные включают в себя двумерную структурную диаграмму и строку смайлов для каждого соединения. eMolecules поддерживает быстрый поиск подструктур на основе частей молекулярной структуры.
  4. ChemExper — это коммерческая база данных молекулярных данных. Результаты поиска включают двумерную структурную диаграмму и файл кротов для многих соединений.
  5. Нью-Йоркского университета Библиотека трехмерных молекулярных структур .
  6. Сеть баз данных о токсичности с возможностью поиска по распределенной структуре (DSSTox) Агентства по охране окружающей среды США является проектом Программы вычислительной токсикологии Агентства по охране окружающей среды. В базе данных содержатся молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.

См. также

[ редактировать ]
  1. ^ wwwPDB.org. «wwPDB: Формат файла» . www.wwpdb.org . Проверено 13 июня 2024 г.
  2. ^ Чен, В.Б.; и др. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации» . Белковая наука . 18 (11): 2403–2409. дои : 10.1002/pro.250 . ПМК   2788294 . ПМИД   19768809 .
  3. ^ Хенрик, К.; и др. (2008). «Исправление архива банка данных белков» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D426–D433. дои : 10.1093/нар/gkm937 . ПМК   2238854 . ПМИД   18073189 .
  4. ^ Брукс, Б.М.; и др. (1983). «CHARMM: программа для расчета энергии, минимизации и динамики макромолекул». Дж. Компьютер. Хим . 4 (2): 187–217. дои : 10.1002/jcc.540040211 . S2CID   91559650 .
  5. ^ Вайнингер, Дэвид (1988). «SMILES, химический язык и информационная система: 1: Введение в методологию и правила кодирования». Журнал химической информации и моделирования . 28 (1): 31–36. дои : 10.1021/ci00057a005 . S2CID   5445756 .
  6. ^ Информационные системы MDL 2005
  7. ^ Домашняя страница Mol2mol
  8. ^ Домашняя страница Chemical MIME (по состоянию на 24 января 2013 г.)
  9. ^ Рзепа, ХС; Мюррей-Раст, П.; Уитакер, Би Джей (1998). «Применение интернет-стандартов химических многоцелевых расширений Интернет-почты (Chemical MIME) к электронной почте и обмену информацией во Всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. doi : 10.1021/ci9803233 .
  10. ^ «Результаты поиска пакета для «chemical-mime» | Debian» .
  11. ^ «Зачем использовать SourceForge? Возможности и преимущества» .
  12. ^ Берман, HM; и др. (2003). «Объявление о создании всемирного банка данных о белках» . Структурная биология природы . 10 (12): 980. дои : 10.1038/nsb1203-980 . ПМИД   14634627 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 53b2eceaf79993bbcce487af5dad95a0__1721358600
URL1:https://arc.ask3.ru/arc/aa/53/a0/53b2eceaf79993bbcce487af5dad95a0.html
Заголовок, (Title) документа по адресу, URL1:
Chemical file format - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)