Jump to content

Формат химического файла

(Перенаправлено из молекулярного формата файла )

Формат химического файла — это тип файла данных, который используется специально для изображения молекулярных данных. Одним из наиболее широко используемых является формат файлов химических таблиц , который аналогичен файлам формата структурных данных (SDF) . Это текстовые файлы, которые представляют собой несколько записей химической структуры и связанных с ними полей данных. Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат банка данных белков обычно используется для белков, но также используется и для других типов молекул. Есть много других типов, которые подробно описаны ниже. Доступны различные программные системы для преобразования из одного формата в другой.

Различение форматов

[ редактировать ]

Химическая информация обычно предоставляется в виде файлов или потоков , и было создано множество форматов с различной степенью документирования. Формат указывается тремя способами:
(см . § Проект химического MIME )

  • расширение файла (обычно 3 буквы). Он широко используется, но ненадежен, так как распространенные суффиксы, такие как .mol и .dat используются многими системами, в том числе нехимическими.
  • файлы с самоописанием , в которых информация о формате включена в файл. Примерами являются CIF и CML.
  • Химический/MIME-тип, добавленный химически осведомленным сервером.

Химический язык разметки

[ редактировать ]

Язык химической разметки (CML) — это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях Инструменты для работы с языком химической разметки и XML для химии и биологических наук ХМЛ обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.

Формат банка данных белков

[ редактировать ]

Формат банка данных белков — это устаревший формат белковых структур, разработанный в 1972 году. [ 1 ] Это формат фиксированной ширины , поэтому он ограничен максимальным количеством атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Например, в 2009 году E. coli 70S была представлена ​​в виде 4 файлов PDB: 3I1M, заархивировано 5 октября 2016 г. на Wayback Machine , 3I1N, заархивировано 16 октября 2016 г. на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C . В 2014 году формат PDB был официально заменен на mmCIF, и в новых структурах PDB файлы PDB могут отсутствовать.

Некоторые файлы PDB содержали дополнительный раздел, описывающий соединение атомов, а также их положение. Поскольку эти файлы иногда использовались для описания макромолекулярных ансамблей или молекул, представленных в явном растворителе , они могли вырасти очень большими и часто сжимались. Некоторые инструменты, такие как Jmol и KiNG, [ 2 ] мог читать файлы PDB в формате gzip. wwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0), а также были устранены многие проблемы с файлами в существующей базе данных. [ 3 ] Типичное расширение файла PDB было .pdb, хотя некоторые старые файлы использовались .ent или .brk. Некоторые инструменты молекулярного моделирования создавали нестандартные файлы в стиле PDB, которые адаптировали базовый формат к своим потребностям.

формат ГРОМАКС

[ редактировать ]

Семейство форматов файлов GROMACS было создано для использования с пакетом программного обеспечения для молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому обеспечивает дополнительную числовую точность и при необходимости сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и системы. Типичное расширение файла GROMACS — .gro.

Формат ШАРМ

[ редактировать ]

Пакет CHARMM молекулярной динамики [ 4 ] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF ( файл структуры белка ) во многом уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, похож на формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и необходим перед началом моделирования. Типичные используемые расширения файлов: .crd и .psf соответственно.

формат GSD

[ редактировать ]

Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи типовых моделей частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue . Пакет также содержит модуль Python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом. [1]

Гемический формат файла

[ редактировать ]

Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию используется формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header, !Info, !Atoms, !Bonds, !Coord, !PartialCharges и !End).

Предлагаемый тип MIME для этого формата — application/x-ghhemical .

Обозначение строки SYBYL

[ редактировать ]

SYBYL Line Notation (SLN) — это химическая линия обозначения . Основанный на SMILES, он включает в себя полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

Примеры SLN
Описание строка SLN
Бензол C[1]H:CH:CH:CH:CH:CH:@1
Аланин NH2C[s=n]H(CH3)C(=O)OH
Запрос, показывающий сайдчейн R R1[hac>1]C[1]:C:C:C:C:C:@1
Запрос на амид/сульфамид NHC=M1{M1:O,S}

Упрощенная система ввода строк молекулярного ввода , или УЛЫБКИ, [ 5 ] строковое обозначение молекул. Строки SMILES включают связность, но не включают 2D- или 3D-координаты.

Атомы водорода не представлены. Другие атомы представлены символами своих элементов. B, C, N, O, F, P, S, Cl, Br, и I. Символ = представляет собой двойные связи и # представляет собой тройную связь. Ветвление обозначается ( ). Кольца обозначаются парами цифр.

Некоторые примеры:

Имя Формула строка УЛЫБКИ
Метан СН 4 C
Этанол С 2 Н 6 О CCO
Бензол С 6 Ч 6 C1=CC=CC=C1 или c1ccccc1
Этилен С 2 Ч 4 C=C

Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами.

номер лея

[ редактировать ]

Номер MDL содержит уникальный идентификационный номер для каждой реакции и варианта. Формат: RXXXnnnnnnnn. R указывает реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы

[ редактировать ]

Одним из наиболее широко используемых отраслевых стандартов являются файлов химических таблиц форматы , такие как файлы формата структурных данных (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных с ними полей данных. Формат был первоначально разработан и опубликован компанией Molecular Design Limited (MDL). MOL — еще один формат файлов MDL. Это описано в Главе 4 Форматов CTfile . [ 6 ]

PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (ASN1 чаще всего представляет собой двоичный формат).

В таблице ниже указано большое количество других форматов.

Преобразование между форматами

[ редактировать ]

OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

obabel -i input_format input_file -o output_format output_file

Например, чтобы преобразовать файл эпинефрин.sdf из SDF в CML, используйте команду

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

Полученный файл — эпинефрин.cml.

IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и программ по теории функционала плотности плоских волн. Он также поддерживает гибкую структуру для создания входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов можно найти по адресу https://iodata.readthedocs.io/en/latest/formats.html .

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в различных форматах и ​​записывать их в других форматах. Инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol. [ 7 ] [ нужна ссылка ] и Discovery Studio подходят под эту категорию.

Химический проект MIME

[ редактировать ]

«Химический MIME» — это фактический подход для добавления типов MIME к химическим потокам.

Этот проект начался в январе 1994 года и впервые был анонсирован на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 года. ... Первая версия интернет-проекта была опубликована в мае – октябре 1994 года, а вторая пересмотренная версия в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитет по печатным и электронным публикациям) на заседании IUPAC в августе 1996 г. доступен для обсуждения. [ 8 ]

В 1998 году работа была официально опубликована в JCIM . [ 9 ]

Расширение файла MIME -тип Имя собственное Описание
.alc химическая/х-алхимия Алхимический формат
.csf химикат/x-cache-csf КЭШ МолСтрукт CSF
.cbin, .cascii, .ctab химический/x-cactvs-бинарный Формат CACTVS
.cdx химическое вещество/x-cdx Файл обмена ChemDraw
.cer химическое вещество/х-церий Формат MSI Cerius II
.c3d химическая / x-chem3d Формат Chem3D
.chm химикат/x-chemdraw Файл ChemDraw
.cif химикат/x-cif Файл кристаллографической информации , Структура кристаллографической информации Обнародовано Международным союзом кристаллографии.
.cmdf химикат/x-cmdf Формат данных CrystalMaker
.cml химическое/х-смл Химический язык разметки XML на основе Язык химической разметки .
.cpa химический/х-компас Программа «Компас» Такахаши
.bsd химическое/х-перекрестное пламя Файл перекрестного огня
.csm, .csml химикат/x-csml Язык разметки химического стиля
.ctx химическое вещество/x-ctx Формат файла CTX группы Gasteiger
.cxf, .cef химическая / x-cxf Формат химического обмена
.emb, .embl химическое вещество/x-embl-dl-нуклеотид Формат нуклеотидов EMBL
.spc химический / x-galactic-spc Формат SPC для спектральных и хроматографических данных
.inp, .gam, .gamin химический/x-gamess-вход ИГРЫ Формат ввода
.fch, .fchk химическая/x-гауссовая контрольная точка Гауссов формат контрольной точки
.cub химический/x-гауссов куб Формат гауссова куба (волновая функция)
.gau, .gjc, .gjf, .com химический/x-гауссовский вход Гауссов формат ввода
.gcg химическая/x-gcg8-последовательность Формат белковой последовательности
.gen химический/х-генбанк Формат ToGenBank
.istr, .ist химический/x-изостар Библиотека межмолекулярных взаимодействий IsoStar
.jdx, .dx химическая / x-jcamp-dx JCAMP Формат обмена спектроскопическими данными
.kin химическое/x-кинемаж Кинетические изображения (структуры белка); Кинемаг
.mcm химическая/х-макмолекула Формат файла MacMolecule
.mmd, .mmod химический/x-макромодель-вход Макромодель Молекулярная механика
.mol химикат/x-mdl-molfile MDL Молфиле
.smiles, .smi химикат/x-дневной свет-улыбки Упрощенная спецификация ввода строки молекулярного ввода Линейное обозначение молекул.
.sdf химикат/x-mdl-sdfile Файл структуры-данных
.el химикат/х-эскиз ЭскизЭль Молекула
.ds химическое вещество/x-техническое описание XML-таблица данных SketchEl
.inchi химическая / х-инчи ИЮПАК Международный химический идентификатор (ИнХИ)
.jsd, .jsdraw химическое вещество/x-jsdraw Собственный формат файла JSDraw
.helm, .ihelm химикат/x-шлем Pistoia Alliance HELM Веревка Линейное обозначение биологических молекул
.xhelm химикат/x-xhelm XML-файл Pistoia Alliance XHELM XML, на основе HELM включая определения мономеров

Поддерживать

[ редактировать ]

Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [ 10 ] [ 11 ] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или обработчика этих форматов, чтобы обеспечить полную поддержку химических типов MIME.

Источники химических данных

[ редактировать ]

Вот краткий список источников свободно доступных молекулярных данных. В Интернете существует гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.

  1. США Национального института здравоохранения База данных PubChem является огромным источником химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных о белках ( wwPDB ) [ 12 ] является отличным источником данных о молекулярных координатах белков и нуклеиновых кислот. Данные трехмерны и представлены в формате Protein Data Bank (PDB).
  3. eMolecules — коммерческая база данных молекулярных данных. Данные включают в себя двумерную структурную диаграмму и строку смайлов для каждого соединения. eMolecules поддерживает быстрый поиск подструктур на основе частей молекулярной структуры.
  4. ChemExper — это коммерческая база данных молекулярных данных. Результаты поиска включают двумерную структурную диаграмму и файл кротов для многих соединений.
  5. Нью-Йоркского университета Библиотека трехмерных молекулярных структур .
  6. Сеть баз данных о токсичности с возможностью поиска по распределенной структуре (DSSTox) Агентства по охране окружающей среды США является проектом Программы вычислительной токсикологии Агентства по охране окружающей среды. База данных содержит молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.

См. также

[ редактировать ]
  1. ^ wwwPDB.org. «wwPDB: Формат файла» . www.wwpdb.org . Проверено 13 июня 2024 г.
  2. ^ Чен, В.Б.; и др. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации» . Белковая наука . 18 (11): 2403–2409. дои : 10.1002/pro.250 . ПМК   2788294 . ПМИД   19768809 .
  3. ^ Хенрик, К.; и др. (2008). «Исправление архива банка данных белков» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D426–D433. дои : 10.1093/nar/gkm937 . ПМК   2238854 . ПМИД   18073189 .
  4. ^ Брукс, Б.М.; и др. (1983). «CHARMM: программа для расчета энергии, минимизации и динамики макромолекул». Дж. Компьютер. Хим . 4 (2): 187–217. дои : 10.1002/jcc.540040211 . S2CID   91559650 .
  5. ^ Вайнингер, Дэвид (1988). «SMILES, химический язык и информационная система: 1: Введение в методологию и правила кодирования». Журнал химической информации и моделирования . 28 (1): 31–36. дои : 10.1021/ci00057a005 . S2CID   5445756 .
  6. ^ Информационные системы MDL 2005
  7. ^ Домашняя страница Mol2mol
  8. ^ Домашняя страница Chemical MIME (по состоянию на 24 января 2013 г.)
  9. ^ Рзепа, ХС; Мюррей-Раст, П.; Уитакер, Би Джей (1998). «Применение интернет-стандартов химических многоцелевых расширений Интернет-почты (Chemical MIME) к электронной почте и обмену информацией во Всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. doi : 10.1021/ci9803233 .
  10. ^ «Результаты поиска пакета для «chemical-mime» | Debian» .
  11. ^ «Зачем использовать SourceForge? Возможности и преимущества» .
  12. ^ Берман, HM; и др. (2003). «Объявление о создании всемирного банка данных о белках» . Структурная биология природы . 10 (12): 980. дои : 10.1038/nsb1203-980 . ПМИД   14634627 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c91c51d0f5e289b926fb63dd4a42e5b__1721358600
URL1:https://arc.ask3.ru/arc/aa/6c/5b/6c91c51d0f5e289b926fb63dd4a42e5b.html
Заголовок, (Title) документа по адресу, URL1:
Chemical file format - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)