Формат данных масс-спектрометрии
Масс-спектрометрия — это научный метод измерения отношения массы к заряду ионов. Он часто сочетается с хроматографическими методами, такими как газовая или жидкостная хроматография , и нашел широкое распространение в областях аналитической химии и биохимии, где его можно использовать для идентификации и характеристики малых молекул и белков ( протеомика ). Большой объем данных, получаемых в типичном масс-спектрометрическом эксперименте, требует использования компьютеров для хранения и обработки данных. За прошедшие годы разные производители масс-спектрометров разработали различные собственные форматы данных для обработки таких данных, что затрудняет непосредственное манипулирование этими данными академическим ученым. Чтобы устранить это ограничение, несколько открытых недавно форматов данных на основе XML были разработаны Trans-Proteomic Pipeline в Институте системной биологии для облегчения манипулирования данными и инноваций в государственном секторе. [1] Эти форматы данных описаны здесь.
Открытые форматы
[ редактировать ]JCAMP-DX
[ редактировать ]Этот формат был одной из первых попыток предоставить стандартизированный формат файлов для обмена данными в масс-спектрометрии. JCAMP-DX изначально был разработан для инфракрасной спектрометрии. JCAMP-DX — это формат на основе ASCII , поэтому он не очень компактен, хотя и включает стандарты сжатия файлов. JCAMP был официально выпущен в 1988 году. [2] Совместно с Американским обществом масс-спектрометрии был разработан формат масс-спектрометрии JCAMP-DX с целью сохранения устаревших данных. [3]
ANDI-MS или netCDF
[ редактировать ]Формат обмена аналитическими данными для масс-спектрометрии — это формат обмена данными. Многие пакеты программного обеспечения для масс-спектрометрии могут читать или записывать файлы ANDI. ANDI указан в стандарте ASTM E1947. [4] ANDI основан на netCDF , библиотеке программных инструментов для записи и чтения файлов данных. ANDI изначально был разработан для данных хроматографии-МС и поэтому не использовался в период золотой лихорадки протеомики , когда были разработаны новые форматы на основе XML . [5]
АнИМЛ
[ редактировать ]AnIML — это совместная работа IUPAC и ASTM International по созданию стандарта на основе XML, который охватывает широкий спектр аналитических методов, включая масс-спектрометрию. [6]
мздата
[ редактировать ]mzData была первой попыткой Инициативы по стандартам протеомики (PSI) Организации протеома человека (HUPO) создать стандартизированный формат для данных масс-спектрометрии. [7] Этот формат устарел и заменен на mzML. [8]
мзXML
[ редактировать ]mzXML — это общий формат файлов на основе XML (расширяемый язык разметки) для масс-спектрометрических данных протеомики . [9] [10] Этот формат был разработан в Сиэтлском протеомном центре/Институте системной биологии, когда HUPO-PSI пытался определить стандартизированный формат mzData, и до сих пор используется в сообществе протеомиков.
ЯФМС
[ редактировать ]Еще один формат при спектрометрии масс - схеме , (YAFMS) — это предложение сохранять данные в четырехтабличной реляционной бессерверной базы данных этом извлечение и добавление данных осуществляется с помощью SQL- запросов. [11]
мзМЛ
[ редактировать ]Поскольку использование двух форматов (mzData и mzXML) для представления одной и той же информации является нежелательным, HUPO-PSI, SPC/ISB и поставщики инструментов предприняли совместные усилия по созданию единого стандарта, заимствующего лучшие аспекты mzData и mzXML. и намеревались заменить их. Первоначально он назывался dataXML, но официально был объявлен как mzML. [12] Первая спецификация была опубликована в июне 2008 года. [13] Этот формат был официально представлен на встрече Американского общества масс-спектрометрии в 2008 году и с тех пор является относительно стабильным с очень небольшим количеством обновлений. 1 июня 2009 г. был выпущен mzML 1.1.0. По состоянию на 2013 год дальнейших изменений не планируется.
мзаПИ
[ редактировать ]Вместо определения новых форматов файлов и написания преобразователей для собственных форматов поставщиков группа ученых предложила определить общий интерфейс прикладной программы, чтобы переложить бремя соответствия стандартам на существующие библиотеки доступа к данным производителей приборов. [14]
мз5
[ редактировать ]Формат mz5 решает проблемы производительности предыдущих форматов на основе XML. Он использует онтологию mzML, но сохраняет данные с помощью серверной части HDF5 , что позволяет сократить требования к пространству для хранения и повысить скорость чтения/записи. [15]
imzML
[ редактировать ]Стандарт imzML был предложен для обмена данными масс-спектрометрического изображения в стандартизированном XML-файле на основе онтологии mzML. Он разбивает экспериментальные данные на XML, а спектральные данные — в двоичный файл. Оба файла связаны универсальным уникальным идентификатором . [16]
мздб
[ редактировать ]mzDB сохраняет данные в базе данных SQLite , чтобы сэкономить место для хранения и сократить время доступа, поскольку точки данных можно запрашивать из реляционной базы данных . [17]
Ириска
[ редактировать ]Toffee — это открытый формат файлов без потерь для независимой от данных масс-спектрометрии. Он использует HDF5 и стремится достичь размеров файлов, аналогичных размерам проприетарных и закрытых форматов поставщиков. [18]
мзМЛб
[ редактировать ]mzMLb — это еще один вариант использования бэкэнда HDF5 для эффективного сохранения необработанных данных. Однако он сохраняет структуру данных XML mzML и соответствует существующему стандарту. [19]
Собственные форматы
[ редактировать ]Ниже приведена таблица различных расширений форматов файлов.
Компания Расширение Тип файла ACD/Лаборатории *.spectrus Импортирует данные ВЭЖХ/МС и ГХ/МС от большинства основных поставщиков приборов, перечисленных здесь. Аджилент
Пользователь.D (папка) Формат данных Agilent MassHunter, Agilent ChemStation или Bruker BAF/YEP/TDF Аджилент/Пользователь .АГА формат данных прибора Аджилент .АЕВ, .АСР Формат отчета ASCII (для Analytical Studio Reviewer) Пользователь .BAF формат данных прибора Пользователь .FID формат данных прибора Пользователь .TDF Формат данных прибора timsTOF ABI/Sciex .ВИФФ, .ВИФФ2 формат данных прибора ABI/Sciex .t2d Формат файлов 4700 и 4800 ABI/Sciex .что Формат файла серии Voyager-DE Воды .ПКЛ Формат списка пиков MassLynx Термо
ПеркинЭлмер.СЫРОЙ* Термо Искалибур
ПеркинЭлмер ТурбоМассМикромасса**/вода .RAW* (папка) Уотерс МассЛинкс Хромтех
Финниган***
ВГ.ЧТО Формат файла Finnigan ITDS; Формат данных прибора MAT95
Формат данных MassLabФинниган*** .РС Формат данных прибора ITS40 Шимадзу .QGD Формат решения GCMSSolution Шимадзу .qgd формат данных прибора Шимадзу .ЖК-дисплей Формат данных прибора QQQ/QTOF Шимадзу .spc формат данных библиотеки Пользователь/вариант .SMS формат данных прибора Пользователь/вариант .XMS формат данных прибора ИОН-ТОФ .itm необработанные данные измерений ИОН-ТОФ .она данные анализа Физическая электроника/ULVAC-PHI .сырой* необработанные данные измерений Физическая электроника/ULVAC-PHI .tdc данные спектра
(*) Обратите внимание, что форматы RAW каждого поставщика не являются взаимозаменяемыми; программное обеспечение одного не может обрабатывать файлы RAW другого.
(**) Micromass была приобретена компанией Waters в 1997 году.
(***) Finnigan является подразделением Thermo.
Программное обеспечение
[ редактировать ]Зрители
[ редактировать ]Существует несколько программ просмотра mzXML, mzML и mzData. Эти средства просмотра бывают двух типов: бесплатное программное обеспечение с открытым исходным кодом (FOSS) или проприетарное.
В категории просмотра FOSS можно найти MZmine, [20] mineXpert2 (mzXML, mzML, собственный timsTOF, xy, MGF, BafAscii) [21] МС-Спектр, [22] TOPPView (mzXML, mzML и mzData), [23] Просмотрщик спектров, [24] Кажется, [25] мсИнспект, [26] jmzML. [27]
В фирменной категории можно найти ПИКИ, [28] Инсиликос , [29] Талисман Дистиллятор, [30] Эльски Пиксель. [31]
Есть просмотрщик изображений ITA. [32] Изображения ITA и ITM можно анализировать с помощью библиотеки Python pySPM. [33]
Конвертеры
[ редактировать ]Известные конвертеры mzData в mzXML:
- Hermes: преобразователь Java «mzData, mzXML, mzML» во все направления: общедоступный, работает с графическим пользовательским интерфейсом, разработан Институтом молекулярной системной биологии, ETH Zurich. [34] [35]
- FileConverter: инструмент командной строки, который преобразует в/из различные форматы масс-спектрометрии, [36] часть ТОПП [37]
Известные конвертеры для mzXML:
- Институт системной биологии ведет список преобразователей. [38]
Известные конвертеры для mzML:
- мсконверт: [39] [40] Инструмент командной строки, конвертирующий в/из различных форматов масс-спектрометрии. Для пользователей Windows также доступен графический интерфейс.
- Читать: [41] Конвертер командной строки Института системной биологии для файлов Thermo RAW, входящий в состав TransProteomicPipeline. [42] Последнее обновление этого инструмента было выпущено в сентябре 2009 года. Теперь команда разработчиков TPP перенаправляет пользователей на использование программного обеспечения msConvert (см. выше).
- FileConverter: инструмент командной строки, который преобразует в/из различные форматы масс-спектрометрии, [36] часть ТОПП [37]
Конвертеры для собственных форматов:
- мсконверт: [39] [40] Инструмент командной строки, конвертирующий в/из различные форматы масс-спектрометрии, включая несколько собственных форматов. Для пользователей Windows также доступен графический интерфейс.
- CompassXport, ) бесплатный инструмент Bruker, генерирующий mzXML (а теперь и mzData [ нужна ссылка ] файлы для многих своих собственных форматов файлов (.baf).
- MASSTransit, программное обеспечение для изменения данных между собственными форматами, разработанное Palisade Corporation и распространяемое Scientific Instrument Services, Inc. [43] и ПеркинЭлмер . [44] Приобретен у Palisade компанией John Wiley and Sons в 2020 году и включен в программное обеспечение спектроскопии KnowItAll. (список поддерживаемых форматов файлов).
- Астон, [45] встроенная поддержка нескольких форматов файлов Agilent Chemstation, Agilent Mashunter и Thermo Isodat.
- унфинниган, [46] встроенная поддержка форматов файлов Finnigan (*.RAW).
- OpenChrom , программное обеспечение с открытым исходным кодом, поддерживающее преобразование различных собственных форматов файлов, включая собственный открытый формат .ocb для хранения хроматограмм, пиков и результатов идентификации. [47]
В настоящее время доступны следующие конвертеры:
- MassWolf, для формата Micromass MassLynx .Raw
- mzStar, для формата SCIEX / ABI SCIEX/ABI Analyst
- wiff2dta [48] для SCIEX / ABI Формат SCIEX/ABI Analyst в mzXML, DTA, MGF и PMF
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Deutsch EW (декабрь 2012 г.). «Форматы файлов, обычно используемые в масс-спектрометрии и протеомике» . Молекулярная и клеточная протеомика . 11 (12): 1612–21. дои : 10.1074/mcp.R112.019695 . ПМЦ 3518119 . ПМИД 22956731 .
- ^ Макдональд, Роберт С.; Уилкс, Пол А. (1988). «JCAMP-DX: Стандартная форма для обмена инфракрасными спектрами в компьютерно-читаемой форме» (PDF) . Прикладная спектроскопия . 42 (1): 151–162. Бибкод : 1988ApSpe..42..151M . дои : 10.1366/0003702884428734 .
- ^ Лампен П., Хиллиг Х., Дэвис А.Н., Линшайд М. (декабрь 1994 г.). «JCAMP-DX для масс-спектрометрии» . Прикладная спектроскопия . 48 (12): 1545–52. Бибкод : 1994ApSpe..48.1545L . дои : 10.1366/0003702944027840 . S2CID 96773027 .
- ^ ASTM E1947-98 (2009) Стандартные спецификации для протокола обмена аналитическими данными для хроматографических данных
- ^ Майер Г., Джонс А.Р., Бинц П.А., Дойч Э.В., Орчард С., Монтекки-Палацци Л. и др. (январь 2014 г.). «Управляемые словари и онтологии в протеомике: обзор, принципы и практика» . Biochimica et Biophysical Acta (BBA) - Белки и протеомика . 1844 (1 часть А): 98–107. дои : 10.1016/j.bbapap.2013.02.017 . ПМЦ 3898906 . ПМИД 23429179 .
- ^ Дэвис, Тони (2007). «Стадое AnIML (нет, это не орфографическая ошибка): обновленная информация о сотрудничестве IUPAC и ASTM в области стандартов аналитических данных» . Химия Интернэшнл . 29 (6).
- ^ Орчард С., Монтечи-Палацци Л., Дойч Э.В., Бинц П.А., Джонс А.Р., Патон Н. и др. (октябрь 2007 г.). «Пять лет прогресса в стандартизации протеомных данных. 4-й ежегодный весенний семинар Инициативы по стандартам HUPO-протеомики, 23-25 апреля 2007 г. Ecole Nationale Supérieure (ENS), Лион, Франция». Протеомика . 7 (19): 3436–40. дои : 10.1002/pmic.200700658 . ПМИД 17907277 . S2CID 22837325 .
- ^ «мздата» . ХУПО-ПСИ. Архивировано из оригинала 7 июля 2018 года . Проверено 26 апреля 2021 г.
- ^ Педриоли П.Г., Энг Дж.К., Хабли Р., Фогельзанг М., Дойч Э.В., Раут Б. и др. (ноябрь 2004 г.). «Общее открытое представление данных масс-спектрометрии и его применение в исследованиях протеомики». Природная биотехнология . 22 (11): 1459–66. дои : 10.1038/nbt1031 . ПМИД 15529173 . S2CID 25734712 .
- ^ Линь С.М., Чжу Л., Винтер А.К., Сасиновский М., Киббе В.А. (декабрь 2005 г.). «Для чего нужен mzXML?». Экспертное обозрение по протеомике . 2 (6): 839–45. дои : 10.1586/14789450.2.6.839 . ПМИД 16307524 . S2CID 24914725 .
- ^ Шах А.Р., Дэвидсон Дж., Монро М.Э., Маямпурат А.М., Дэниелсон В.Ф., Ши Ю. и др. (октябрь 2010 г.). «Эффективный формат данных для протеомики на основе масс-спектрометрии» . Журнал Американского общества масс-спектрометрии . 21 (10): 1784–8. дои : 10.1016/j.jasms.2010.06.014 . ПМИД 20674389 .
- ^ "мзМЛ" . Инициатива по стандартам HUPO-протеомики . Проверено 19 апреля 2013 г.
- ^ Deutsch E (июль 2008 г.). «mzML: единый, унифицированный формат данных для выходных данных масс-спектрометра» . Протеомика . 8 (14): 2776–7. дои : 10.1002/pmic.200890049 . ПМИД 18655045 . S2CID 28297899 .
- ^ Ашкенази М., Парих-младший, Марто Дж.А. (апрель 2009 г.). «mzAPI: новая стратегия эффективного обмена данными масс-спектрометрии» . Природные методы . 6 (4): 240–1. дои : 10.1038/nmeth0409-240 . ПМК 2691659 . ПМИД 19333238 .
- ^ Вильгельм М., Киршнер М., Стин Дж.А., Стин Х. (январь 2012 г.). «mz5: экономное по пространству и времени хранение наборов данных масс-спектрометрии» . Молекулярная и клеточная протеомика . 11 (1): О111.011379. дои : 10.1074/mcp.O111.011379 . ПМК 3270111 . ПМИД 21960719 .
- ^ Шрамм Т., Хестер З., Клинкерт И., Оба Дж.П., Хирен Р.М., Брюнелл А. и др. (август 2012 г.). «imzML — общий формат данных для гибкого обмена и обработки данных масс-спектрометрического изображения» (PDF) . Журнал протеомики . 75 (16): 5106–5110. дои : 10.1016/j.jprot.2012.07.026 . ПМИД 22842151 . S2CID 25970597 .
- ^ Буисье Д., Дюбуа М., Нассо С., Гонсалес де Передо А., Бурлет-Шильц О., Эберсолд Р., Монсаррат Б. (март 2015 г.). «mzDB: формат файла, использующий несколько стратегий индексации для эффективного анализа больших наборов данных LC-MS/MS и SWATH-MS» . Молекулярная и клеточная протеомика . 14 (3): 771–81. дои : 10.1074/mcp.O114.039115 . ПМЦ 4349994 . ПМИД 25505153 .
- ^ Талли Б. (июнь 2020 г.). «Ириска — высокоэффективный формат файлов без потерь для DIA-MS» . Научные отчеты . 10 (1): 8939. Бибкод : 2020NatSR..10.8939T . дои : 10.1038/s41598-020-65015-y . ПМЦ 7265431 . ПМИД 32488104 .
- ^ Бамбер Р.С., Янкевич А., Дойч Э.В., Джонс А.Р., Доуси А.В. (январь 2021 г.). «mzMLb: перспективный формат необработанных масс-спектрометрических данных, основанный на соответствующем стандартам mzML и оптимизированный с учетом требований к скорости и хранению» . Журнал исследований протеома . 20 (1): 172–183. doi : 10.1021/acs.jproteome.0c00192 . ПМЦ 7871438 . ПМИД 32864978 .
- ^ «Сайт MZmine» .
- ^ «Веб-сайт mineXpert2» .
- ^ «Сайт МС-Спектр» . MS-spectre.sourceforge.net . Проверено 29 ноября 2011 г.
- ^ «Веб-сайт OpenMS и TOPP» . Откройте-ms.sourceforge.net . Проверено 29 ноября 2011 г.
- ^ «Просмотрщик с открытым исходным кодом, разработанный в рамках академических проектов» . Staff.icar.cnr.it . Проверено 29 ноября 2011 г.
- ^ «Программа просмотра с открытым исходным кодом, разработанная Мэттом Чемберсом из Vanderbilt» . Proteowizard.sourceforge.net . Проверено 29 ноября 2011 г.
- ^ «Программа просмотра с открытым исходным кодом, разработанная Онкологическим центром Фреда Хатчинсона» . Proteomics.fhcrc.org . Проверено 29 ноября 2011 г.
- ^ "jmzML" . Проверено 29 ноября 2011 г.
- ^ «BSI: Сайт ПИКС» . Биоинфор.com . Проверено 29 ноября 2011 г.
- ^ «Сайт Инсиликос» . Архивировано из оригинала 20 декабря 2014 года . Проверено 28 марта 2020 г.
- ^ Матрица Сайенс Лимитед. «Коммерческое программное обеспечение с бесплатным режимом просмотра mzXML и многих собственных форматов» . Matrixscience.com . Проверено 29 ноября 2011 г.
- ^ «Peaksel — программное обеспечение для чтения и обработки проприетарных и открытых форматов ВЭЖХ» .
- ^ «ITAviewer онлайн» .
«Источник ITAviewer» . Гитхаб . 9 ноября 2017 г. - ^ «сайт pySPM» . Гитхаб . 17 июня 2022 г.
- ↑ Hermes. Архивировано 3 марта 2016 г. в Wayback Machine.
- ^ «Сайт Гермеса» . Icecoffee.ch . Проверено 29 ноября 2011 г.
- ^ Перейти обратно: а б «Конвертер файлов» . Откройте-ms.sourceforge.net . Проверено 29 ноября 2011 г.
- ^ Перейти обратно: а б TOPP. Архивировано 15 апреля 2008 г. в Wayback Machine.
- ^ "мзXML" . Проверено 30 июня 2008 г.
- ^ Перейти обратно: а б «мсконверт» . ПротеоВизард . Проверено 20 апреля 2013 г.
- ^ Перейти обратно: а б «ПротеоВизард» . Проверено 20 апреля 2013 г.
- ^ «РеАдВ» . Tools.proteomecenter.org . Проверено 29 ноября 2011 г.
- ^ «Транспротеомикпайплайн» . Tools.proteomecenter.org. 25 мая 2011 года . Проверено 29 ноября 2011 г.
- ↑ MASSTransit от Palisade. Архивировано 9 мая 2008 г. в Wayback Machine.
- ^ «Газовая хроматография (ГХ)» . ПеркинЭлмер . Проверено 29 ноября 2011 г.
- ^ aston - Программное обеспечение для хроматографии и масс-спектрометрии с открытым исходным кодом - Хостинг проектов Google
- ^ unfinnigan - Безболезненное извлечение масс-спектров из «необработанных» файлов Thermo - Хостинг Google Project
- ^ Домбровский Л. (7 августа 2015 г.). «Обзор бесплатного программного обеспечения для обработки данных для хроматографии» . Средиземноморский химический журнал . 4 (4): 193–200. doi : 10.13171/mjc.4.4.2015.15.09.16.35/dabrowski .
- ^ wiff2dta в sourceforge