MPEG-G
в этой статье Использование внешних ссылок может не соответствовать политике и рекомендациям Википедии . ( декабрь 2021 г. ) |
В этой статье может быть слишком много заголовков разделов . ( декабрь 2021 г. ) |
MPEG-G ( ISO/IEC 23092 ) — это стандарт ISO/IEC, разработанный для представления геномной информации в результате сотрудничества ISO/IEC JTC 1/SC 29 /WG 9 ( MPEG ) и рабочей группы 5 ISO TC 276 «Биотехнология» . Цель стандарта — предоставить совместимые решения для хранения, доступа и защиты данных в различных возможных реализациях для информации о данных, генерируемой высокопроизводительными машинами для секвенирования, и их последующей обработки и анализа. [1] [2] Стандарт состоит из различных частей, каждая из которых касается определенного аспекта, такого как сжатие, ассоциация метаданных, интерфейсы прикладного программирования ( API ) и эталонное программное обеспечение для декодирования данных. Вместе с эталонным программным обеспечением декодера, коммерческим и с открытым исходным кодом. [3] реализации стали доступны в 2019 году и охватывают все больше опубликованных частей стандарта.
Предыстория [ править ]
Появление технологий высокопроизводительного секвенирования (HTS) произвело революцию в области количественной биологии. Доступность больших коллекций геномной информации сегодня вошла в повседневную практику и стала краеугольным камнем ряда дисциплин, от биологических исследований до персонализированной медицины в клинике. На данный момент обмен геномной информацией в основном осуществляется через различные форматы данных, такие как FASTA / FASTQ для невыровненных чтений секвенирования и SAM / BAM / CRAM для выровненных чтений. Стандарт ISO/IEC 23092 (MPEG-G) направлен на обеспечение унифицированного формата для эффективного представления и сжатия таких разнообразных данных как для хранения файлов, так и для транспортировки данных. Для этого стандарт разделен на несколько частей.
Структура стандарта [ править ]
Стандарт MPEG-G использует технологии и архитектуры представления данных, ранее проверенные в области цифровых медиа. Они позволяют сжимать и транспортировать данные секвенирования генома даже в сложных сценариях, например, когда необходим доступ к большим объемам возможно распределенных данных или когда часть данных необходимо зашифровать по соображениям конфиденциальности. Концептуально такие требования приводят к определению ряда взаимосвязанных механизмов, которые сведены в следующий список:
- Формат данных и сжатие [4]
- Потоковая передача данных [4]
- Объединение сжатых файлов [4]
- Постепенное обновление данных секвенирования и метаданных [4]
- Выборочный доступ к сжатым данным, например, быстрые запросы по геномному диапазону. [5]
- Ассоциация метаданных [6]
- Обеспечение соблюдения правил конфиденциальности [6]
- Выборочное шифрование данных и метаданных [6]
- Аннотация и связывание геномных сегментов. [7]
В свою очередь, некоторые из этих тем были собраны вместе, чтобы облегчить понимание и внедрение стандарта. В результате стандарт ISO/IEC 23092 физически структурирован как серия отдельных документов следующим образом:
Часть | Число | Дата первого публичного выпуска (первое издание) | Последняя дата публичного выпуска (издание) | Последняя поправка | Заголовок | Описание |
---|---|---|---|---|---|---|
Часть 1 | ИСО/МЭК 23092-1 | 2019 | 2019 | Транспорт и хранение геномной информации | Спецификация формата файла, потоковая передача и индексирование [4] | |
Часть 2 | ИСО/МЭК 23092-2 | 2019 | 2019 | Кодирование геномной информации | Сжатие некартированных (необработанных) и выровненных данных секвенирования генома. [5] | |
Часть 3 | ИСО/МЭК 23092-3 | 2020 | 2020 | Метаданные и интерфейсы прикладного программирования (API) | Спецификация стандартных интерфейсов, синтаксис метаданных и описание механизмов защиты контента. [6] | |
Часть 4 | ИСО/МЭК 23092-4 | (2020) | Справочное программное обеспечение | В нем описывается реализация нормативного декодера и информативного кодировщика с открытым исходным кодом. Он также предоставляет сжатые потоки битов, которые можно использовать в справочных целях. Обратите внимание, что существуют другие реализации с открытым исходным кодом, разработанные независимыми группами. [8] [9] | ||
Часть 5 | ИСО/МЭК 23092-5 | (2020) | Тестирование соответствия | В нем подробно описана процедура тестирования и связанные с ней сжатые эталонные потоки битов, которые будут использоваться, когда необходимо оценить соответствие реализации декодера стандарту MPEG-G. [10] | ||
Часть 6 | ИСО/МЭК 23092-6 | (2021) | Кодирование геномных аннотаций | Сжатое представление геномных аннотаций — то есть ряда гетерогенных типов данных, связанных с интервалами эталонного генома, с которыми были сопоставлены данные секвенирования. [7] |
ISO/IEC 23092-1 MPEG-G, часть 1 [ править ]
ISO/IEC 23092-1 определяет, как геномные данные организуются в структурах MPEG-G для транспортировки (т. е. потоковой передачи) и хранения. В этой части определены форматы геномной записи, эталонной записи, файла MPEG-G и транспортного потока. Он представляет Access Unit как контейнер сжатых геномных данных и обеспечивает процесс преобразования ссылок между различными форматами.
ISO/IEC 23092-2 MPEG-G, часть 2 [ править ]
ISO/IEC 23092-2 определяет синтаксис и методы сжатия MPEG-G без потерь данных секвенирования и сжатия с потерями связанных показателей качества. MPEG-G, как это типично для стандартов MPEG, определяет только процесс декодирования, в то время как процесс кодирования остается открытым для алгоритмических и специфичных для реализации инноваций. Все декодеры, соответствующие стандарту MPEG-G, выдают идентичные выходные данные из мультиплексированных битовых потоков, включенных в файлы MPEG-G, и потоков данных в сценариях потоковой передачи.
Входными данными кодера являются геномные записи или метаданные с дополнительными справочными данными, а выходными данными являются файлы MPEG-G или транспортные потоки.
ISO/IEC 23092-3 MPEG-G, часть 3 [ править ]
ISO/IEC 23092-3 определяет формат метаданных и предоставляет API-интерфейсы представления геномных данных для поддержки взаимодействия между существующими инструментами и системами. Часть 3 определяет, как битовый поток, совместимый с MPEG-G, может быть интегрирован с метаданными, а также механизмы реализации контроля доступа, проверки целостности, аутентификации и авторизации. Эта часть также содержит информационный раздел, посвященный сопоставлению структур данных SAM и MPEG-G, включая обратную совместимость с существующим SAM контентом . Он определяет:
Группа функций | Краткое описание |
---|---|
Геномная информация | Функции, используемые для запроса структуры и извлечения геномной информации, закодированной в битовом потоке, соответствующем серии ISO/IEC 23092. |
Метаданные | Функции, используемые для запроса структуры и извлечения метаданных, связанных с закодированными геномными данными. |
Защита | Функции, используемые для получения метаданных защиты, связанных с закодированными геномными данными. |
Ссылка | Функции, используемые для получения ссылки, связанной с набором данных. |
Статистика | Функции, используемые для получения статистики, связанной с набором данных. |
ISO/IEC 23092-4 MPEG-G, часть 4 [ править ]
ИСО/МЭК 23092-4 [9] определяет справочное программное обеспечение для представления геномной информации, называемое геномной моделью (GM). Он состоит из двух компонентов: программного обеспечения эталонного кодера и программного обеспечения эталонного декодера. Хотя эталонное программное обеспечение декодера предоставляется для оценки соответствия требованиям ISO/IEC 23092-1 , [4] ИСО/МЭК 23092-2 [5] и ИСО/МЭК 23092-6 , [7] программное обеспечение эталонного кодировщика служит руководством по реализации вышеупомянутых стандартов. Программное обеспечение эталонного кодировщика под названием Genie [3] — это программное обеспечение с открытым исходным кодом, разработанное группой людей из множества университетов и компаний по всему миру. Он включает в себя следующие компоненты:
Часть | Число | Компонент | Описание |
---|---|---|---|
Часть 1 [4] | ИСО/МЭК 23092-1 | Инкапсуляция | |
Индексирование | |||
Часть 2 [5] | ИСО/МЭК 23092-2 | Классификация | |
Эталонный движок | |||
Квантование значения качества | |||
Генерация подпоследовательности дескриптора | |||
Преобразования | |||
Энтропийное кодирование | |||
Часть 6 | ИСО/МЭК 23092-6 | (Будет определено) |
ISO/IEC 23092-5 MPEG-G, часть 5 [ править ]
ISO/IEC 23092-5 определяет соответствие кодирования геномной информации. Часть 5 предоставляет средства для тестирования и проверки правильности реализации технологии MPEG-G в различных устройствах и приложениях для обеспечения совместимости всех систем. Он определяет нормативную процедуру оценки соответствия стандарту на исчерпывающем наборе сжатых данных.
Расширения MIME-типа и имени файла [ править ]
В настоящее время для файла MPEG-G не определен тип MIME (тип носителя IANA на основе RFC 6838).
Никакие традиционные расширения файлов не определены.
См. также [ править ]
Ссылки [ править ]
- ^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Рибека, Паоло; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (октябрь 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации» . bioRxiv : 426353. doi : 10.1101/426353 . S2CID 53606895 .
- ^ Эрнаес, Микель; Павличин Дмитрий; Вайсман, Цахи; Очоа, Идоя (20 июля 2019 г.). «Сжатие геномных данных» . Ежегодный обзор биомедицинских данных . 2 (1): 19–37. doi : 10.1146/annurev-biodatasci-072018-021229 . ISSN 2574-3414 . S2CID 88495878 .
- ↑ Перейти обратно: Перейти обратно: а б «Genie, кодек MPEG-G с открытым исходным кодом» . Гитхаб . 22 июня 2021 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г «ISO/IEC 23092-1 Транспортировка и хранение геномной информации» .
- ↑ Перейти обратно: Перейти обратно: а б с д «ISO/IEC 23092-2 Кодирование геномной информации» .
- ↑ Перейти обратно: Перейти обратно: а б с д «Метаданные и API ISO/IEC 23092-3» .
- ↑ Перейти обратно: Перейти обратно: а б с «ISO/IEC 23092-6 Кодирование геномных аннотаций» .
- ^ Блисс, Брайан; Аллен, Джошуа; Бахети, Саураб; Бокол, Мэтью; Дельгадо, Хайме; Фостиер, Ян; Гельпи, Хосеп; Харт, Стивен; Эрнаес, Микель; Хадсон, Мэтью; Кальмбах, Майкл; Клевер, Эрик; Майнцер, Людмила; Мюнтеферинг, Фабиан; Наро, Дэниел; Очоа, Идоя; Остерманн, Йорн; Паридаенс, Том; Росс, Кристиан; Фогес, Ян; Вибен, Эрик; Ян, Мингю; Вайсман, Цахи; Виперт, Матье (ноябрь 2019 г.). Genie: совместимое с MPEG-G программное обеспечение для сжатия геномных данных (PDF) . sc19.supercomputing.org . дои : 10.1101/426353 .
- ↑ Перейти обратно: Перейти обратно: а б «Справочное программное обеспечение ISO/IEC 23092-4» .
- ^ «Соответствие ISO/IEC 23092-5» .