Jump to content

MPEG-G

MPEG-G ( ISO/IEC 23092 ) — это стандарт ISO/IEC, разработанный для представления геномной информации в результате сотрудничества ISO/IEC JTC 1/SC 29 /WG 9 ( MPEG ) и рабочей группы 5 ISO TC 276 «Биотехнология» . Цель стандарта — предоставить совместимые решения для хранения, доступа и защиты данных в различных возможных реализациях для информации о данных, генерируемой высокопроизводительными машинами для секвенирования, и их последующей обработки и анализа. [1] [2] Стандарт состоит из различных частей, каждая из которых касается определенного аспекта, такого как сжатие, ассоциация метаданных, интерфейсы прикладного программирования ( API ) и эталонное программное обеспечение для декодирования данных. Вместе с эталонным программным обеспечением декодера, коммерческим и с открытым исходным кодом. [3] реализации стали доступны в 2019 году и охватывают все больше опубликованных частей стандарта.

Предыстория [ править ]

Появление технологий высокопроизводительного секвенирования (HTS) произвело революцию в области количественной биологии. Доступность больших коллекций геномной информации сегодня вошла в повседневную практику и стала краеугольным камнем ряда дисциплин, от биологических исследований до персонализированной медицины в клинике. На данный момент обмен геномной информацией в основном осуществляется через различные форматы данных, такие как FASTA / FASTQ для невыровненных чтений секвенирования и SAM / BAM / CRAM для выровненных чтений. Стандарт ISO/IEC 23092 (MPEG-G) направлен на обеспечение унифицированного формата для эффективного представления и сжатия таких разнообразных данных как для хранения файлов, так и для транспортировки данных. Для этого стандарт разделен на несколько частей.

Структура стандарта [ править ]

Стандарт MPEG-G использует технологии и архитектуры представления данных, ранее проверенные в области цифровых медиа. Они позволяют сжимать и транспортировать данные секвенирования генома даже в сложных сценариях, например, когда необходим доступ к большим объемам возможно распределенных данных или когда часть данных необходимо зашифровать по соображениям конфиденциальности. Концептуально такие требования приводят к определению ряда взаимосвязанных механизмов, которые сведены в следующий список:

  • Формат данных и сжатие [4]
  • Потоковая передача данных [4]
  • Объединение сжатых файлов [4]
  • Постепенное обновление данных секвенирования и метаданных [4]
  • Выборочный доступ к сжатым данным, например, быстрые запросы по геномному диапазону. [5]
  • Ассоциация метаданных [6]
  • Обеспечение соблюдения правил конфиденциальности [6]
  • Выборочное шифрование данных и метаданных [6]
  • Аннотация и связывание геномных сегментов. [7]

В свою очередь, некоторые из этих тем были собраны вместе, чтобы облегчить понимание и внедрение стандарта. В результате стандарт ISO/IEC 23092 физически структурирован как серия отдельных документов следующим образом:

Детали MPEG-G
Часть Число Дата первого публичного выпуска (первое издание) Последняя дата публичного выпуска (издание) Последняя поправка Заголовок Описание
Часть 1 ИСО/МЭК 23092-1 2019 2019 Транспорт и хранение геномной информации Спецификация формата файла, потоковая передача и индексирование [4]
Часть 2 ИСО/МЭК 23092-2 2019 2019 Кодирование геномной информации Сжатие некартированных (необработанных) и выровненных данных секвенирования генома. [5]
Часть 3 ИСО/МЭК 23092-3 2020 2020 Метаданные и интерфейсы прикладного программирования (API) Спецификация стандартных интерфейсов, синтаксис метаданных и описание механизмов защиты контента. [6]
Часть 4 ИСО/МЭК 23092-4 (2020) Справочное программное обеспечение В нем описывается реализация нормативного декодера и информативного кодировщика с открытым исходным кодом. Он также предоставляет сжатые потоки битов, которые можно использовать в справочных целях. Обратите внимание, что существуют другие реализации с открытым исходным кодом, разработанные независимыми группами. [8] [9]
Часть 5 ИСО/МЭК 23092-5 (2020) Тестирование соответствия В нем подробно описана процедура тестирования и связанные с ней сжатые эталонные потоки битов, которые будут использоваться, когда необходимо оценить соответствие реализации декодера стандарту MPEG-G. [10]
Часть 6 ИСО/МЭК 23092-6 (2021) Кодирование геномных аннотаций Сжатое представление геномных аннотаций — то есть ряда гетерогенных типов данных, связанных с интервалами эталонного генома, с которыми были сопоставлены данные секвенирования. [7]

ISO/IEC 23092-1 MPEG-G, часть 1 [ править ]

ISO/IEC 23092-1 определяет, как геномные данные организуются в структурах MPEG-G для транспортировки (т. е. потоковой передачи) и хранения. В этой части определены форматы геномной записи, эталонной записи, файла MPEG-G и транспортного потока. Он представляет Access Unit как контейнер сжатых геномных данных и обеспечивает процесс преобразования ссылок между различными форматами.

ISO/IEC 23092-2 MPEG-G, часть 2 [ править ]

ISO/IEC 23092-2 определяет синтаксис и методы сжатия MPEG-G без потерь данных секвенирования и сжатия с потерями связанных показателей качества. MPEG-G, как это типично для стандартов MPEG, определяет только процесс декодирования, в то время как процесс кодирования остается открытым для алгоритмических и специфичных для реализации инноваций. Все декодеры, соответствующие стандарту MPEG-G, выдают идентичные выходные данные из мультиплексированных битовых потоков, включенных в файлы MPEG-G, и потоков данных в сценариях потоковой передачи.

Входными данными кодера являются геномные записи или метаданные с дополнительными справочными данными, а выходными данными являются файлы MPEG-G или транспортные потоки.

ISO/IEC 23092-3 MPEG-G, часть 3 [ править ]

ISO/IEC 23092-3 определяет формат метаданных и предоставляет API-интерфейсы представления геномных данных для поддержки взаимодействия между существующими инструментами и системами. Часть 3 определяет, как битовый поток, совместимый с MPEG-G, может быть интегрирован с метаданными, а также механизмы реализации контроля доступа, проверки целостности, аутентификации и авторизации. Эта часть также содержит информационный раздел, посвященный сопоставлению структур данных SAM и MPEG-G, включая обратную совместимость с существующим SAM контентом . Он определяет:

Группы функций API
Группа функций Краткое описание
Геномная информация Функции, используемые для запроса структуры и извлечения геномной информации, закодированной в битовом потоке, соответствующем серии ISO/IEC 23092.
Метаданные Функции, используемые для запроса структуры и извлечения метаданных, связанных с закодированными геномными данными.
Защита Функции, используемые для получения метаданных защиты, связанных с закодированными геномными данными.
Ссылка Функции, используемые для получения ссылки, связанной с набором данных.
Статистика Функции, используемые для получения статистики, связанной с набором данных.

ISO/IEC 23092-4 MPEG-G, часть 4 [ править ]

ИСО/МЭК 23092-4 [9] определяет справочное программное обеспечение для представления геномной информации, называемое геномной моделью (GM). Он состоит из двух компонентов: программного обеспечения эталонного кодера и программного обеспечения эталонного декодера. Хотя эталонное программное обеспечение декодера предоставляется для оценки соответствия требованиям ISO/IEC 23092-1 , [4] ИСО/МЭК 23092-2 [5] и ИСО/МЭК 23092-6 , [7] программное обеспечение эталонного кодировщика служит руководством по реализации вышеупомянутых стандартов. Программное обеспечение эталонного кодировщика под названием Genie [3] — это программное обеспечение с открытым исходным кодом, разработанное группой людей из множества университетов и компаний по всему миру. Он включает в себя следующие компоненты:

Справочные программные компоненты
Часть Число Компонент Описание
Часть 1 [4] ИСО/МЭК 23092-1 Инкапсуляция
Индексирование
Часть 2 [5] ИСО/МЭК 23092-2 Классификация
Эталонный движок
Квантование значения качества
Генерация подпоследовательности дескриптора
Преобразования
Энтропийное кодирование
Часть 6 ИСО/МЭК 23092-6 (Будет определено)

ISO/IEC 23092-5 MPEG-G, часть 5 [ править ]

ISO/IEC 23092-5 определяет соответствие кодирования геномной информации. Часть 5 предоставляет средства для тестирования и проверки правильности реализации технологии MPEG-G в различных устройствах и приложениях для обеспечения совместимости всех систем. Он определяет нормативную процедуру оценки соответствия стандарту на исчерпывающем наборе сжатых данных.

Расширения MIME-типа и имени файла [ править ]

В настоящее время для файла MPEG-G не определен тип MIME (тип носителя IANA на основе RFC 6838).

Никакие традиционные расширения файлов не определены.

См. также [ править ]

Ссылки [ править ]

  1. ^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Рибека, Паоло; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (октябрь 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации» . bioRxiv : 426353. doi : 10.1101/426353 . S2CID   53606895 .
  2. ^ Эрнаес, Микель; Павличин Дмитрий; Вайсман, Цахи; Очоа, Идоя (20 июля 2019 г.). «Сжатие геномных данных» . Ежегодный обзор биомедицинских данных . 2 (1): 19–37. doi : 10.1146/annurev-biodatasci-072018-021229 . ISSN   2574-3414 . S2CID   88495878 .
  3. Перейти обратно: Перейти обратно: а б «Genie, кодек MPEG-G с открытым исходным кодом» . Гитхаб . 22 июня 2021 г.
  4. Перейти обратно: Перейти обратно: а б с д и ж г «ISO/IEC 23092-1 Транспортировка и хранение геномной информации» .
  5. Перейти обратно: Перейти обратно: а б с д «ISO/IEC 23092-2 Кодирование геномной информации» .
  6. Перейти обратно: Перейти обратно: а б с д «Метаданные и API ISO/IEC 23092-3» .
  7. Перейти обратно: Перейти обратно: а б с «ISO/IEC 23092-6 Кодирование геномных аннотаций» .
  8. ^ Блисс, Брайан; Аллен, Джошуа; Бахети, Саураб; Бокол, Мэтью; Дельгадо, Хайме; Фостиер, Ян; Гельпи, Хосеп; Харт, Стивен; Эрнаес, Микель; Хадсон, Мэтью; Кальмбах, Майкл; Клевер, Эрик; Майнцер, Людмила; Мюнтеферинг, Фабиан; Наро, Дэниел; Очоа, Идоя; Остерманн, Йорн; Паридаенс, Том; Росс, Кристиан; Фогес, Ян; Вибен, Эрик; Ян, Мингю; Вайсман, Цахи; Виперт, Матье (ноябрь 2019 г.). Genie: совместимое с MPEG-G программное обеспечение для сжатия геномных данных (PDF) . sc19.supercomputing.org . дои : 10.1101/426353 .
  9. Перейти обратно: Перейти обратно: а б «Справочное программное обеспечение ISO/IEC 23092-4» .
  10. ^ «Соответствие ISO/IEC 23092-5» .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f4739fea420e49ef3207f6ee89d15901__1703626260
URL1:https://arc.ask3.ru/arc/aa/f4/01/f4739fea420e49ef3207f6ee89d15901.html
Заголовок, (Title) документа по адресу, URL1:
MPEG-G - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)