Jump to content

Сжатие данных геномного секвенирования

Технологии высокопроизводительного секвенирования привели к резкому снижению затрат на секвенирование генома и к поразительно быстрому накоплению геномных данных. Эти технологии позволяют реализовать амбициозные проекты по секвенированию генома, такие как « Проект 1000 геномов» и «Проект геномов 1001 ( Arabidopsis thaliana )». Хранение и передача огромных объемов геномных данных стали основной проблемой, стимулирующей разработку высокопроизводительных инструментов сжатия, разработанных специально для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными ресеквенирования генома подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия

[ редактировать ]

Хотя для сжатия данных о последовательностях используются стандартные инструменты сжатия данных (например, zip и rar) (например, GenBank база данных плоских файлов ), этот подход критикуется как экстравагантный, поскольку геномные последовательности часто содержат повторяющийся контент (например, микросателлитные последовательности ) или многие последовательности демонстрируют высокий уровень сходства (например, множественные последовательности генома одного и того же вида). Кроме того, статистические и теоретико-информационные свойства геномных последовательностей потенциально могут быть использованы для сжатия данных секвенирования. [1] [2] [3]

Рисунок 1. Основные этапы рабочего процесса сжатия данных повторного секвенирования генома: (1) обработка исходных данных секвенирования (например, сокращение исходного набора данных только до вариаций относительно указанной эталонной последовательности; (2) Кодирование обработанных данных в двоичную форму и (3) декодирование данных обратно в текстовую форму;

Базовые варианты

[ редактировать ]

При наличии эталонной матрицы необходимо фиксировать только различия (например, одиночные нуклеотидные замены и вставки/делеции), тем самым значительно уменьшая объем хранимой информации. Идея относительного сжатия очевидна, особенно в проектах по повторному секвенированию генома, целью которых является обнаружение вариаций в отдельных геномах. Использование эталонной карты однонуклеотидного полиморфизма ( SNP ), такой как dbSNP , можно использовать для дальнейшего увеличения количества вариантов для хранения. [4]

Относительные геномные координаты

[ редактировать ]

Другая полезная идея — хранить относительные координаты генома вместо абсолютных координат. [4] Например, представляя основания вариантов последовательности в формате « Позиция1База1Позиция2База2… », «123C125T130G» можно сократить до «0C2T5G», где целые числа представляют интервалы между вариантами. Затраты — это скромные арифметические вычисления, необходимые для восстановления абсолютных координат, плюс сохранение поправочного коэффициента (в данном примере «123»).

Предварительная информация о геномах

[ редактировать ]

Дальнейшего сокращения можно добиться, если заранее известны все возможные положения замен в пуле последовательностей генома. [4] Например, если известны все местоположения SNP в человеческой популяции, то нет необходимости записывать вариантную информацию о координатах (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает подходящим, поскольку такая информация обычно неполна или недоступна.

Кодирование геномных координат

[ редактировать ]

Схемы кодирования используются для преобразования целых координат в двоичную форму, чтобы обеспечить дополнительную эффективность сжатия. Схемы кодирования, такие как код Голомба и код Хаффмана , были включены в инструменты сжатия геномных данных. [5] [6] [7] [8] [9] [10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность поиска информации о последовательности.

Выбор конструкции алгоритма

[ редактировать ]

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может более подходить для конкретных целей и задач. Таким образом, может быть важно рассмотреть несколько вариантов конструкции, которые потенциально влияют на производительность сжатия.

Эталонная последовательность

[ редактировать ]

Выбор эталонной последовательности для относительного сжатия может повлиять на производительность сжатия. Выбор согласованной эталонной последовательности вместо более конкретной эталонной последовательности (например, пересмотренной Кембриджской эталонной последовательности ) может привести к более высокому коэффициенту сжатия, поскольку консенсусная эталонная последовательность может содержать меньшую систематическую ошибку в своих данных. [4] Однако знание об источнике сжимаемой последовательности может быть использовано для достижения большей эффективности сжатия. Была предложена идея использования нескольких эталонных последовательностей. [4] Брэндон и др. (2009) [4] сжатия данных вариантов митохондриальной ДНК намекнул на потенциальное использование шаблонов эталонных последовательностей, специфичных для этнических групп, на примере (см. Рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в последовательностях митохондриальной ДНК африканцев, азиатов и евразийцев по сравнению с пересмотренной Кембриджской эталонной последовательностью . Их результат показывает, что пересмотренная Кембриджская референсная последовательность не всегда может быть оптимальной, поскольку необходимо хранить большее количество вариантов, когда она используется для данных от этнически далеких людей. Кроме того, эталонную последовательность можно разработать на основе статистических свойств. [1] [4] или спроектированный [11] [12] для улучшения степени сжатия.

Схемы кодирования

[ редактировать ]

Было изучено применение различных типов схем кодирования для кодирования баз вариантов и геномных координат. [4] Фиксированные коды, такие как код Голомба и код Райса , подходят, когда распределение вариантов или координат (представленных в виде целых чисел) четко определено. Коды переменных, такие как код Хаффмана , обеспечивают более общую схему энтропийного кодирования, когда основной вариант и/или распределение координат не четко определены (это обычно имеет место в данных геномной последовательности).

Список инструментов сжатия данных повторного секвенирования генома

[ редактировать ]

Степень сжатия доступных в настоящее время инструментов сжатия геномных данных колеблется от 65-кратного до 1200-кратного для геномов человека. [4] [5] [6] [7] [8] [9] [10] [13] Очень близкие варианты или версии одного и того же генома могут быть сжаты очень эффективно (например, сообщалось о степени сжатия 18 133). [6] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не является показателем типичной степени сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенной схемой кодирования среди этих инструментов является кодирование Хаффмана , которое используется для сжатия данных без потерь .

Инструменты сжатия данных геномного секвенирования, совместимые со стандартными форматами файлов секвенирования генома (BAM и FASTQ)
Программное обеспечение Описание Степень сжатия Данные, используемые для оценки Подход/схема кодирования Связь Использовать лицензию Ссылка
ПетаСюит Инструмент сжатия без потерь для файлов BAM и FASTQ.gz; прозрачное оперативное чтение через виртуальные файлы BAM и FASTQ.gz от 60% до 90% Последовательности генома человека из проекта «1000 геномов» https://petagene.com Коммерческий [14]
Генозип Универсальный компрессор для геномных файлов — сжимает файлы FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP, BED и 23andMe. [15] [16] Последовательности генома человека из проекта «1000 геномов» Расширяемая платформа Genozip http://genozip.com Коммерческий, но бесплатный для некоммерческого использования. [17]
Геномное сжатие (G-SQZ) Инструмент сжатия без потерь, предназначенный для хранения и анализа данных чтения секвенирования. от 65% до 76% Последовательности генома человека из проекта «1000 геномов» Кодирование Хаффмана http://public.tgen.org/sqz -Необъявлено- [8]
CRAM (часть SAMtools ) Высокоэффективное и настраиваемое сжатие данных последовательности на основе эталонов. [18] Европейский архив нуклеотидов сдуть и RANS http://www.ebi.ac.uk/ena/software/cram-toolkit Апач-2.0 [19]
Геномный компрессор (GeCo) Инструмент, использующий смесь нескольких моделей Маркова для сжатия эталонных и бессвязных последовательностей. Последовательность ядерного генома человека Арифметическое кодирование http://bioinformatics.ua.pt/software/geco/ или https://pratas.github.io/geco/ лицензия GPLv3 [13]
Кодеки GenomSys Сжатие без потерь файлов BAM и FASTQ в стандартный формат ISO/IEC 23092. [20] (МПЕГ-Г) от 60% до 90% Последовательности генома человека из проекта «1000 геномов» Контекстно-адаптивное двоичное арифметическое кодирование (CABAC) https://www.genomsys.com Коммерческий [21]
постоянный Сжатие файлов FASTA/UCSC2Bit в сжатые архивы произвольного доступа. Инструментарий для виртуального монтирования файлов FASTA, индексов и файлов словарей. Это обеспечивает аккуратную интеграцию файловой системы (подобной API) без необходимости полной распаковки архивов для произвольного/частичного доступа. БЫСТРЫЕ файлы Кодирование Хаффмана, реализованное Zstd https://github.com/yhoogstrate/fastafs GPL-v2.0 [22]
Инструменты сжатия данных геномного секвенирования несовместимы со стандартными форматами файлов секвенирования генома.
Программное обеспечение Описание Степень сжатия Данные, используемые для оценки Подход/схема кодирования Связь Использовать лицензию Ссылка
Дифференциальный компрессор генома (GDC) Инструмент в стиле LZ77 для сжатия нескольких геномов одного и того же вида. от 180 до 250 раз / от 70 до 100 раз Последовательность ядерного генома человека и Saccharomyces cerevisiae Кодирование Хаффмана http://sun.aei.polsl.pl/gdc лицензия GPLv2 [5]
Ресеквенирование генома (GRS) Инструмент на основе эталонной последовательности, независимый от эталонной карты SNP или информации о вариациях последовательности. 159-кратный / 18 133-кратный / 82-кратный Последовательность ядерного генома человека, Arabidopsis thaliana (разные версии одного и того же генома) и Oryza sativa Кодирование Хаффмана https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ бесплатно для некоммерческого использования [6]
Кодирование повторного секвенирования генома (GReEN) Инструмент на основе вероятностной модели копирования для сжатия данных повторного секвенирования с использованием эталонной последовательности. ~100 раз Последовательность ядерного генома человека Арифметическое кодирование http://bioinformatics.ua.pt/software/green/ -Необъявлено- [7]
ДНКzip Пакет инструментов сжатия ~750 раз Последовательность ядерного генома человека Кодирование Хаффмана http://www.ics.uci.edu/~dnazip/ -Необъявлено- [9]
ГеномZip Сжатие относительно эталонного генома. Опционально использует внешние базы данных геномных вариаций (например, dbSNP). ~1200 раз Последовательность ядерного генома человека (Ватсон) и последовательности из проекта «1000 геномов» Энтропийное кодирование аппроксимаций эмпирических распределений https://sourceforge.net/projects/genomezip/ -Необъявлено- [10]
  1. ^ Jump up to: а б Джанкарло, Р.; Скатурро, Д.; Утро, Ф. (2009). «Сжатие текстовых данных в вычислительной биологии: краткий обзор» . Биоинформатика . 25 (13): 1575–1586. doi : 10.1093/биоинформатика/btp117 . ПМИД   19251772 .
  2. ^ Налбантоглу, ОУ; Рассел, диджей; Саюд, К. (2010). «Концепции и алгоритмы сжатия данных и их приложения в биоинформатике» . Энтропия . 12 (1): 34. дои : 10.3390/e12010034 . ПМК   2821113 . ПМИД   20157640 .
  3. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 .
  4. ^ Jump up to: а б с д и ж г час я Брэндон, MC; Уоллес, округ Колумбия; Балди, П. (2009). «Структуры данных и алгоритмы сжатия данных геномных последовательностей» . Биоинформатика . 25 (14): 1731–1738. doi : 10.1093/биоинформатика/btp319 . ПМК   2705231 . ПМИД   19447783 .
  5. ^ Jump up to: а б с Деорович, С.; Грабовский, С. (2011). «Надежное относительное сжатие геномов с произвольным доступом» . Биоинформатика . 27 (21): 2979–2986. doi : 10.1093/биоинформатика/btr505 . ПМИД   21896510 .
  6. ^ Jump up to: а б с д Ван, К.; Чжан, Д. (2011). «Новый инструмент сжатия для эффективного хранения данных повторного секвенирования генома» . Исследования нуклеиновых кислот . 39 (7): е45. дои : 10.1093/нар/gkr009 . ПМК   3074166 . ПМИД   21266471 .
  7. ^ Jump up to: а б с Пиньо, Эй Джей; Пратас, Д.; Гарсия, СП (2012). «GReEn: Инструмент для эффективного сжатия данных повторного секвенирования генома» . Исследования нуклеиновых кислот . 40 (4): е27. дои : 10.1093/nar/gkr1124 . ПМЦ   3287168 . ПМИД   22139935 .
  8. ^ Jump up to: а б с Тембе, В.; Лоуи, Дж.; Су, Э. (2010). «G-SQZ: Компактное кодирование геномной последовательности и данных о качестве». Биоинформатика . 26 (17): 2192–2194. doi : 10.1093/биоинформатика/btq346 . ПМИД   20605925 .
  9. ^ Jump up to: а б с Кристли, С.; Лу, Ю.; Ли, К.; Се, X. (2009). «Геномы человека как вложения к электронной почте» . Биоинформатика . 25 (2): 274–275. doi : 10.1093/биоинформатика/btn582 . ПМИД   18996942 .
  10. ^ Jump up to: а б с Павличин, Д.С.; Вайсман, Т.; Йона, Г. (2013). «Геном человека снова сокращается» . Биоинформатика . 29 (17): 2199–2302. doi : 10.1093/биоинформатика/btt362 . ПМИД   23793748 .
  11. ^ Куруппу, Шаника; Пуглиси, Саймон Дж.; Зобель, Джастин (2011). «Конструирование эталонной последовательности для относительного сжатия геномов». Обработка строк и поиск информации . Конспекты лекций по информатике. Том. 7024. стр. 420–425. дои : 10.1007/978-3-642-24583-1_41 . ISBN  978-3-642-24582-4 . S2CID   16007637 .
  12. ^ Грабовский, Шимон; Деорович, Себастьян (2011). «Инженерное относительное сжатие геномов». arXiv : 1103.2351 [ cs.CE ].
  13. ^ Jump up to: а б Пратас Д., Пиньо А.Дж. и Феррейра П.Дж.С.Г. Эффективное сжатие геномных последовательностей. Конференция по сжатию данных , Сноуберд, Юта, 2016 г.
  14. ^ «Важность сжатия данных в области геномики» . IEEE Пульс . 26 апреля 2019 г. Проверено 22 февраля 2024 г.
  15. ^ Лан, Дивон; Ламас, Бастьен (14 сентября 2022 г.). «Genozip 14 — усовершенствования в сжатии файлов BAM и CRAM». биоRxiv . дои : 10.1101/2022.09.12.507582 . S2CID   252357508 .
  16. ^ Лан, Дивон; Хьюз, Дэниел С.Т.; Ламас, Бастьен (7 июля 2023 г.). «Глубокое совместное сжатие FASTQ и BAM в Genozip 15». биоRxiv . дои : 10.1101/2023.07.07.548069 . S2CID   259764998 .
  17. ^ Лан, Дивон; Тоблер, Рэй; Суильми, Ясин; Ламас, Бастьен (25 августа 2021 г.). «Genozip: универсальный расширяемый компрессор геномных данных» . Биоинформатика . 37 (16): 2225–2230. doi : 10.1093/биоинформатика/btab102 . ПМК   8388020 . PMID   33585897 .
  18. ^ Сравнительный анализ CRAM
  19. ^ Спецификация формата CRAM (версия 3.0)
  20. ^ «ISO/IEC 23092-2:2019 Информационные технологии. Представление геномной информации. Часть 2. Кодирование геномной информации» . iso.org .
  21. ^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид Дж.; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (27 сентября 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv   10.1101/426353 .
  22. ^ Хугстрат, Юри; Дженстер, Гвидо В.; ван де Веркен, Хармен Дж.Г. (декабрь 2021 г.). «FASTAFS: виртуализация файловой системы сжатых файлов FASTA с произвольным доступом» . БМК Биоинформатика . 22 (1): 535. дои : 10.1186/s12859-021-04455-3 . ПМЦ   8558547 . ПМИД   34724897 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 57aff0767643d0037d2d1cd290dd9a82__1711616160
URL1:https://arc.ask3.ru/arc/aa/57/82/57aff0767643d0037d2d1cd290dd9a82.html
Заголовок, (Title) документа по адресу, URL1:
Compression of genomic sequencing data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)