Биннинг (метагеномика)
Эта статья требует внимания эксперта в области вычислительной биологии . смотрите на странице обсуждения Подробности ( февраль 2015 г. ) |
В метагеномике – биннинг это процесс группировки прочтений или контигов и присвоения их индивидуальному геному . Методы группирования могут быть основаны либо на композиционных особенностях, либо на выравнивании (сходстве), либо на том и другом. [1]
Введение
[ редактировать ]Метагеномные образцы могут содержать прочтения огромного количества организмов. Например, в одном грамме почвы может существовать до 18 000 различных видов организмов, каждый со своим геномом. [2] Метагеномные исследования отбирают ДНК всего сообщества и делают ее доступной в виде нуклеотидных последовательностей определенной длины . В большинстве случаев неполный характер полученных последовательностей затрудняет сборку отдельных генов. [3] тем более восстановление полных геномов каждого организма. Таким образом, методы объединения представляют собой «лучшую попытку» идентифицировать чтения или контиги в определенных геномах, известных как сборный геном метагенома (MAG). Таксономию MAG можно определить путем размещения в эталонном филогенетическом дереве с использованием таких алгоритмов, как GTDB -Tk. [4]
В первых исследованиях, в которых были взяты образцы ДНК из нескольких организмов, использовались определенные гены для оценки разнообразия и происхождения каждого образца. [5] [6] Эти маркерные гены были ранее секвенированы из клональных культур известных организмов, поэтому всякий раз, когда один из таких генов появлялся в прочтении или контиге из метагеномного образца, это прочтение можно было отнести к известному виду или OTU этого вида. Проблема этого метода заключалась в том, что лишь небольшая часть последовательностей содержала маркерный ген, в результате чего большая часть данных оставалась неназначенной.
Современные методы группирования используют как ранее имеющуюся информацию, независимую от выборки, так и внутреннюю информацию, присутствующую в выборке. В зависимости от разнообразия и сложности образца степень их успеха варьируется: в некоторых случаях они могут разрешить последовательности до отдельных видов, тогда как в некоторых других последовательности идентифицируются в лучшем случае с очень широкими таксономическими группами. [7]
Объединение метагеномных данных из различных мест обитания может значительно расширить древо жизни. Такой подход к доступным во всем мире метагеномам позволил объединить 52 515 отдельных микробных геномов и расширить разнообразие бактерий и архей на 44%. [8]
Алгоритмы
[ редактировать ]Алгоритмы группирования могут использовать предыдущую информацию и, таким образом, действовать как контролируемые классификаторы , или они могут пытаться найти новые группы, которые действуют как неконтролируемые классификаторы . Многие, конечно, делают и то, и другое. Классификаторы используют ранее известные последовательности, выполняя сопоставление с базами данных , и пытаются разделить последовательность на основе специфичных для организма характеристик ДНК. [9] как GC-контент .
Некоторые известные алгоритмы объединения наборов метагеномных данных, полученных с помощью дробовика, включают, среди прочего, TETRA, MEGAN, Phylopythia, SOrt-ITEMS и DiScRIBinATE. [10]
ТЕТРА
[ редактировать ]TETRA — это статистический классификатор, который использует закономерности использования тетрануклеотидов во фрагментах генома. [11] четыре возможных нуклеотида В ДНК , поэтому могут быть разные фрагменты четырех последовательных нуклеотидов; эти фрагменты называются тетрамерами. TETRA работает путем табулирования частот каждого тетрамера для данной последовательности. На основе этих частот затем рассчитываются z-показатели , которые показывают, насколько чрезмерно или недостаточно представлен тетрамер в отличие от того, что можно было бы ожидать, глядя на отдельные нуклеотидные композиции. Z-показатели для каждого тетрамера собираются в вектор, и векторы, соответствующие различным последовательностям, сравниваются попарно, чтобы определить степень сходства различных последовательностей из образца. Ожидается, что наиболее сходные последовательности принадлежат организмам одной ОТЕ.
МЕГАН
[ редактировать ]В АЛМАЗЕ [12] +МЕГАН [13] В этом подходе все чтения сначала сравниваются со справочной базой данных белков, такой как NCBI-nr, а затем полученные сопоставления анализируются с использованием простого алгоритма LCA, который помещает чтение в самый нижний таксономический узел в таксономии NCBI, который находится над всеми таксонами. с которым чтение имеет существенное соответствие. Здесь выравнивание обычно считается «значимым», если его битовый рейтинг превышает заданный порог (который зависит от длины считываний) и находится, скажем, в пределах 10% от наилучшего результата, наблюдаемого для этого чтения. Обоснование использования эталонных последовательностей белков, а не эталонных последовательностей ДНК, заключается в том, что существующие эталонные базы данных ДНК охватывают лишь небольшую часть истинного разнообразия геномов, существующих в окружающей среде.
Филопифия
[ редактировать ]Филопития — это один из контролируемых классификаторов, разработанный исследователями из лабораторий IBM. По сути, это машина опорных векторов, обученная на k-мерах ДНК из известных последовательностей. [6]
СОРТИРОВАТЬ-ПУНКТЫ
[ редактировать ]СОРТИРОВАТЬ-ПУНКТЫ [14] — это алгоритм группирования на основе выравнивания, разработанный Innovations Labs компании Tata Consultancy Services (TCS) Ltd., Индия. Пользователям необходимо выполнить поиск сходства входных метагеномных последовательностей (чтений) в базе данных белков nr с использованием поиска BLASTx. Сгенерированный вывод BLASTx затем используется в качестве входных данных для программы SOrt-ITEMS. В этом методе используется диапазон пороговых значений параметров выравнивания BLAST, чтобы сначала определить соответствующий таксономический уровень (или ранг), на котором может быть назначено чтение. Затем для окончательного назначения метагеномного чтения применяется подход, основанный на ортологии. Другие алгоритмы объединения на основе выравнивания, разработанные Инновационными лабораториями Tata Consultancy Services (TCS), включают DiScRIBinATE, [15] Предоставлять [16] и СФИНКС. [17] Методологии этих алгоритмов кратко изложены ниже.
ДИСКРИБИНАЦИЯ
[ редактировать ]ДИСКРИБИНАЦИЯ [15] — это алгоритм группирования на основе выравнивания, разработанный Innovations Labs компании Tata Consultancy Services (TCS) Ltd., Индия. DiScRIBinATE заменяет ортологический подход SOrt-ITEMS более быстрым подходом «без выравнивания». Было замечено, что включение этой альтернативной стратегии сократило время группирования вдвое без каких-либо существенных потерь в точности и специфичности назначений. Кроме того, новая стратегия реклассификации, включенная в DiScRIBinATE, по-видимому, снизила общий уровень ошибочной классификации.
Предоставлять
[ редактировать ]Предоставлять [16] представляет собой метод группировки на основе выравнивания, разработанный Innovation Labs компании Tata Consultancy Services (TCS) Ltd. для оценки вирусного разнообразия в метагеномных образцах. ProViDE использует подход, основанный на обратной ортологии, аналогичный SOrt-ITEMS, для таксономической классификации метагеномных последовательностей, полученных из наборов данных вирома. Это индивидуальный набор пороговых значений параметров BLAST, специально подходящий для вирусных метагеномных последовательностей. Эти пороговые значения отражают картину расхождения последовательностей и неоднородную таксономическую иерархию, наблюдаемую внутри/в различных таксономических группах вирусного царства.
ПКАЬЕ
[ редактировать ]ПКАЬЕ, [18] другой алгоритм объединения, разработанный Технологическим институтом Джорджии, использует частоты n-мерных олигонуклеотидов в качестве характеристик и использует иерархический классификатор (PCAHIER) для объединения коротких метагеномных фрагментов. Анализ главных компонент использовался для уменьшения высокой размерности пространства признаков. Эффективность PCAHIER была продемонстрирована путем сравнения с неиерархическим классификатором и двумя существующими алгоритмами группирования (TETRA и Phylopythia).
СФИНКС
[ редактировать ]СФИНКС, [17] другой алгоритм группирования, разработанный инновационными лабораториями компании Tata Consultancy Services (TCS) Ltd., использует гибридную стратегию, которая обеспечивает высокую эффективность группирования за счет использования принципов алгоритмов группирования, основанных как на «композиции», так и на «выравнивании». Подход был разработан с целью анализа наборов метагеномных данных так же быстро, как и подходы, основанные на композиции, но, тем не менее, с точностью и специфичностью алгоритмов, основанных на выравнивании. Было замечено, что SPHINX классифицирует метагеномные последовательности так же быстро, как и алгоритмы, основанные на композиции. Кроме того, эффективность группирования (с точки зрения точности и специфичности присвоений) SPHINX оказалась сопоставимой с результатами, полученными с использованием алгоритмов, основанных на выравнивании.
ИНДУС и ТУАРИТ
[ редактировать ]Представляют собой другие алгоритмы группирования на основе состава, разработанные Innovation Labs компании Tata Consultancy Services (TCS) Ltd. Эти алгоритмы используют ряд композиционных (а также статистических) параметров олигонуклеотидов для сокращения времени объединения при сохранении точности и специфичности таксономических назначений. [19] [20]
Ссылки
[ редактировать ]- ^ Магуайр, Финли; Цзя, Баофэн; Грей, Кристен Л.; Лау, Вин Инь Венера; Бейко, Роберт Г.; Бринкман, Фиона С.Л. (01 октября 2020 г.). «Методы объединения геномов, собранных в метагеном, с короткими чтениями непропорционально неэффективны для плазмид и геномных островов» . Микробная геномика . 6 (10): mgen000436. дои : 10.1099/mgen.0.000436 . ISSN 2057-5858 . ПМК 7660262 . ПМИД 33001022 .
- ^ Дэниел, Рольф (1 июня 2005 г.). «Метагеномика почвы». Обзоры природы Микробиология . 3 (6): 470–478. дои : 10.1038/nrmicro1160 . ISSN 1740-1526 . ПМИД 15931165 . S2CID 32604394 .
- ^ Вули, Джон К.; Годзик, Адам; Фридберг, Иддо (26 февраля 2010 г.). «Букварь по метагеномике» . ПЛОС Компьютерная Биол . 6 (2): e1000667. Бибкод : 2010PLSCB...6E0667W . дои : 10.1371/journal.pcbi.1000667 . ПМК 2829047 . ПМИД 20195499 .
- ^ Шомей, Пьер-Ален; Массиг, Аарон Дж; Гугенгольц, Филип; Паркс, Донован Х (15 ноября 2019 г.). Хэнкок, Джон (ред.). «GTDB-Tk: набор инструментов для классификации геномов с помощью базы данных таксономии геномов» . Биоинформатика . 36 (6): 1925–1927. doi : 10.1093/биоинформатика/btz848 . ISSN 1367-4803 . ПМЦ 7703759 . ПМИД 31730192 .
- ^ Джованнони, Стивен Дж.; Бричги, Тереза Б.; Мойер, Крейг Л.; Филд, Кэтрин Г. (3 мая 1990 г.). «Генетическое разнообразие бактериопланктона Саргассова моря». Природа . 345 (6270): 60–63. Бибкод : 1990Natur.345...60G . дои : 10.1038/345060a0 . ПМИД 2330053 . S2CID 4370502 .
- ^ Jump up to: а б Макхарди, Элис Кэролайн; Мартин, Гектор Гарсия; Циригос, Аристотель; Гугенгольц, Филип; Ригуцос, Исидор (январь 2007 г.). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Природные методы . 4 (1): 63–72. дои : 10.1038/nmeth976 . ISSN 1548-7091 . ПМИД 17179938 . S2CID 28797816 .
- ^ Хикль, Оскар; Кейрос, Педро; Уилмс, Пол; Мэй, Патрик; Хайнц-Бушар, Анна (19 ноября 2022 г.). «binny: автоматизированный алгоритм объединения для восстановления высококачественных геномов из сложных наборов метагеномных данных». Брифинги по биоинформатике . 23 (6). дои : 10.1093/нагрудник/bbac431 .
- ^ Консорциум данных IMG/M; Найфач, Стивен; Ру, Саймон; Сешадри, Рекха; Удвари, Дэниел; Варгезе, Неха; Шульц, Фредерик; У, Дунъин; Паес-Эспино, Дэвид; Чен, И-Мин; Хантеманн, Марсель (9 ноября 2020 г.). «Геномный каталог микробиомов Земли» . Природная биотехнология . 39 (4): 499–509. дои : 10.1038/s41587-020-0718-6 . ISSN 1087-0156 . ПМК 8041624 . ПМИД 33169036 .
- ^ Карлин, С.; И. Ладунга; Б.Е. Блейсделл (1994). «Гетерогенность геномов: меры и значения» . Труды Национальной академии наук . 91 (26): 12837–12841. Бибкод : 1994PNAS...9112837K . дои : 10.1073/pnas.91.26.12837 . ПМЦ 45535 . ПМИД 7809131 .
- ^ Манде, Шармила С.; Мохаммед, Монзурул Хак; Гош, Тарини Шанкар (1 ноября 2012 г.). «Классификация метагеномных последовательностей: методы и проблемы». Брифинги по биоинформатике . 13 (6): 669–681. дои : 10.1093/нагрудник/bbs054 . ПМИД 22962338 .
- ^ Тилинг, Ханно; Вальдманн, Йост; Ломбардо, Тьерри; Бауэр, Маргарет; Глокнер, Фрэнк (2004). «TETRA: веб-сервис и отдельная программа для анализа и сравнения закономерностей использования тетрануклеотидов в последовательностях ДНК» . БМК Биоинформатика . 5 (1): 163. дои : 10.1186/1471-2105-5-163 . ПМК 529438 . ПМИД 15507136 .
- ^ Бухфинк, Бенджамин; Се, Чао; Хьюсон, Дэниел Х (январь 2015 г.). «Быстрое и чувствительное выравнивание белков с использованием DIAMOND». Природные методы . 12 (1): 59–60. дои : 10.1038/nmeth.3176 . ПМИД 25402007 . S2CID 5346781 .
- ^ Хьюсон, Дэниел Х.; Бейер, Сина; Фладе, Изабель; Горская, Анна; Эль-Хадиди, Мохамед; Митра, Супарна; Рушевей, Ханс-Иоахим; Таппу, Ревати (21 июня 2016 г.). «MEGAN Community Edition — Интерактивное исследование и анализ крупномасштабных данных секвенирования микробиома» . PLOS Вычислительная биология . 12 (6): e1004957. Бибкод : 2016PLSCB..12E4957H . дои : 10.1371/journal.pcbi.1004957 . ПМЦ 4915700 . ПМИД 27327495 .
- ^ Монзурул Хак, М.; Гош, Тарини Шанкар; Командури, Динакар; Манде, Шармила С. (15 июля 2009 г.). «SOrt-ITEMS: подход, основанный на ортологии последовательностей, для улучшения таксономической оценки метагеномных последовательностей». Биоинформатика . 25 (14): 1722–1730. doi : 10.1093/биоинформатика/btp317 . ПМИД 19439565 .
- ^ Jump up to: а б Гош, Тарини Шанкар; Хак М., Монзурул; Манде, Шармила С. (октябрь 2010 г.). «DiScRIBinATE: быстрый метод точной таксономической классификации метагеномных последовательностей» . БМК Биоинформатика . 11 (С7): С14. дои : 10.1186/1471-2105-11-s7-s14 . ПМЦ 2957682 . ПМИД 21106121 .
- ^ Jump up to: а б Гош, Тарини Шанкар; Мохаммед, Монзурул Хак; Командури, Динакар; Манде, Шармила Шекхар (22 марта 2011 г.). «ProViDE: программный инструмент для точной оценки вирусного разнообразия в метагеномных образцах» . Биоинформация . 6 (2): 91–94. дои : 10.6026/97320630006091 . ПМК 3082859 . ПМИД 21544173 .
- ^ Jump up to: а б Мохаммед, Монзурул Хак; Гош, Тарини Шанкар; Сингх, Нитин Кумар; Манде, Шармила С. (1 января 2011 г.). «СФИНКС — алгоритм таксономического объединения метагеномных последовательностей». Биоинформатика . 27 (1): 22–30. doi : 10.1093/биоинформатика/btq608 . ПМИД 21030462 .
- ^ Чжэн, Хао; Ву, Хунвэй (декабрь 2010 г.). «Биннинг коротких фрагментов прокариотической ДНК с использованием иерархического классификатора, основанного на линейном дискриминантном анализе и анализе главных компонентов». Журнал биоинформатики и вычислительной биологии . 08 (6): 995–1011. дои : 10.1142/s0219720010005051 . ПМИД 21121023 .
- ^ Мохаммед, Монзурул Хак; Гош, Тарини Шанкар; Редди, Рачамалла Махидхар; Редди, Ченнаредди Венката Шива Кумар; Сингх, Нитин Кумар; Манде, Шармила С. (декабрь 2011 г.). «INDUS — композиционный подход для быстрой и точной таксономической классификации метагеномных последовательностей» . БМК Геномика . 12 (С3): С4. дои : 10.1186/1471-2164-12-s3-s4 . ПМЦ 3333187 . ПМИД 22369237 .
- ^ Редди, Рачамалла Махидхар; Мохаммед, Монзурул Хак; Манде, Шармила С. (сентябрь 2012 г.). «TWARIT: Чрезвычайно быстрый и эффективный подход к филогенетической классификации метагеномных последовательностей». Джин . 505 (2): 259–265. дои : 10.1016/j.gene.2012.06.014 . ПМИД 22710135 .