Вычислительная геномика
Вычислительная геномика относится к использованию вычислительного и статистического анализа для расшифровки биологии на основе последовательностей генома и связанных данных. [1] включая последовательность ДНК и РНК , а также другие «постгеномные» данные (т.е. экспериментальные данные, полученные с помощью технологий, требующих последовательности генома, таких как микрочипы геномной ДНК ). В сочетании с вычислительными и статистическими подходами к пониманию функции генов и статистическому анализу ассоциаций эту область также часто называют вычислительной и статистической генетикой/геномикой. Таким образом, вычислительную геномику можно рассматривать как подмножество биоинформатики и вычислительной биологии , но с акцентом на использование целых геномов (а не отдельных генов) для понимания принципов того, как ДНК вида контролирует его биологию на молекулярном уровне и вне. При нынешнем обилии массивных наборов биологических данных вычислительные исследования стали одним из наиболее важных средств биологических открытий. [2]
История [ править ]
Корни компьютерной геномики общие с биоинформатикой . В 1960-е годы Маргарет Дэйхофф и другие сотрудники Национального фонда биомедицинских исследований собрали базы данных гомологичных белковых последовательностей для эволюционных исследований. [3] Их исследования разработали филогенетическое дерево , которое определило эволюционные изменения, необходимые для превращения определенного белка в другой белок, на основе лежащих в его основе аминокислотных последовательностей. Это побудило их создать оценочную матрицу, которая оценивала вероятность того, что один белок связан с другим.
Начиная с 1980-х годов начали записывать базы данных последовательностей геномов, но это поставило новые задачи в виде поиска и сравнения баз данных генной информации. В отличие от алгоритмов поиска текста, которые используются на таких веб-сайтах, как Google или Wikipedia, поиск разделов с генетическим сходством требует поиска строк, которые не просто идентичны, но и похожи. Это привело к разработке алгоритма Нидлмана-Вунша , который представляет собой алгоритм динамического программирования для сравнения наборов аминокислотных последовательностей друг с другом с использованием оценочных матриц, полученных на основе более ранних исследований Дайхоффа. Позже был разработан алгоритм BLAST для выполнения быстрого и оптимизированного поиска в базах данных последовательностей генов. BLAST и его производные, вероятно, являются наиболее широко используемыми алгоритмами для этой цели. [4]
Появление термина «вычислительная геномика» совпадает с появлением полных секвенированных геномов в середине-конце 1990-х годов. Первое заседание Ежегодной конференции по вычислительной геномике было организовано учеными из Института геномных исследований (TIGR) в 1998 году, предоставив форум для этой специальности и эффективно отделив эту область науки от более общих областей геномики или вычислительной биологии . [ нужна ссылка ] Согласно рефератам MEDLINE , первое использование этого термина в научной литературе произошло всего годом ранее в журнале Nucleic Acids Research . [5] Последняя конференция по вычислительной геномике состоялась в 2006 году, на ней выступил лауреат Нобелевской премии Барри Маршалл , один из первооткрывателей связи между Helicobacter pylori и язвой желудка. По состоянию на 2014 год ведущими конференциями в этой области являются «Интеллектуальные системы для молекулярной биологии» (ISMB) и «Исследования в области вычислительной молекулярной биологии» (RECOMB).
Развитие компьютерной математики (с использованием таких продуктов, как Mathematica или Matlab ) помогло инженерам, математикам и ученым-компьютерщикам начать работать в этой области, а также создать публичную коллекцию количество тематических исследований и демонстраций растет, начиная от сравнения всего генома и заканчивая анализом экспрессии генов . [6] Это привело к увеличению внедрения различных идей, включая концепции систем и управления, теории информации, анализа строк и интеллектуального анализа данных. Ожидается, что вычислительные подходы станут и останутся стандартной темой для исследований и преподавания, в то время как студенты, свободно владеющие обеими темами, начнут формироваться на многочисленных курсах, созданных за последние несколько лет.
исследований компьютерной геномики биологию Вклад в
Вклад исследований вычислительной геномики в биологию включает: [2]
- предложение сотовой сигнализации сетей
- предлагая механизмы эволюции генома
- предсказать точное расположение всех человеческих генов , используя методы сравнительной геномики с несколькими видами млекопитающих и позвоночных.
- предсказать консервативные геномные области, связанные с ранним эмбриональным развитием
- тканеспецифичных генов обнаружить потенциальные связи между мотивами повторяющихся последовательностей и экспрессией
- измерять области геномов, которые претерпели необычно быструю эволюцию
Сравнение геномов [ править ]
Были разработаны вычислительные инструменты для оценки сходства геномных последовательностей. Некоторые из них представляют собой расстояния, основанные на выравнивании , такие как средняя идентичность нуклеотидов . [7] Эти методы очень специфичны, но медленны в вычислительном отношении. Другие методы, не требующие выравнивания, включают статистические и вероятностные подходы. Одним из примеров является Маш. [8] вероятностный подход с использованием minhash . В этом методе, учитывая число k, геномная последовательность преобразуется в более короткий эскиз с помощью случайной хеш-функции для возможных k-меров . Например, если , создаются эскизы размера 4 со следующей хеш-функцией
(АА,0) (АС,8) (АТ,2) (АГ, 14) (Калифорния, 6) (КК, 13) (КТ, 5) (КГ, 4) (ГА, 15) (ГК, 12) (ГТ,10) (GG,1) (ТА,3) (ТК,11) (ТТ,9) (ТГ,7)
эскиз последовательности
CTGACCTTAACGGGAGACTATGATGACGACCGCAT
равно {0,1,1,2}, которые представляют собой наименьшие хеш-значения его k-меров размера 2. Затем эти эскизы сравниваются для оценки доли общих k-меров ( индекс Жаккара ) соответствующих последовательностей. Стоит отметить, что хэш-значение представляет собой двоичное число. В реальной геномике полезный размер k-меров колеблется от 14 до 21, а размер эскизов будет около 1000. [8]
Уменьшая размер последовательностей даже в сотни раз и сравнивая их без выравнивания, этот метод значительно сокращает время оценки сходства последовательностей.
Кластеризация геномных данных [ править ]
Кластеризация данных — это инструмент, используемый для упрощения статистического анализа геномного образца. Например в [9] авторы разработали инструмент (BiG-SCAPE) для анализа сетей сходства последовательностей кластеров биосинтетических генов (BGC). В [10] Последовательные уровни кластеризации кластеров биосинтетических генов используются в автоматизированном инструменте BiG-MAP как для фильтрации избыточных данных, так и для идентификации семейств кластеров генов. Этот инструмент профилирует численность и уровни экспрессии BGC в образцах микробиома.
кластеры Биосинтетические генов
Были разработаны биоинформатические инструменты для прогнозирования и определения численности и экспрессии этого типа кластера генов в образцах микробиома на основе метагеномных данных. [11] Поскольку размер метагеномных данных значителен, их фильтрация и кластеризация являются важными частями этих инструментов. Эти процессы могут состоять из методов уменьшения размерности, таких как Minhash , [8] и алгоритмы кластеризации, такие как k-medoids и распространение сродства . Также для их сравнения было разработано несколько показателей и сходств.
Геномный анализ биосинтетических генных кластеров (BGC) стал неотъемлемой частью открытия природных продуктов. Более 200 000 микробных геномов, которые сейчас общедоступны, содержат информацию о большом количестве новых химических веществ. Один из способов ориентироваться в этом огромном геномном разнообразии — сравнительный анализ гомологичных BGC, который позволяет выявить межвидовые закономерности, которые можно сопоставить с наличием метаболитов или биологической активности. Однако нынешним инструментам препятствует узкое место, вызванное дорогостоящим сетевым подходом, используемым для группировки этих BGC в семейства кластеров генов (GCF).BiG-SLiCE (Механизм суперлинейной кластеризации биосинтетических генов), инструмент, предназначенный для кластеризации огромного количества BGC. Представляя их в евклидовом пространстве, BiG-SLiCE может группировать BGC в GCF непарным, почти линейным образом.
Сатрия ты в, 2021 г. [12] BiG-SLiCE демонстрирует полезность такого анализа путем реконструкции глобальной карты вторичного метаболического разнообразия по всей таксономии для выявления неизведанного биосинтетического потенциала, открывает новые возможности для ускорения открытия натуральных продуктов и предлагает первый шаг к построению глобальной и доступной для поиска взаимосвязанной сети БГК. Поскольку больше геномов секвенировано из недостаточно изученных таксонов, можно получить больше информации, чтобы подчеркнуть их потенциально новый химический состав. [12]
Алгоритмы сжатия [ править ]
См. также [ править ]
Ссылки [ править ]
- ^ Кунин Е.В. (март 2001 г.). «Вычислительная геномика» . Современная биология . 11 (5): Р155–8. дои : 10.1016/S0960-9822(01)00081-1 . PMID 11267880 . S2CID 17202180 .
- ^ Jump up to: Перейти обратно: а б «Вычислительная геномика и протеомика в Массачусетском технологическом институте» . Архивировано из оригинала 22 марта 2018 г. Проверено 29 декабря 2006 г.
- ^ Гора Д (2000). Биоинформатика, анализ последовательностей и генома . Лабораторный пресс Колд-Спринг-Харбор. стр. 2–3. ISBN 978-0-87969-597-2 .
- ^ Браун Т.А. (1999). Геномы . Уайли. ISBN 978-0-471-31618-3 .
- ^ Вагнер А (сентябрь 1997 г.). «Подход вычислительной геномики к идентификации генных сетей» . Исследования нуклеиновых кислот . 25 (18): 3594–604. дои : 10.1093/нар/25.18.3594 . ПМК 146952 . ПМИД 9278479 .
- ^ Кристианини Н., Хан М. (2006). Введение в вычислительную геномику . Издательство Кембриджского университета. ISBN 978-0-521-67191-0 .
- ^ Константинидис К.Т., Тидже Дж.М. (2005). «Геномные открытия, которые помогут определить вид прокариот» . Proc Natl Acad Sci США . 102 (7): 2567–72. Бибкод : 2005PNAS..102.2567K . дои : 10.1073/pnas.0409727102 . ПМК 549018 . ПМИД 15701695 .
- ^ Jump up to: Перейти обратно: а б с Ондов Б., Треанген Т., Мелстед П., Маллони А., Бергман Н., Корен С., Филлиппи А. (2016). «Mash: быстрая оценка расстояния до генома и метагенома с использованием MinHash» . Геномная биология . 17 (32): 14. дои : 10.1186/s13059-016-0997-x . ПМЦ 4915045 . ПМИД 27323842 .
- ^ Наварро-Муньос Дж., Селем-Мохика Н., Маллоуни М., Каутсар С., Трайон Дж., Паркинсон Е., Де Лос Сантос Е., Йеонг М., Крус-Моралес П., Абубакер С., Ротерс А., Локхорст В., Фернандес-Гуэрра А., Диас -Капелини Л., Геринг А., Томсон Р., Меткалф В., Келлехер Н., Барона-Гомез Ф., Медема М. (2020). «Вычислительная система для изучения крупномасштабного биосинтетического разнообразия» . Nat Chem Biol . 16 (1): 60–68. дои : 10.1038/s41589-019-0400-9 . ПМЦ 6917865 . ПМИД 31768033 .
- ^ Паскаль-Андре В., Аугустейн Х., ван ден Берг К., ван дер Хофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для профилирования численности и экспрессии метаболических кластеров генов в микробиомах» . mSystems . 6 (5): e00937-21. bioRxiv 10.1101/2020.12.14.422671 . дои : 10.1128/msystems.00937-21 . ПМЦ 8547482 . ПМИД 34581602 .
- ^ Паскаль-Андре В., Аугустейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для профилирования численности и экспрессии метаболических кластеров генов в микробиомах» . биоRxiv . 6 (5): e00937-21. дои : 10.1101/2020.12.14.422671 . ПМЦ 8547482 . ПМИД 34581602 .
- ^ Jump up to: Перейти обратно: а б Каутсар, Сатрия А; ван дер Хоофт, Джастин Джей-Джей; де Риддер, Дик; Медема, Марникс Х (13 января 2021 г.). «BiG-SLiCE: масштабируемый инструмент отображает разнообразие 1,2 миллиона кластеров биосинтетических генов» . ГигаСайенс . 10 (1): giaa154. doi : 10.1093/gigascience/giaa154 . ПМЦ 7804863 . ПМИД 33438731 .
- ^ Чанда П., Бадер Дж.С., Эльхаик Э. (27 июля 2012 г.). «HapZipper: делиться популяциями HapMap стало проще» . Исследования нуклеиновых кислот . 40 (20): е159. дои : 10.1093/nar/gks709 . ПМЦ 3488212 . ПМИД 22844100 .
- ^ Кристли С., Лу Ю, Ли С, Се Икс (15 января 2009 г.). «Геномы человека как вложения к электронной почте» . Биоинформатика . 25 (2): 274–5. doi : 10.1093/биоинформатика/btn582 . ПМИД 18996942 .
- ^ Павличин Д.С., Вайсман Т., Йона Г. (сентябрь 2013 г.). «Геном человека снова сокращается» . Биоинформатика . 29 (17): 2199–202. doi : 10.1093/биоинформатика/btt362 . ПМИД 23793748 .
- ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 .
Внешние ссылки [ править ]
- Гарвардская школа повышения квалификации, биофизика 101, геномика и вычислительная биология, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
- Курс Бристольского университета по вычислительной геномике, http://www.computational-genomics.net/