Jump to content

Вычислительная геномика

Вычислительная геномика относится к использованию вычислительного и статистического анализа для расшифровки биологии на основе последовательностей генома и связанных данных. [1] включая последовательность ДНК и РНК , а также другие «постгеномные» данные (т.е. экспериментальные данные, полученные с помощью технологий, требующих последовательности генома, таких как микрочипы геномной ДНК ). В сочетании с вычислительными и статистическими подходами к пониманию функции генов и статистическому анализу ассоциаций эту область также часто называют вычислительной и статистической генетикой/геномикой. Таким образом, вычислительную геномику можно рассматривать как подмножество биоинформатики и вычислительной биологии , но с акцентом на использование целых геномов (а не отдельных генов) для понимания принципов того, как ДНК вида контролирует его биологию на молекулярном уровне и вне. При нынешнем обилии массивных наборов биологических данных вычислительные исследования стали одним из наиболее важных средств биологических открытий. [2]

История [ править ]

Корни компьютерной геномики общие с биоинформатикой . В 1960-е годы Маргарет Дэйхофф и другие сотрудники Национального фонда биомедицинских исследований собрали базы данных гомологичных белковых последовательностей для эволюционных исследований. [3] Их исследования разработали филогенетическое дерево , которое определило эволюционные изменения, необходимые для превращения определенного белка в другой белок, на основе лежащих в его основе аминокислотных последовательностей. Это побудило их создать оценочную матрицу, которая оценивала вероятность того, что один белок связан с другим.

Начиная с 1980-х годов начали записывать базы данных последовательностей геномов, но это поставило новые задачи в виде поиска и сравнения баз данных генной информации. В отличие от алгоритмов поиска текста, которые используются на таких веб-сайтах, как Google или Wikipedia, поиск разделов с генетическим сходством требует поиска строк, которые не просто идентичны, но и похожи. Это привело к разработке алгоритма Нидлмана-Вунша , который представляет собой алгоритм динамического программирования для сравнения наборов аминокислотных последовательностей друг с другом с использованием оценочных матриц, полученных на основе более ранних исследований Дайхоффа. Позже был разработан алгоритм BLAST для выполнения быстрого и оптимизированного поиска в базах данных последовательностей генов. BLAST и его производные, вероятно, являются наиболее широко используемыми алгоритмами для этой цели. [4]

Появление термина «вычислительная геномика» совпадает с появлением полных секвенированных геномов в середине-конце 1990-х годов. Первое заседание Ежегодной конференции по вычислительной геномике было организовано учеными из Института геномных исследований (TIGR) в 1998 году, предоставив форум для этой специальности и эффективно отделив эту область науки от более общих областей геномики или вычислительной биологии . [ нужна ссылка ] Согласно рефератам MEDLINE , первое использование этого термина в научной литературе произошло всего годом ранее в журнале Nucleic Acids Research . [5] Последняя конференция по вычислительной геномике состоялась в 2006 году, на ней выступил лауреат Нобелевской премии Барри Маршалл , один из первооткрывателей связи между Helicobacter pylori и язвой желудка. По состоянию на 2014 год ведущими конференциями в этой области являются «Интеллектуальные системы для молекулярной биологии» (ISMB) и «Исследования в области вычислительной молекулярной биологии» (RECOMB).

Развитие компьютерной математики (с использованием таких продуктов, как Mathematica или Matlab ) помогло инженерам, математикам и ученым-компьютерщикам начать работать в этой области, а также создать публичную коллекцию количество тематических исследований и демонстраций растет, начиная от сравнения всего генома и заканчивая анализом экспрессии генов . [6] Это привело к увеличению внедрения различных идей, включая концепции систем и управления, теории информации, анализа строк и интеллектуального анализа данных. Ожидается, что вычислительные подходы станут и останутся стандартной темой для исследований и преподавания, в то время как студенты, свободно владеющие обеими темами, начнут формироваться на многочисленных курсах, созданных за последние несколько лет.

исследований компьютерной геномики биологию Вклад в

Вклад исследований вычислительной геномики в биологию включает: [2]

Сравнение геномов [ править ]

Были разработаны вычислительные инструменты для оценки сходства геномных последовательностей. Некоторые из них представляют собой расстояния, основанные на выравнивании , такие как средняя идентичность нуклеотидов . [7] Эти методы очень специфичны, но медленны в вычислительном отношении. Другие методы, не требующие выравнивания, включают статистические и вероятностные подходы. Одним из примеров является Маш. [8] вероятностный подход с использованием minhash . В этом методе, учитывая число k, геномная последовательность преобразуется в более короткий эскиз с помощью случайной хеш-функции для возможных k-меров . Например, если , создаются эскизы размера 4 со следующей хеш-функцией

(АА,0) (АС,8) (АТ,2) (АГ, 14)
(Калифорния, 6) (КК, 13) (КТ, 5) (КГ, 4)
(ГА, 15) (ГК, 12) (ГТ,10) (GG,1)
(ТА,3) (ТК,11) (ТТ,9) (ТГ,7)

эскиз последовательности

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

равно {0,1,1,2}, которые представляют собой наименьшие хеш-значения его k-меров размера 2. Затем эти эскизы сравниваются для оценки доли общих k-меров ( индекс Жаккара ) соответствующих последовательностей. Стоит отметить, что хэш-значение представляет собой двоичное число. В реальной геномике полезный размер k-меров колеблется от 14 до 21, а размер эскизов будет около 1000. [8]

Уменьшая размер последовательностей даже в сотни раз и сравнивая их без выравнивания, этот метод значительно сокращает время оценки сходства последовательностей.

Кластеризация геномных данных [ править ]

Кластеризация данных — это инструмент, используемый для упрощения статистического анализа геномного образца. Например в [9] авторы разработали инструмент (BiG-SCAPE) для анализа сетей сходства последовательностей кластеров биосинтетических генов (BGC). В [10] Последовательные уровни кластеризации кластеров биосинтетических генов используются в автоматизированном инструменте BiG-MAP как для фильтрации избыточных данных, так и для идентификации семейств кластеров генов. Этот инструмент профилирует численность и уровни экспрессии BGC в образцах микробиома.

кластеры Биосинтетические генов

Были разработаны биоинформатические инструменты для прогнозирования и определения численности и экспрессии этого типа кластера генов в образцах микробиома на основе метагеномных данных. [11] Поскольку размер метагеномных данных значителен, их фильтрация и кластеризация являются важными частями этих инструментов. Эти процессы могут состоять из методов уменьшения размерности, таких как Minhash , [8] и алгоритмы кластеризации, такие как k-medoids и распространение сродства . Также для их сравнения было разработано несколько показателей и сходств.

Геномный анализ биосинтетических генных кластеров (BGC) стал неотъемлемой частью открытия природных продуктов. Более 200 000 микробных геномов, которые сейчас общедоступны, содержат информацию о большом количестве новых химических веществ. Один из способов ориентироваться в этом огромном геномном разнообразии — сравнительный анализ гомологичных BGC, который позволяет выявить межвидовые закономерности, которые можно сопоставить с наличием метаболитов или биологической активности. Однако нынешним инструментам препятствует узкое место, вызванное дорогостоящим сетевым подходом, используемым для группировки этих BGC в семейства кластеров генов (GCF).BiG-SLiCE (Механизм суперлинейной кластеризации биосинтетических генов), инструмент, предназначенный для кластеризации огромного количества BGC. Представляя их в евклидовом пространстве, BiG-SLiCE может группировать BGC в GCF непарным, почти линейным образом.

Сатрия ты в, 2021 г. [12] BiG-SLiCE демонстрирует полезность такого анализа путем реконструкции глобальной карты вторичного метаболического разнообразия по всей таксономии для выявления неизведанного биосинтетического потенциала, открывает новые возможности для ускорения открытия натуральных продуктов и предлагает первый шаг к построению глобальной и доступной для поиска взаимосвязанной сети БГК. Поскольку больше геномов секвенировано из недостаточно изученных таксонов, можно получить больше информации, чтобы подчеркнуть их потенциально новый химический состав. [12]

Алгоритмы сжатия [ править ]

Алгоритмы генетического сжатия — это последнее поколение алгоритмов без потерь, которые сжимают данные (обычно последовательности нуклеотидов) с использованием как традиционных алгоритмов сжатия, так и генетических алгоритмов, адаптированных к конкретному типу данных. В 2012 году группа ученых из Университета Джонса Хопкинса опубликовала алгоритм генетического сжатия, который не использует для сжатия эталонный геном. HAPZIPPER был специально разработан для данных HapMap и обеспечивает более чем 20-кратное сжатие (уменьшение размера файла на 95%), обеспечивая в 2–4 раза лучшее сжатие и требует меньше вычислительных ресурсов, чем ведущие утилиты сжатия общего назначения. Для этого Чанда, Эльхайк и Бадер представили кодирование на основе MAF (MAFE), которое уменьшает гетерогенность набора данных за счет сортировки SNP по частоте их второстепенных аллелей, тем самым гомогенизируя набор данных. [13] Другие алгоритмы, разработанные в 2009 и 2013 годах (DNAZip и GenomeZip), имеют степень сжатия до 1200 раз, что позволяет хранить 6 миллиардов диплоидных геномов человека в 2,5 мегабайтах (по отношению к эталонному геному или в среднем по множеству геномов). [14] [15] Информацию об эталоне компрессоров данных генетики/геномики см. [16]

См. также [ править ]

Ссылки [ править ]

  1. ^ Кунин Е.В. (март 2001 г.). «Вычислительная геномика» . Современная биология . 11 (5): Р155–8. дои : 10.1016/S0960-9822(01)00081-1 . PMID   11267880 . S2CID   17202180 .
  2. ^ Jump up to: Перейти обратно: а б «Вычислительная геномика и протеомика в Массачусетском технологическом институте» . Архивировано из оригинала 22 марта 2018 г. Проверено 29 декабря 2006 г.
  3. ^ Гора Д (2000). Биоинформатика, анализ последовательностей и генома . Лабораторный пресс Колд-Спринг-Харбор. стр. 2–3. ISBN  978-0-87969-597-2 .
  4. ^ Браун Т.А. (1999). Геномы . Уайли. ISBN  978-0-471-31618-3 .
  5. ^ Вагнер А (сентябрь 1997 г.). «Подход вычислительной геномики к идентификации генных сетей» . Исследования нуклеиновых кислот . 25 (18): 3594–604. дои : 10.1093/нар/25.18.3594 . ПМК   146952 . ПМИД   9278479 .
  6. ^ Кристианини Н., Хан М. (2006). Введение в вычислительную геномику . Издательство Кембриджского университета. ISBN  978-0-521-67191-0 .
  7. ^ Константинидис К.Т., Тидже Дж.М. (2005). «Геномные открытия, которые помогут определить вид прокариот» . Proc Natl Acad Sci США . 102 (7): 2567–72. Бибкод : 2005PNAS..102.2567K . дои : 10.1073/pnas.0409727102 . ПМК   549018 . ПМИД   15701695 .
  8. ^ Jump up to: Перейти обратно: а б с Ондов Б., Треанген Т., Мелстед П., Маллони А., Бергман Н., Корен С., Филлиппи А. (2016). «Mash: быстрая оценка расстояния до генома и метагенома с использованием MinHash» . Геномная биология . 17 (32): 14. дои : 10.1186/s13059-016-0997-x . ПМЦ   4915045 . ПМИД   27323842 .
  9. ^ Наварро-Муньос Дж., Селем-Мохика Н., Маллоуни М., Каутсар С., Трайон Дж., Паркинсон Е., Де Лос Сантос Е., Йеонг М., Крус-Моралес П., Абубакер С., Ротерс А., Локхорст В., Фернандес-Гуэрра А., Диас -Капелини Л., Геринг А., Томсон Р., Меткалф В., Келлехер Н., Барона-Гомез Ф., Медема М. (2020). «Вычислительная система для изучения крупномасштабного биосинтетического разнообразия» . Nat Chem Biol . 16 (1): 60–68. дои : 10.1038/s41589-019-0400-9 . ПМЦ   6917865 . ПМИД   31768033 .
  10. ^ Паскаль-Андре В., Аугустейн Х., ван ден Берг К., ван дер Хофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для профилирования численности и экспрессии метаболических кластеров генов в микробиомах» . mSystems . 6 (5): e00937-21. bioRxiv   10.1101/2020.12.14.422671 . дои : 10.1128/msystems.00937-21 . ПМЦ   8547482 . ПМИД   34581602 .
  11. ^ Паскаль-Андре В., Аугустейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М., Медема М. (2020). «BiG-MAP: автоматизированный конвейер для профилирования численности и экспрессии метаболических кластеров генов в микробиомах» . биоRxiv . 6 (5): e00937-21. дои : 10.1101/2020.12.14.422671 . ПМЦ   8547482 . ПМИД   34581602 .
  12. ^ Jump up to: Перейти обратно: а б Каутсар, Сатрия А; ван дер Хоофт, Джастин Джей-Джей; де Риддер, Дик; Медема, Марникс Х (13 января 2021 г.). «BiG-SLiCE: масштабируемый инструмент отображает разнообразие 1,2 миллиона кластеров биосинтетических генов» . ГигаСайенс . 10 (1): giaa154. doi : 10.1093/gigascience/giaa154 . ПМЦ   7804863 . ПМИД   33438731 .
  13. ^ Чанда П., Бадер Дж.С., Эльхаик Э. (27 июля 2012 г.). «HapZipper: делиться популяциями HapMap стало проще» . Исследования нуклеиновых кислот . 40 (20): е159. дои : 10.1093/nar/gks709 . ПМЦ   3488212 . ПМИД   22844100 .
  14. ^ Кристли С., Лу Ю, Ли С, Се Икс (15 января 2009 г.). «Геномы человека как вложения к электронной почте» . Биоинформатика . 25 (2): 274–5. doi : 10.1093/биоинформатика/btn582 . ПМИД   18996942 .
  15. ^ Павличин Д.С., Вайсман Т., Йона Г. (сентябрь 2013 г.). «Геном человека снова сокращается» . Биоинформатика . 29 (17): 2199–202. doi : 10.1093/биоинформатика/btt362 . ПМИД   23793748 .
  16. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bbf32046e548bc3cab870e7d41beeecd__1709079120
URL1:https://arc.ask3.ru/arc/aa/bb/cd/bbf32046e548bc3cab870e7d41beeecd.html
Заголовок, (Title) документа по адресу, URL1:
Computational genomics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)