ДжинМарк
Оригинальный автор(ы) | Группа биоинформатики Марка Бородовского |
---|---|
Разработчик(и) | Технологический институт Джорджии |
Первоначальный выпуск | 1993 |
Операционная система | Linux , Windows и Mac OS |
Лицензия | Бесплатный двоичный файл только для академического, некоммерческого использования или использования правительством США. |
Веб-сайт | opal.biology.gatech.edu/GeneMark |
GeneMark — это общее название семейства ab initio алгоритмов и программ для предсказания генов , разработанных в Технологическом институте Джорджии в Атланте . Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве первичного инструмента прогнозирования генов для аннотирования первого полностью секвенированного бактериального генома Haemophilus influenzae , а в 1996 году — для первого архейного генома Methanococcus jannaschii . Алгоритм представил неоднородные трехпериодические модели цепей Маркова , кодирующей белок последовательности ДНК , которые стали стандартными в предсказании генов, а также байесовский подход к предсказанию генов в двух цепях ДНК одновременно. Видоспецифичные параметры моделей оценивались по обучающим наборам последовательностей известного типа (белкокодирующие и некодирующие). Основной этап алгоритма вычисляет для данного фрагмента ДНК апостериорные вероятности того, что он является «белком-кодирующим» (несущим генетический код ) в каждой из шести возможных рамок считывания (включая три рамки в комплементарной ДНК). нить) или быть «некодирующим». Оригинальный GeneMark (разработанный до появления приложений HMM в биоинформатике) представлял собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для соответствующим образом определенной модели HMM последовательности ДНК.
Дальнейшее совершенствование алгоритмов предсказания генов в геномах прокариот.
[ редактировать ]Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания коротких генов и стартов генов. Идея заключалась в том, чтобы использовать модели неоднородных цепей Маркова, представленные в GeneMark, для вычисления правдоподобия последовательностей, испускаемых состояниями скрытой модели Маркова , а точнее полумарковской HMM, или обобщенной HMM, описывающей геномную последовательность. Границы между кодирующими и некодирующими областями формально интерпретировались как переходы между скрытыми состояниями. Кроме того, рибосомы сайта связывания к модели GHMM была добавлена модель для повышения точности предсказания начала гена. Следующим важным шагом в разработке алгоритма стало внедрение самообучения или неконтролируемого обучения параметров модели в новом инструменте прогнозирования генов GeneMarkS (2001). Быстрое накопление геномов прокариот в последующие годы показало, что структура паттернов последовательностей, связанных с сигналами регуляции экспрессии генов вблизи стартов генов, может варьироваться. Также было замечено, что геном прокариот может проявлять вариабельность содержания GC из-за латерального переноса генов. Новый алгоритм GeneMarkS-2 был разработан для автоматической корректировки типов паттернов экспрессии генов и изменений содержания GC вдоль геномной последовательности. GeneMarkS, а затем GeneMarkS-2 использовались в конвейере NCBI для аннотации геномов прокариот (PGAP).( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Эвристические модели и предсказание генов в метагеномах и метатрансциптомах
[ редактировать ]Точная идентификация видоспецифичных параметров алгоритма поиска генов является необходимым условием для точного предсказания генов. Однако при исследовании вирусных геномов необходимо оценивать параметры по достаточно короткой последовательности, не имеющей большого геномного контекста. Важно отметить, что начиная с 2004 года тот же вопрос пришлось решать для предсказания генов в коротких метагеномных последовательностях. Удивительно точный ответ был найден путем введения функций генерации параметров, зависящих от одной переменной - содержания последовательности G+C («эврисический метод», 1999). Впоследствии анализ нескольких сотен геномов прокариот привел к разработке в 2010 году более совершенного эвристического метода (реализованного в MetaGeneMark). В дальнейшем необходимость прогнозирования генов в транскриптах РНК привела к разработке GeneMarkST-T (2015), инструмента, который идентифицирует безинтронные гены в длинных последовательностях транскриптов, собранных из считываний RNA-Seq.
Предсказание эукариотических генов
[ редактировать ]В геномах эукариот моделирование границ экзонов с интронами и межгенными областями представляет собой серьезную проблему. Архитектура GHMM эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и терминальных экзонов, интронов , межгенных областей и генов с одним экзоном, расположенных в обеих цепях ДНК. Первоначальная версия эукариотического GeneMark.hmm требовала ручной компиляции обучающих наборов последовательностей, кодирующих белки, для оценки параметров алгоритма. Однако в 2005 году был разработан первый самообучающийся прибор для поиска генов эукариот GeneMark-ES. Грибковая версия GeneMark-ES, разработанная в 2008 году, отличается более сложной моделью интронов и иерархической стратегией самообучения. В 2014 году в GeneMark-ET самообучению параметров способствовали внешние подсказки, генерируемые путем сопоставления с короткими чтениями генома RNA-Seq. Внешние доказательства не ограничиваются «нативными» последовательностями РНК. Межвидовые белки, собранные в обширных базах данных белков, могут стать источником внешних подсказок, если будут установлены гомологичные отношения между уже известными белками и белками, кодируемыми еще неизвестными генами в новом геноме. Эта задача была решена при разработке нового алгоритма GeneMark-EP+ (2020). Интеграцию источников РНК и белков внутренних подсказок проводили в GeneMark-ETP (2023). Универсальность и точность средств поиска эукариотических генов семейства GeneMark привели к их включению в ряд конвейеров аннотации генома. Также с 2016 года были разработаны конвейеры BRAKER1, BRAKER2, BRAKER3, объединяющие самые сильные возможности GeneMark и AUGUSTUS.
Примечательно, что предсказание генов в транскриптах эукариот можно выполнить с помощью нового алгоритма GeneMarkST-T (2015).
Семейство программ генного прогнозирования GeneMark
[ редактировать ]Бактерии, Археи
[ редактировать ]- ДжинМарк
- GeneMarkS
- ГенеМаркС-2
Метагеномы и метатранскриптомы
[ редактировать ]- МетаГенМарк
- ГенеМаркСТ-Т
Эукариоты
[ редактировать ]- ДжинМарк
- GeneMark.хмм [1]
- GeneMark-ES: алгоритм ab initio поиска генов для геномов эукариот с автоматическим (без присмотра) обучением. [2]
- GeneMark-ET: дополняет GeneMark-ES за счет интеграции выравниваний чтения RNA-Seq в процедуру самообучения. [3]
- GeneMark-EP+: дополняет GeneMark-ES путем итеративного поиска генов в новом геноме, обнаружения сходства предсказанных генов с известными белками, выравнивания известных белков с геномом и создания подсказок для следующего раунда прогнозирования, а также коррекции на основе внешние доказательства.
- GeneMark-ETP: объединяет данные геномики, транскриптов и белков в предсказание генов.
Вирусы, фаги и плазмиды
[ редактировать ]- Эвристические модели
Транскрипты, собранные из RNA-Seq, читаются.
[ редактировать ]- ГенеМаркСТ-Т
См. также
[ редактировать ]Ссылки
[ редактировать ]- Бородовский М. и МакИнинч Дж. «GeneMark: параллельное распознавание генов для обеих цепей ДНК». Компьютеры и химия (1993) 17 (2): 123–133. DOI
- Лукашин А. и Бородовский М. «GeneMark.hmm: новые решения для поиска генов». Исследования нуклеиновых кислот (1998) 26 (4): 1107–1115. DOI PMID
- Бесемер Дж. и Бородовский М. «Эвристический подход к построению моделей поиска генов». Исследования нуклеиновых кислот (1999) 27 (19): 3911–3920. DOI PMID
- Бесемер Дж., Ломсадзе А. и Бородовский М. «GeneMarkS: метод самообучения для прогнозирования стартов генов в микробных геномах. Значение для поиска мотивов последовательностей в регуляторных регионах». Исследования нуклеиновых кислот (2001) 29 (12): 2607–2618. DOI PMID
- Миллс Р., Розанов М., Ломсадзе А., Татусова Т. и Бородовский М. «Улучшение аннотации генов в полных вирусных геномах». Исследования нуклеиновых кислот (2003) 31 (23): 7041–7055. DOI PMID
- Бесемер Дж. и Бородовский М. «GeneMark: веб-программное обеспечение для поиска генов у прокариот, эукариот и вирусов». Исследования нуклеиновых кислот (2005) 33 (выпуск веб-сервера): W451-454. DOI PMID
- Ломсадзе А., Тер-Оганесян В., Чернов Ю. и Бородовский М. «Идентификация генов в новых геномах эукариот с помощью алгоритма самообучения». Исследования нуклеиновых кислот (2005) 33 (20): 6494–6506. DOI PMID
- Тер-Оганесян В., Ломсадзе А., Чернофф Ю. и Бородовский М. «Прогнозирование генов в новых геномах грибов с использованием алгоритма ab initio с обучением без учителя». Исследования генома (2008) 18 (12): 1979–1990. DOI PMID
- Чжу В., Ломсадзе А. и Бородовский М. «Идентификация генов Ab initio в метагеномных последовательностях». Исследования нуклеиновых кислот (2010) 38 (12): e132. DOI PMID
- Ломсадзе А., Бернс П.Д. и Бородовский М. «Интеграция картированных считываний РНК-Seq в автоматическое обучение алгоритма поиска генов эукариот». Исследования нуклеиновых кислот (2014) 42 (15): e119. DOI PMID
- Тан С., Ломсадзе А., Бородовский М. «Идентификация кодирующих белков областей в транскриптах РНК». Исследования нуклеиновых кислот (2015) 43 (12): e78. DOI PMID
- Татусова Т., ДиКуччо М., Бадретдин А., Четвернин В., Навроцкий Е., Заславский Л., Ломсадзе А., Прюитт К., Бородовский М. и Остелл Дж. «Конвейер аннотаций генома прокариот NCBI». Исследования нуклеиновых кислот (2016) 44 (14): 6614-6624. DOI PMID
- Хофф К., Ланге С., Ломсадзе А., Бородовский М. и Станке М. «BRAKER1: неконтролируемая аннотация генома на основе секвенирования РНК с помощью GeneMark-ET и AUGUSTUS». Биоинформатика (2016) 32 (5): 767-769. DOI PMID
- Ломсадзе А., Жмайель К., Тан С. и Бородовский М. «Моделирование транскрипции без лидера и атипичных генов приводит к более точному предсказанию генов у прокариот». Исследования генома (2018) 28 (7): 1079-1089. DOI PMID
- Бруна Т., Хофф К., Ломсадзе А., Станке М. и Бородовский М. «BRAKER2: автоматическая аннотация генома эукариот с помощью GeneMark-EP+ и AUGUSTUS, поддерживаемая базой данных белков». НАР Геномика и биоинформатика (2021) 3 (1): lqaa108 DOI PMID
- Бруна Т., Ломсадзе А., Бородовский М. «GeneMark-EP+: предсказание генов эукариот с самообучением в пространстве генов и белков». НАР Геномика и биоинформатика (2022) 2 (2): lqaa026 DOI PMID
- Бруна Т., Ломсадзе А. и Бородовский М. «GeneMark-ETP: автоматический поиск генов в геномах эукариот в соответствии с внешними данными». bioRxiv (5 января 2023 г.) DOI PMID
- Габриэль Л., Бруна Т., Хофф К., Эбель М., Ломсадзе А., Бородовский М. и Станке М. «BRAKER3: Полностью автоматизированная аннотация генома с использованием RNA-Seq и белковых данных с помощью GeneMark-ETP, AUGUSTUS и TSEBRA ." bioRxiv (27 ноября 2023 г.) DOI PMID