Jump to content

ДжинМарк

ДжинМарк
Оригинальный автор(ы) Группа биоинформатики Марка Бородовского
Разработчик(и) Технологический институт Джорджии
Первоначальный выпуск 1993
Операционная система Linux , Windows и Mac OS
Лицензия Бесплатный двоичный файл только для академического, некоммерческого использования или использования правительством США.
Веб-сайт opal.biology.gatech.edu/GeneMark

GeneMark — это общее название семейства ab initio алгоритмов и программ для предсказания генов , разработанных в Технологическом институте Джорджии в Атланте . Разработанный в 1993 году оригинальный GeneMark использовался в 1995 году в качестве первичного инструмента прогнозирования генов для аннотирования первого полностью секвенированного бактериального генома Haemophilus influenzae , а в 1996 году — для первого архейного генома Methanococcus jannaschii . Алгоритм представил неоднородные трехпериодические модели цепей Маркова , кодирующей белок последовательности ДНК , которые стали стандартными в предсказании генов, а также байесовский подход к предсказанию генов в двух цепях ДНК одновременно. Видоспецифичные параметры моделей оценивались по обучающим наборам последовательностей известного типа (белкокодирующие и некодирующие). Основной этап алгоритма вычисляет для данного фрагмента ДНК апостериорные вероятности того, что он является «белком-кодирующим» (несущим генетический код ) в каждой из шести возможных рамок считывания (включая три рамки в комплементарной ДНК). нить) или быть «некодирующим». Оригинальный GeneMark (разработанный до появления приложений HMM в биоинформатике) представлял собой алгоритм, подобный HMM; его можно рассматривать как приближение к известному в теории HMM алгоритму апостериорного декодирования для соответствующим образом определенной модели HMM последовательности ДНК.

Дальнейшее совершенствование алгоритмов предсказания генов в геномах прокариот.

[ редактировать ]

Алгоритм GeneMark.hmm (1998) был разработан для повышения точности предсказания коротких генов и стартов генов. Идея заключалась в том, чтобы использовать модели неоднородных цепей Маркова, представленные в GeneMark, для вычисления правдоподобия последовательностей, испускаемых состояниями скрытой модели Маркова , а точнее полумарковской HMM, или обобщенной HMM, описывающей геномную последовательность. Границы между кодирующими и некодирующими областями формально интерпретировались как переходы между скрытыми состояниями. Кроме того, рибосомы сайта связывания к модели GHMM была добавлена ​​модель для повышения точности предсказания начала гена. Следующим важным шагом в разработке алгоритма стало внедрение самообучения или неконтролируемого обучения параметров модели в новом инструменте прогнозирования генов GeneMarkS (2001). Быстрое накопление геномов прокариот в последующие годы показало, что структура паттернов последовательностей, связанных с сигналами регуляции экспрессии генов вблизи стартов генов, может варьироваться. Также было замечено, что геном прокариот может проявлять вариабельность содержания GC из-за латерального переноса генов. Новый алгоритм GeneMarkS-2 был разработан для автоматической корректировки типов паттернов экспрессии генов и изменений содержания GC вдоль геномной последовательности. GeneMarkS, а затем GeneMarkS-2 использовались в конвейере NCBI для аннотации геномов прокариот (PGAP).( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Эвристические модели и предсказание генов в метагеномах и метатрансциптомах

[ редактировать ]

Точная идентификация видоспецифичных параметров алгоритма поиска генов является необходимым условием для точного предсказания генов. Однако при исследовании вирусных геномов необходимо оценивать параметры по достаточно короткой последовательности, не имеющей большого геномного контекста. Важно отметить, что начиная с 2004 года тот же вопрос пришлось решать для предсказания генов в коротких метагеномных последовательностях. Удивительно точный ответ был найден путем введения функций генерации параметров, зависящих от одной переменной - содержания последовательности G+C («эврисический метод», 1999). Впоследствии анализ нескольких сотен геномов прокариот привел к разработке в 2010 году более совершенного эвристического метода (реализованного в MetaGeneMark). В дальнейшем необходимость прогнозирования генов в транскриптах РНК привела к разработке GeneMarkST-T (2015), инструмента, который идентифицирует безинтронные гены в длинных последовательностях транскриптов, собранных из считываний RNA-Seq.

Предсказание эукариотических генов

[ редактировать ]

В геномах эукариот моделирование границ экзонов с интронами и межгенными областями представляет собой серьезную проблему. Архитектура GHMM эукариотического GeneMark.hmm включает скрытые состояния для начальных, внутренних и терминальных экзонов, интронов , межгенных областей и генов с одним экзоном, расположенных в обеих цепях ДНК. Первоначальная версия эукариотического GeneMark.hmm требовала ручной компиляции обучающих наборов последовательностей, кодирующих белки, для оценки параметров алгоритма. Однако в 2005 году был разработан первый самообучающийся прибор для поиска генов эукариот GeneMark-ES. Грибковая версия GeneMark-ES, разработанная в 2008 году, отличается более сложной моделью интронов и иерархической стратегией самообучения. В 2014 году в GeneMark-ET самообучению параметров способствовали внешние подсказки, генерируемые путем сопоставления с короткими чтениями генома RNA-Seq. Внешние доказательства не ограничиваются «нативными» последовательностями РНК. Межвидовые белки, собранные в обширных базах данных белков, могут стать источником внешних подсказок, если будут установлены гомологичные отношения между уже известными белками и белками, кодируемыми еще неизвестными генами в новом геноме. Эта задача была решена при разработке нового алгоритма GeneMark-EP+ (2020). Интеграцию источников РНК и белков внутренних подсказок проводили в GeneMark-ETP (2023). Универсальность и точность средств поиска эукариотических генов семейства GeneMark привели к их включению в ряд конвейеров аннотации генома. Также с 2016 года были разработаны конвейеры BRAKER1, BRAKER2, BRAKER3, объединяющие самые сильные возможности GeneMark и AUGUSTUS.

Примечательно, что предсказание генов в транскриптах эукариот можно выполнить с помощью нового алгоритма GeneMarkST-T (2015).

Семейство программ генного прогнозирования GeneMark

[ редактировать ]

Бактерии, Археи

[ редактировать ]
  • ДжинМарк
  • GeneMarkS
  • ГенеМаркС-2

Метагеномы и метатранскриптомы

[ редактировать ]
  • МетаГенМарк
  • ГенеМаркСТ-Т

Эукариоты

[ редактировать ]
  • ДжинМарк
  • GeneMark.хмм [1]
  • GeneMark-ES: алгоритм ab initio поиска генов для геномов эукариот с автоматическим (без присмотра) обучением. [2]
  • GeneMark-ET: дополняет GeneMark-ES за счет интеграции выравниваний чтения RNA-Seq в процедуру самообучения. [3]
  • GeneMark-EP+: дополняет GeneMark-ES путем итеративного поиска генов в новом геноме, обнаружения сходства предсказанных генов с известными белками, выравнивания известных белков с геномом и создания подсказок для следующего раунда прогнозирования, а также коррекции на основе внешние доказательства.
  • GeneMark-ETP: объединяет данные геномики, транскриптов и белков в предсказание генов.

Вирусы, фаги и плазмиды

[ редактировать ]
  • Эвристические модели

Транскрипты, собранные из RNA-Seq, читаются.

[ редактировать ]
  • ГенеМаркСТ-Т

См. также

[ редактировать ]
  1. ^ «ГенеМарк.ХММ эукариот» .
  2. ^ «ГенМарк-ЭС» .
  3. ^ «GeneMark-ET - алгоритм поиска генов в геномах эукариот | Блог RNA-Seq» . 9 июля 2014 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3c68341dd70ea3917ffea403adada2c1__1706884020
URL1:https://arc.ask3.ru/arc/aa/3c/c1/3c68341dd70ea3917ffea403adada2c1.html
Заголовок, (Title) документа по адресу, URL1:
GeneMark - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)