Jump to content

аннотация ДНК

Визуализация Porphyra umbilicalis аннотации генома хлоропласта ( учет в GenBank : MF385003.1 ), сделанная с помощью Chloroplot . [1] Число генов, длина генома и содержание GC указаны в среднем черном кружке. Внешний серый круг показывает содержание GC в каждом участке генома. Все отдельные гены располагаются во внешнем круге в соответствии с их положением в геноме, направлением транскрипции и длиной; они имеют цветовую маркировку в зависимости от клеточной функции или компонента, частью которого они являются. Направления транскрипции внутренних и внешних генов, обозначенные стрелками, указаны по часовой стрелке и против часовой стрелки соответственно.

В молекулярной биологии генетике аннотация и ДНК или аннотация генома — это процесс описания структуры и функции компонентов генома . [2] анализируя и интерпретируя их, чтобы выявить их биологическое значение и понять биологические процессы, в которых они участвуют. [3] Помимо прочего, он определяет расположение генов и всех кодирующих областей в геноме и определяет, что делают эти гены. [4]

Аннотация выполняется после секвенирования и сборки генома и является необходимым шагом в анализе генома перед тем, как последовательность будет помещена в базу данных и описана в опубликованной статье. Хотя описания отдельных генов, их продуктов или функций достаточно, чтобы рассматривать это описание как аннотацию, глубина анализа, представленная в литературе для разных геномов, сильно различается, при этом некоторые отчеты включают дополнительную информацию, выходящую за рамки простой аннотации. [5] Кроме того, из-за размера и сложности секвенированных геномов аннотация ДНК не выполняется вручную, а автоматизируется с помощью вычислительных средств. Однако выводы, сделанные на основе полученных результатов, требуют ручного экспертного анализа. [6]

Аннотации ДНК подразделяются на две категории: структурные аннотации , которые идентифицируют и разграничивают элементы в геноме, и функциональные аннотации , которые присваивают функции этим элементам. [7] Это не единственный способ его категоризации: есть несколько альтернатив, например, основанный на измерениях. [8] и классификации на основе уровней, [3] также были предложены.

Первое поколение аннотаторов генома использовало локальные методы ab initio , которые основаны исключительно на информации, которую можно извлечь из последовательности ДНК в локальном масштабе, то есть по одной открытой рамке считывания (ORF) за раз. [9] [10] Они появились как необходимость обработки огромного количества данных, полученных с помощью Максама-Гилберта и Сэнгера методов секвенирования ДНК , разработанных в конце 1970-х годов. Первым программным обеспечением, используемым для анализа считываний секвенирования, является Staden Package , созданный Роджером Стаденом в 1977 году. [11] Он выполнял несколько задач, связанных с аннотацией, таких как подсчет оснований и кодонов . Фактически, использование кодонов было основной стратегией, используемой несколькими ранними методами прогнозирования кодирующей последовательности белка (CDS). [12] [13] [14] основано на предположении, что наиболее транслируемые области генома содержат кодоны с наиболее распространенными соответствующими тРНК (молекулами, ответственными за перенос аминокислот в рибосому во время синтеза белка), что обеспечивает более эффективную трансляцию. [15] Также известно, что это относится и к синонимичным кодонам , которые часто присутствуют в белках, экспрессируемых на более низком уровне. [13] [16]

Появление полных геномов в 1990-х годах (первым из них был геном Haemophilus influenzae , секвенированный в 1995 году) привело к появлению второго поколения аннотаторов. Как и в предыдущем поколении, они выполняли аннотацию методами ab initio , но теперь применяли ее в масштабе всего генома. [9] [10] Марковские модели являются движущей силой многих алгоритмов, используемых в аннотаторах этого поколения; [17] [18] эти модели можно рассматривать как ориентированные графы , где узлы представляют различные геномные сигналы (такие как сайты начала транскрипции и трансляции ), соединенные стрелками, обозначающими сканирование последовательности. Чтобы модель Маркова обнаруживала геномный сигнал, ее сначала необходимо обучить на серии известных геномных сигналов. [19] Выходные данные моделей Маркова в контексте аннотаций включают вероятности каждого вида геномного элемента в каждой отдельной части генома, а точная модель Маркова будет назначать высокие вероятности правильным аннотациям и низкие вероятности неправильным. [20]

График выпуска аннотаторов генома. Пунктирные прямоугольники обозначают четыре разных поколения аннотаторов генома и их наиболее репрезентативные характеристики. Первое поколение (синий), в котором аннотаторы использовали методы ab initio в локальном масштабе, второе поколение (красное) с полногеномными методами ab initio, третье поколение (зеленый), характеризующееся комбинацией методов ab initio и аннотаций на основе гомологии, и четвертое поколение (оранжевое), в котором начался подход к идентификации некодирующих областей ДНК и изучению на популяционном уровне, представленном пангеномом.

Когда в начале и середине 2000-х годов стало доступно больше секвенированных геномов, а также многочисленные белковые последовательности, полученные экспериментально, аннотаторы генома начали использовать методы, основанные на гомологии, положив начало третьему поколению аннотаций генома. Эти новые методы позволили аннотаторам не только делать выводы о геномных элементах с помощью статистических средств (как и в предыдущих поколениях), но также могли выполнять свою задачу, сравнивая аннотируемую последовательность с другими уже существующими и проверенными последовательностями. Эти так называемые комбинирующие аннотаторы, которые выполняют как ab initio , так и аннотацию на основе гомологии, требуют алгоритмов быстрого выравнивания для идентификации областей гомологии . [2] [9] [10]

В конце 2000-х годов в аннотации генома внимание переключилось на выявление некодирующих областей в ДНК, что было достигнуто благодаря появлению методов анализа сайтов связывания транскрипционных факторов , метилирования ДНК сайтов , структуры хроматина и других РНК и регуляторных областей. методов анализа . Другие аннотаторы генома также начали концентрироваться на исследованиях на популяционном уровне, представленных пангеномом ; таким образом, например, конвейеры аннотаций гарантируют, что основные гены клады также будут обнаружены в новых геномах той же клады. Обе стратегии аннотации представляют собой четвертое поколение аннотаторов генома. [9] [10]

К 2010-м годам стали доступны последовательности геномов более тысячи человек (в рамках проекта «1000 геномов ») и нескольких модельных организмов . Таким образом, аннотация генома остается серьезной проблемой для ученых, исследующих геном человека и другие геномы. [21] [22]

Структурная аннотация

[ редактировать ]
Обобщенная блок-схема конвейера аннотаций структурного генома. -первых, повторяющиеся области генома собранного Во маскируются с помощью библиотеки повторов. Затем, при необходимости, замаскированная последовательность сопоставляется со всеми доступными данными ( EST , РНК и белками ) аннотируемого организма. В эукариот геномах сайты сплайсинга необходимо идентифицировать . Наконец, кодирующие и некодирующие последовательности, содержащиеся в геноме, прогнозируются с помощью баз данных известных последовательностей ДНК, РНК и белков, а также другой вспомогательной информации.

Структурная аннотация описывает точное расположение различных элементов в геноме, таких как открытые рамки считывания (ORF), кодирующие последовательности (CDS), экзоны , интроны , повторы , сайты сплайсинга , регуляторные мотивы , стартовые и стоп -кодоны и промоторы . [6] [23] Основными этапами структурной аннотации являются:

  1. Повторите идентификацию и маскировку.
  2. Сопоставление доказательств (по желанию).
  3. Идентификация сплайсинга (только у эукариот).
  4. Прогнозирование признаков (кодирующие и некодирующие последовательности).

Повторите идентификацию и маскировку

[ редактировать ]

Первый шаг структурной аннотации состоит в идентификации и маскировке повторов , которые включают в себя последовательности низкой сложности (такие как AGAGAGAG или монополимерные сегменты, такие как TTTTTTTTT) и транспозоны (которые представляют собой более крупные элементы с несколькими копиями по всему геному). [2] [24] Повторы являются основным компонентом геномов как прокариот, так и эукариот; например, от 0% до более 42% геномов прокариот состоят из повторов. [25] и три четверти человеческого генома состоят из повторяющихся элементов. [26]

Идентификация повторов затруднена по двум основным причинам: они плохо консервативны и их границы четко не определены. По этой причине для интересующего генома необходимо создать библиотеки повторов, что можно выполнить одним из следующих методов: [24] [27]

  • de novo Методы . Повторы идентифицируются путем обнаружения и группировки пар последовательностей в разных местах, сходство которых превышает минимальный порог сохранения последовательностей при сравнении собственного генома, что не требует предварительной информации о структуре или последовательностях повторов. Недостатком этих методов является то, что они могут идентифицировать любую повторяющуюся последовательность, а не только транспозоны, и могут включать консервативные кодирующие последовательности (CDS), что делает тщательную постобработку необходимым шагом для удаления этих последовательностей. Он также может не учитывать родственные регионы, которые со временем деградировали, и группировать элементы, не имеющие никакой связи в их эволюционной истории. [28]
  • Методы, основанные на гомологии . Повторы идентифицируются по сходству ( гомологии ) известных повторов, хранящихся в курируемой базе данных. Эти методы с большей вероятностью обнаруживают настоящие транспозоны, даже в меньших количествах, по сравнению с методами de novo , но они ориентированы на ранее идентифицированные семейства.
  • Структурные методы . Повторы идентифицируются на основе моделей их структуры, а не повторения или сходства. Они способны идентифицировать настоящие транспозоны (так же, как и транспозоны, основанные на гомологии), но не подвержены влиянию известных элементов. Однако они весьма специфичны для каждого класса повторов и, как таковые, менее универсально применимы.
  • Сравнительные геномные методы . Повторы идентифицируются как нарушения одной или нескольких последовательностей при множественном выравнивании последовательностей, вызванном большими областями вставки . Хотя эта стратегия позволяет избежать проблемы плохо определенных границ, которая существует в других методах, она сильно зависит от качества сборки и уровня активности транспозонов в рассматриваемых геномах.

После того как повторяющиеся области генома идентифицированы, они маскируются. Маскирование означает замену букв нуклеотидов ( А, С, G или Т) другими буквами. При этом эти регионы будут помечены как повторяющиеся, и последующие анализы будут относиться к ним соответствующим образом. Повторяющиеся области могут вызывать проблемы с производительностью, если они не замаскированы, и могут даже давать ложные доказательства аннотации гена (например, обработка открытой рамки считывания (ORF) в транспозоне как экзона ). [24] В зависимости от букв, используемых для замены, маскировку можно разделить на мягкую или жёсткую: при мягкой маскировке повторяющиеся области обозначаются строчными буквами (а, в, г или т), тогда как при жёсткой маскировке буквы этих областей обозначаются буквами. заменено на N. Таким образом, например, мягкая маскировка может использоваться для исключения совпадений слов и предотвращения начала выравнивания в этих регионах, а жесткая маскировка, помимо всего этого, может также исключать замаскированные области из оценок выравнивания. [29] [30]

Согласование доказательств

[ редактировать ]

Следующий шаг после маскировки генома обычно включает в себя сопоставление всех доступных транскриптов и белков с анализируемым геномом, то есть сопоставление всех известных меток экспрессируемых последовательностей (EST), РНК и белков аннотируемого организма с геномом. [31] Хотя это необязательно, это может улучшить выяснение последовательностей генов, поскольку РНК и белки являются прямыми продуктами кодирующих последовательностей. [19]

Если данные RNA-Seq доступны, их можно использовать для аннотирования и количественной оценки всех генов и их изоформ , расположенных в соответствующем геноме, с указанием не только их местоположения, но и скорости их экспрессии. [32] Однако транскрипты предоставляют недостаточно информации для предсказания генов, поскольку они могут быть недоступны из некоторых генов, они могут кодировать опероны более чем одного гена, а их стартовые и стоп-кодоны не могут быть определены из-за сдвигов рамки считывания и факторов инициации трансляции . [19] Для решения этой проблемы протеогеномике используются подходы, основанные на , которые используют информацию об экспрессируемых белках, часто получаемую с помощью масс-спектрометрии . [33]

Идентификация сращивания

[ редактировать ]

Аннотация геномов эукариот имеет дополнительный уровень сложности из-за сплайсинга РНК посттранскрипционного процесса , при котором интроны (некодирующие области) удаляются и экзоны (кодирующие области). присоединяются [23] эукариот Следовательно, кодирующие последовательности (CDS) являются прерывистыми, и для обеспечения их правильной идентификации необходимо фильтровать интронные области. Для этого конвейеры аннотаций должны находить границы экзонов и интронов, и для этой цели было разработано множество методологий. Одним из решений является использование известных границ экзонов для выравнивания; например, многие интроны начинаются с GT и заканчиваются AG. [31] Однако этот подход не может обнаружить новые границы, поэтому существуют альтернативы, такие как алгоритмы машинного обучения , которые обучаются на известных границах экзонов и качественной информации для прогнозирования новых. [34] Для прогнозирования границ новых экзонов обычно требуются эффективные алгоритмы сжатия и выравнивания данных, но они склонны к сбоям в границах, расположенных в регионах с низким охватом последовательностей или высокой частотой ошибок, возникающих во время секвенирования. [35] [36]

Прогнозирование функций

[ редактировать ]

Геном разделен на кодирующие и некодирующие области, и последний этап структурной аннотации состоит в выявлении этих особенностей внутри генома. Фактически, основной задачей аннотации генома является предсказание генов , поэтому для этой цели было разработано множество методов. [19] Предсказание генов — это вводящий в заблуждение термин, поскольку большинство предсказателей генов идентифицируют только кодирующие последовательности (CDS) и не сообщают о нетранслируемых областях (UTR); по этой причине предсказание CDS было предложено как более точный термин. [24] Предикторы CDS обнаруживают особенности генома с помощью методов, называемых датчиками , которые включают в себя датчики сигналов , которые идентифицируют сигналы функциональных сайтов, такие как промоторы и сайты полиА , и датчики контента , которые классифицируют последовательности ДНК на кодирующий и некодирующий контент. [37] В то время как прокариотические предикторы CDS в основном имеют дело с открытыми рамками считывания (ORF), которые представляют собой сегменты ДНК между стартовым и стоп -кодонами , эукариотические предикторы CDS сталкиваются с более сложной проблемой из-за сложной организации эукариотических генов. [3] Методы прогнозирования CDS можно разделить на три широкие категории: [2] [31]

  • Ab initio методы (также называемые статистическими, внутренними или de novo). Прогнозирование CDS основано исключительно на информации, которую можно извлечь из последовательности ДНК. Они полагаются на статистические методы, такие как скрытая модель Маркова (HMM). В некоторых методах используются два или более генома, чтобы сделать вывод о локальной частоте мутаций и закономерностях в геноме. [38]
  • Методы, основанные на гомологии (также называемые эмпирическими, основанными на фактических данных или внешними). Прогнозирование CDS основано на сходстве с известными последовательностями. В частности, он выполняет выравнивание анализируемой последовательности с метками экспрессируемых последовательностей (EST), комплементарной ДНК (кДНК) или белков . последовательностями
  • Комбайнеры . Прогнозирование CDS выполняется с помощью комбинации обоих методов, упомянутых выше.

Функциональная аннотация

[ редактировать ]

Функциональная аннотация присваивает функции геномным элементам, обнаруженным с помощью структурной аннотации. [7] связывая их с биологическими процессами, такими как клеточный цикл , гибель клеток , развитие , метаболизм и т. д. [3] Его также можно использовать в качестве дополнительной проверки качества путем выявления элементов, которые могли быть аннотированы по ошибке. [2]

Прогнозирование функции последовательности кодирования

[ редактировать ]
Пример диаграммы предков Gene Ontology (GO), организованной в виде направленного ациклического графа, взятого из QuickGO . [39] Он показывает молекулярные функции, биологические процессы и клеточные компоненты, в которых матрилиновый комплекс , компонент внеклеточного матрикса участвует . Каждый блок представляет собой термин онтологии, который попадает в одну из трех категорий GO и имеет соответствующую цветовую маркировку. Термины онтологии связаны друг с другом посредством определенных определителей (таких как «является», «часть» и т. д.), которые представлены различными видами стрелок.

Функциональная аннотация генов требует контролируемого словаря (или онтологии) для обозначения предсказанных функциональных особенностей. Однако, поскольку существует множество способов определения функций генов, процесс аннотации может быть затруднен, если его выполняют разные исследовательские группы. Таким образом, необходимо использовать стандартизированный контролируемый словарь, наиболее полным из которых является Генная Онтология (GO). Он классифицирует функциональные свойства по одной из трех категорий (молекулярная функция, биологический процесс и клеточный компонент) и организует их в ориентированный ациклический граф , в котором каждый узел представляет собой определенную функцию, а каждое ребро (или стрелка) между двумя узлами указывает отношения родитель-потомок или подкатегория-категория. [40] [41] По состоянию на 2020 год GO является наиболее широко используемым контролируемым словарем для функциональной аннотации генов, за ним следует Функциональный каталог MIPS (FunCat). [42]

Некоторые традиционные методы функциональной аннотации основаны на гомологии и основаны на инструментах поиска локального выравнивания . [40] Его предпосылка заключается в том, что высокая консервативность последовательностей между двумя геномными элементами подразумевает, что их функция также сохраняется. пары гомологичных последовательностей, возникших посредством паралогии , ортологии или ксенологии Сходную функцию обычно выполняют . Однако к ортологичным последовательностям следует относиться с осторожностью по двум причинам: (1) они могут иметь разные названия в зависимости от того, когда они были первоначально аннотированы, и (2) они могут не выполнять одну и ту же функциональную роль в двух разных организмах. Аннотаторы часто ссылаются на аналогичную последовательность, когда не обнаружено никаких паралогий, ортологии или ксенологии. [19] Методы, основанные на гомологии, имеют ряд недостатков, таких как ошибки в базе данных, низкая чувствительность/специфичность, невозможность различить паралогию и гомологию. [43] искусственно высокие оценки из-за присутствия областей низкой сложности и значительных различий внутри семейства белков. [44]

Функциональная аннотация может быть выполнена с помощью вероятностных методов. Распределение гидрофильных и гидрофобных аминокислот указывает на то, находится ли белок в растворе или в мембране. Специфические мотивы последовательности предоставляют информацию о посттрансляционных модификациях и конечном местонахождении любого данного белка. [19] Вероятностные методы могут сочетаться с контролируемым словарем, например GO; например, сети белок-белкового взаимодействия (PPI) обычно размещают белки со схожими функциями близко друг к другу. [45]

Методы машинного обучения также используются для создания функциональных аннотаций для новых белков на основе терминов GO. Как правило, они заключаются в построении двоичного классификатора для каждого термина GO, который затем объединяется для прогнозирования отдельных терминов GO (формируя многоклассовый классификатор ), для которого позже получаются оценки достоверности. Машина опорных векторов (SVM) является наиболее широко используемым двоичным классификатором в функциональных аннотациях; другие алгоритмы, такие как k-ближайшие соседи (kNN) и сверточная нейронная сеть (CNN). однако также использовались и [40]

Бинарные или многоклассовые методы классификации функциональных аннотаций обычно дают менее точные результаты, поскольку не учитывают взаимосвязи между терминами GO. Более продвинутые методы, учитывающие эти взаимосвязи, используют либо плоский, либо иерархический подход, отличающийся тем, что первый не учитывает структуру онтологии, а второй — учитывает. Некоторые из этих методов сжимают термины GO путем матричной факторизации или хеширования , тем самым повышая их производительность. [42]

Прогнозирование функции некодирующей последовательности

[ редактировать ]

Некодирующие последовательности (нкДНК) — это те, которые не кодируют белки. Они включают такие элементы, как псевдогены, сегментные дупликации, сайты связывания и гены РНК. [28]

Псевдогены представляют собой мутированные копии генов, кодирующих белок, которые потеряли свою кодирующую функцию из-за нарушения их открытой рамки считывания (ORF), что делает их непереводимыми . [28] Их можно идентифицировать одним из следующих двух методов: [46]

  • Метод, основанный на гомологии . Псевдогены идентифицируются путем поиска последовательностей, которые похожи на функциональные гены, но содержат мутации, вызывающие нарушение их ORF. Этот метод не может определить эволюционную связь между псевдогеном и его родительским геном, а также время, прошедшее с момента события.
  • Метод, основанный на филогении . Псевдогены идентифицируют с помощью филогенетического анализа. Сначала строятся дерево видов интересующего вида и филогенетическое дерево интересующего гена (или семейства генов). Затем их сравнивают, чтобы определить вид, потерявший этот ген. Далее в геноме вида, у которого ген не обнаружен, осуществляется поиск последовательности, ортологичной гену, выявленному у ближайшего вида. Наконец, если эта ортологичная последовательность имеет нарушение в своей ORF (и она соответствует другим критериям, таким как анализ данных RNA-Seq , соотношение dN/dS и т. д.), это означает, что последовательность действительно является псевдогеном.

Сегментные дупликации — это сегменты ДНК длиной более 1000 пар оснований, которые повторяются в геноме с идентичностью последовательностей более 90%. Для их идентификации используются две стратегии: WGAC и WSSD: [47]

  • Сравнение сборок всего генома (WGAC). Он выравнивает весь геном, чтобы идентифицировать повторяющиеся последовательности после фильтрации общих повторов; для сборки не требуется использовать исходные чтения.
  • Полногеномное обнаружение дробовых последовательностей (WSSD). Он выравнивает исходные чтения с собранным геномом и ищет регионы с более высокой глубиной чтения, чем в среднем, что обычно является сигналом дублирования. Сегментные дублирования, выявленные этим методом, но не WGAC, скорее всего, являются свернутыми дублированиями, что означает, что они были ошибочно привязаны к одному и тому же региону. [48]

Сайты связывания ДНК — это участки в последовательности генома, которые связываются и взаимодействуют с конкретными белками. Они играют важную роль в репликации и репарации ДНК , регуляции транскрипции и вирусной инфекции . Прогнозирование сайта связывания предполагает использование одного из следующих двух методов: [49]

  • Методы, основанные на сходстве последовательностей . Они заключаются в идентификации гомологичных последовательностей с известными сайтами связывания ДНК или в их сопоставлении с запросными белками. Их эффективность обычно низкая, поскольку последовательности связывания ДНК менее консервативны .
  • Структурные методы . Они используют трехмерную структурную информацию белков для прогнозирования местоположения сайтов связывания ДНК.

Некодирующая РНК (нкРНК), продуцируемая генами РНК, представляет собой тип РНК, которая не транслируется в белок. Он включает в себя такие молекулы, как тРНК , рРНК , мякРНК и микроРНК , а также некодирующие мРНК- подобные транскрипты. Ab initio предсказание генов РНК в одном геноме часто дает неточные результаты (за исключением микроРНК), поэтому вместо этого используются сравнительные методы нескольких геномов. Эти методы конкретно касаются вторичных структур нкРНК, поскольку они консервативны у родственных видов, даже если их последовательность консервативна. Следовательно, выполняя множественное выравнивание последовательностей, можно получить более полезную информацию для их предсказания. Поиск гомологии также можно использовать для идентификации генов РНК, но эта процедура сложна, особенно у эукариот, из-за наличия большого количества повторов и псевдогенов. [50]

Визуализация

[ редактировать ]
Снимок аннотированного файла GBK, созданного с помощью Prokka. [51] На нем показаны компоненты (особенности) небольшой части генома Candidatus Carsonella ruddii , включая их положения (структурная аннотация) и предполагаемые функции (функциональная аннотация).

Форматы файлов

[ редактировать ]

Для визуализации аннотаций в браузере генома требуется описательный выходной файл, который должен описывать интрон - экзонные структуры каждой аннотации, их стартовые и стоп- кодоны , UTR и альтернативные транскрипты, и в идеале должен включать информацию о выравнивании последовательностей и предсказаниях генов , которые поддерживают каждая модель гена. Некоторые часто используемые форматы описания аннотаций — GenBank, GFF3 , GTF, BED и EMBL. [24] Некоторые из этих форматов используют контролируемые словари и онтологии для определения описательной терминологии и гарантируют совместимость между инструментами анализа и визуализации. [2]

Геномные браузеры

[ редактировать ]

Геномные браузеры — это программные продукты, которые упрощают анализ и визуализацию больших геномных последовательностей и данных аннотаций для получения биологической информации через графический интерфейс. [52] [31] [53]

Геномные браузеры можно разделить на веб-геномные браузеры и автономные геномные браузеры . Первые используют информацию из баз данных и могут быть разделены на многовидовые (объединяют последовательность и аннотации нескольких организмов и способствуют межвидовому сравнительному анализу) и видоспецифичные (фокусируются на одном организме и аннотациях для конкретных видов). Последние не обязательно связаны с конкретной базой данных генома, но представляют собой браузеры общего назначения, которые можно загрузить и установить в виде приложения на локальном компьютере. [54] [19]

Сравнительная визуализация геномов

[ редактировать ]
Линейная сравнительная визуализация генома нескольких типовых видов филогенетически связанных вирусных семейств и родов . Функциональные аннотации белков отображаются разными цветами, а гомологии - разными тонами.

Целью сравнительной геномики является выявление сходств и различий в геномных особенностях, а также изучение эволюционных взаимоотношений между организмами. [55] Для этого подхода необходимы инструменты визуализации, способные иллюстрировать сравнительное поведение двух или более геномов, и их можно разделить на три категории на основе представления отношений между сравниваемыми геномами: [19]

  • Точечные графики: эта схема позволяет показать выравнивание только двух геномов: один геном представлен по горизонтальной оси, а другой — по вертикальной оси, а точки на графике представляют геномные элементы, которые схожи между этими двумя аннотациями.
  • Линейное представление: в этом представлении используются несколько линейных дорожек для представления нескольких геномов и их функций, где «дорожка» — это концепция, которая относится к определенному типу геномной функции в определенном месте генома.
  • Круговое представление: это представление облегчает сравнение целых микробных или вирусных геномов. В этом режиме визуализации концентрические круги и дуги используются для обозначения участков генома.

Контроль качества

[ редактировать ]

Качество сборки последовательности влияет на качество аннотации, поэтому важно оценить качество сборки перед выполнением последующих шагов аннотации. [31] Для количественной оценки качества аннотации генома использовались три показателя: полнота , точность и достоверность ; хотя эти меры явно не используются в проектах аннотаций, а скорее при обсуждении точности прогнозов. [56]

Подходы сообщества к аннотациям — отличные методы контроля качества и стандартизации аннотаций генома. Джамбори аннотаций, состоявшееся в 2002 году, привело к созданию стандартов аннотаций, используемых в рамках Проекта анализа человека и позвоночных Института Сэнгера (HAVANA). [57] [20]

Повторная аннотация

[ редактировать ]

Проекты аннотаций часто основаны на предыдущих аннотациях генома организма; однако эти старые аннотации могут содержать ошибки, которые могут распространиться на новые аннотации. По мере разработки новых технологий анализа генома и появления более обширных баз данных аннотации некоторых старых геномов могут обновляться. Этот процесс, известный как повторная аннотация, может предоставить пользователям новую информацию о геноме, включая подробную информацию о генах и функциях белков. Таким образом, повторная аннотация является полезным подходом к контролю качества. [56] [58]

Аннотация сообщества

[ редактировать ]

Аннотация сообщества заключается в участии сообщества (как научного, так и ненаучного) в проектах аннотации генома. Его можно разделить на следующие шесть категорий: [59] [3]

  • Заводская модель: аннотация выполняется полностью автоматизированным конвейером.
  • Модель музея: ручное курирование экспертами. для интерпретации результатов проекта аннотаций используется
  • Модель коттеджного производства: аннотации децентрализованы и являются результатом усилий разных кураторов, работающих по совместительству.
  • Модель вечеринки или Джамбори: Состоит из короткого интенсивного семинара с ведущими кураторами сообщества. Впервые он был использован в проекте аннотации генома Drosophila melanogaster . [60]
  • Благословенный аннотатор: вариант музейной модели, примененный в проекте Knockout Mouse Project (KOMP) , в котором кураторы проходят период обучения перед аннотированием, а затем получают доступ к инструментам аннотирования для продолжения своей работы.
  • Подход «привратника»: это сочетание моделей «джамбори» и надомной промышленности. Он начинается с семинара по аннотациям, за которым следует децентрализованное сотрудничество для расширения и уточнения первоначальной аннотации. Он использовался для получения данных о нескольких видах.

Говорят, что аннотация сообщества контролируется, когда есть координатор, который управляет проектом, запрашивая аннотацию конкретных элементов выбранному числу экспертов. С другой стороны, когда кто угодно может принять участие в проекте и координация осуществляется децентрализованно, это называется без присмотра аннотацией сообщества . Аннотации контролируемого сообщества недолговечны и ограничены продолжительностью события, тогда как неконтролируемый аналог не имеет этого ограничения. Однако последнее оказалось менее успешным, чем первое, предположительно из-за нехватки времени, мотивации, стимула и/или общения. [61]

В Википедии есть несколько WikiProjects, направленных на улучшение аннотаций. бота , Например, Gene WikiProject использует который собирает генные данные из исследовательских баз данных и создает заглушки на их основе генов. [62] Википроект РНК стремится писать статьи, которые в доступной форме описывают отдельные РНК и семейства РНК. [63]

Приложения

[ редактировать ]

Диагностика заболеваний

[ редактировать ]

Генная онтология используется исследователями для установления связи между заболеванием и геном, поскольку GO помогает идентифицировать новые гены, изменения в их экспрессии, распределении и функционировании в различных условиях, например, при заболевании или здоровом состоянии. [41] Были созданы базы данных о взаимоотношениях генов этого заболевания у различных организмов, такие как Онтология растений-патогенов, [64] Онтология генов микробов, связанных с растениями [65] или ДисГеНЕТ. [66] А некоторые другие были реализованы в уже существовавших базах данных, таких как «Онтология болезней крыс» в базе данных «Геном крысы». [67]

Биоремедиация

[ редактировать ]

Большое разнообразие катаболических ферментов, участвующих в деградации углеводородов некоторыми штаммами бактерий, кодируется генами, расположенными в их мобильных генетических элементах (МГЭ). Изучение этих элементов имеет большое значение в области биоремедиации, поскольку в последнее время предпринимаются попытки инокуляции диких или генетически модифицированных штаммов этими МГЭ с целью приобретения этих способностей к деградации углеводородов. [68] В 2013 году Фале и др. [69] опубликовали аннотацию генома штамма Pseudomonas putida известной своим предпочтением нафталина и других ароматических соединений глюкозе (CSV86), бактерии , в качестве источника углерода и энергии.Чтобы найти MGE этой бактерии, ее геном был аннотирован с использованием RAST и конвейера аннотаций прокариотического генома NCBI (PGAP), а идентификация девяти мобильных элементов стала возможной с помощью базы данных Insertion Sequence (IS) Finder . Этот анализ пришел к выводу о локализации генов верхнего пути деградации нафталина, [70] рядом с генами, кодирующими тРНК-Gly и интегразу, а также идентификация генов, кодирующих ферменты, участвующие в деградации салицилата , бензоата , 4-гидроксибензоата , фенилуксусной кислоты , гидроксифенилуксусной кислоты, и распознавание оперона, участвующего в Транспорт глюкозы в штамме.

Анализ генной онтологии имеет большое значение в функциональной аннотации, и, в частности, в биоремедиации, он может применяться для определения взаимосвязей между генами некоторых микроорганизмов с их функциями и их ролью в устранении определенных загрязнений. Таков был подход к исследованию и идентификации штамма Halomonas Zincidurans B6(T), бактерии с тридцатью одним геном, кодирующим устойчивость к тяжелым металлам , особенно цинку. [71] и Stenotropomonas sp. ДДТ-1, штамм, способный использовать ДДТ в качестве единственного источника углерода и энергии. [72] упомянуть несколько примеров.

Программное обеспечение

[ редактировать ]

Гены в геноме эукариот можно аннотировать с помощью различных инструментов аннотации. [73] например ПОИСК. [74] Современный конвейер аннотаций может поддерживать удобный веб-интерфейс и контейнеризацию программного обеспечения, например MOSGA. [75] [76] Современные конвейеры аннотаций геномов прокариот — это Bakta, [77] Прокка [51] и ПГАП. [78]

Национальный центр биомедицинской онтологии разрабатывает инструменты автоматизированного аннотирования [79] записей базы данных на основе текстовых описаний этих записей.

В качестве общего метода dcGO [80] имеет автоматизированную процедуру для статистического вывода ассоциаций между терминами онтологии и белковыми доменами или комбинациями доменов на основе существующих аннотаций на уровне гена/белка.

Было разработано множество программных инструментов, которые позволяют ученым просматривать аннотации генома и обмениваться ими, например MAKER .

Аннотация генома является активной областью исследований и включает в себя ряд различных организаций в области наук о жизни, которые публикуют результаты своих усилий в общедоступных биологических базах данных, доступных через Интернет и другие электронные средства. Вот алфавитный список текущих проектов, связанных с аннотацией генома:

  1. ^ Чжэн С., Почай П., Хивёнен Дж., Тан Дж., Амирьюсефи А. (2020). «Хлороплот: онлайн-программа для универсального построения геномов органелл» . Границы генетики . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . ПМЦ   7545089 . ПМИД   33101394 .
  2. ^ Перейти обратно: а б с д и ж Домингес Дель Анхель В., Хьерде Э., Стерк Л., Капелла-Гутьеррес С., Нотредам С., Виннер Петтерссон О. и др. (5 февраля 2018 г.). «Десять шагов для начала сборки и аннотации генома» . F1000Исследования . 7 (148): 148. doi : 10.12688/f1000research.13598.1 . ПМК   5850084 . ПМИД   29568489 .
  3. ^ Перейти обратно: а б с д и Штейн Л. (июль 2001 г.). «Аннотация генома: от последовательности к биологии». Обзоры природы. Генетика . 2 (7): 493–503. дои : 10.1038/35080529 . ПМИД   11433356 . S2CID   12044602 .
  4. ^ Дэвис КП (29 марта 2021 г.). «Медицинское определение аннотации генома» . МедицинаНет . Архивировано из оригинала 9 февраля 2023 года . Проверено 17 апреля 2023 г.
  5. ^ Кунин Е, Гальперин М.Ю. (2003). «Аннотация и анализ генома». Последовательность — Эволюция — Функция (1-е изд.). Спрингер США. стр. 193–226. дои : 10.1007/978-1-4757-3783-7_6 . ISBN  978-1-4757-3783-7 .
  6. ^ Перейти обратно: а б Мишра П., Маурья Р., Авашти Х., Миттал С., Чандра М., Рамтеке П.В. (2021). «Сборка и аннотация генома». В Сингхе Д.Б., Патхаке Р.К. (ред.). Биоинформатика: методы и приложения (1-е изд.). Эльзевир Наука. стр. 49–66. дои : 10.1016/B978-0-323-89775-4.00013-4 . ISBN  9780323897754 .
  7. ^ Перейти обратно: а б Брайт Л.А., Берджесс СК, Чоудхари Б., Свидерски С.Э., Маккарти Ф.М. (октябрь 2009 г.). «Структурная и функциональная аннотация олигомассива полного генома лошади» . БМК Биоинформатика . 10 (Дополнение 11): S8. дои : 10.1186/1471-2105-10-S11-S8 . ПМК   3226197 . ПМИД   19811692 .
  8. ^ Рид Дж.Л., Фамили I, Тиле I, Палссон Б.О. (февраль 2006 г.). «К многомерной аннотации генома». Обзоры природы. Генетика . 7 (2): 130–141. дои : 10.1038/nrg1769 . ПМИД   16418748 . S2CID   13107786 .
  9. ^ Перейти обратно: а б с д Абриль Дж. Ф., Кастеллано С (2019). «Аннотация генома». В Ранганатан С., Накаи К., Шонбах С., Грибсков М. (ред.). Энциклопедия биоинформатики и вычислительной биологии (1-е изд.). Эльзевир Наука. стр. 195–209. дои : 10.1016/B978-0-12-809633-8.20226-4 . ISBN  978-0-12-811432-2 . S2CID   226248103 .
  10. ^ Перейти обратно: а б с д Татусова Т., ДиКуччио М., Бадретдин А., Четвернин В., Навроцкий Е.П., Заславский Л. и др. (август 2016 г.). «Конвейер аннотаций генома прокариот NCBI» . Исследования нуклеиновых кислот . 44 (14): 6614–6624. дои : 10.1093/nar/gkw569 . ПМК   5001611 . ПМИД   27342282 .
  11. ^ Стаден Р. (ноябрь 1977 г.). «Последовательная обработка данных с помощью компьютера» . Исследования нуклеиновых кислот . 4 (11): 4037–4051. дои : 10.1093/нар/4.11.4037 . ПМК   343220 . ПМИД   593900 .
  12. ^ Стаден Р., Маклахлан А.Д. (январь 1982 г.). «Предпочтение кодонов и его использование для идентификации областей, кодирующих белки, в длинных последовательностях ДНК» . Исследования нуклеиновых кислот . 10 (1): 141–156. дои : 10.1093/нар/10.1.141 . ПМК   326122 . ПМИД   7063399 .
  13. ^ Перейти обратно: а б Грибсков М., Деверо Дж., Берджесс Р.Р. (январь 1984 г.). «График предпочтения кодонов: графический анализ последовательностей, кодирующих белки, и предсказание экспрессии генов» . Исследования нуклеиновых кислот . 12 (1, часть 2): 539–549. дои : 10.1093/нар/12.1part2.539 . ПМК   321069 . ПМИД   6694906 .
  14. ^ Фикетт Дж.В. (август 1996 г.). «Обнаружение генов с помощью компьютера: современное состояние». Тенденции в генетике . 12 (8): 316–320. дои : 10.1016/0168-9525(96)10038-X . ПМИД   8783942 .
  15. ^ Грожан Х., Фирс В. (июнь 1982 г.). «Преимущественное использование кодонов в прокариотических генах: оптимальная энергия взаимодействия кодон-антикодон и селективное использование кодонов в эффективно экспрессируемых генах». Джин . 18 (3): 199–209. дои : 10.1016/0378-1119(82)90157-3 . ПМИД   6751939 .
  16. ^ Грэнтэм Р., Готье С., Гуи М., Мерсье Р., Паве А. (январь 1980 г.). «Использование каталога кодонов и гипотеза генома» . Исследования нуклеиновых кислот . 8 (1): р49–р62. дои : 10.1093/нар/8.1.197-c . ПМК   327256 . ПМИД   6986610 .
  17. ^ Лукашин А.В., Бородовский М. (февраль 1998 г.). «GeneMark.hmm: новые решения для поиска генов» . Исследования нуклеиновых кислот . 26 (4): 1107–1115. дои : 10.1093/нар/26.4.1107 . ПМЦ   147337 . ПМИД   9461475 .
  18. ^ Зальцберг С.Л., Делчер А.Л., Касиф С., Уайт О. (январь 1998 г.). «Идентификация микробных генов с использованием интерполированных марковских моделей» . Исследования нуклеиновых кислот . 26 (2): 544–548. дои : 10.1093/нар/26.2.544 . ПМЦ   147303 . ПМИД   9421513 .
  19. ^ Перейти обратно: а б с д и ж г час Со Дж., Гордон П.М., Сенсен CW (4 сентября 2012 г.). Геномная аннотация . Нью-Йорк: Чепмен и Холл/CRC. дои : 10.1201/b12682 . ISBN  9780429064012 . Архивировано из оригинала 18 апреля 2023 года . Проверено 18 апреля 2023 г.
  20. ^ Перейти обратно: а б Брент М.Р. (декабрь 2005 г.). «Аннотации генома в прошлом, настоящем и будущем: как определить ORF в каждом локусе» . Геномные исследования . 15 (12): 1777–1786. дои : 10.1101/гр.3866105 . ПМИД   16339376 .
  21. ^ Консорциум проекта ENCODE (апрель 2011 г.). Беккер П.Б. (ред.). «Руководство пользователя энциклопедии элементов ДНК (ENCODE)» . ПЛОС Биология . 9 (4): e1001046. дои : 10.1371/journal.pbio.1001046 . ПМК   3079585 . ПМИД   21526222 . Значок открытого доступа
  22. ^ Абекасис Г.Р., Аутон А., Брукс Л.Д., ДеПристо М.А., Дурбин Р.М., Handsaker RE и др. (ноябрь 2012 г.). «Интегрированная карта генетических вариаций 1092 геномов человека» . Природа . 491 (7422): 56–65. Бибкод : 2012Natur.491...56T . дои : 10.1038/nature11632 . ПМК   3498066 . ПМИД   23128226 .
  23. ^ Перейти обратно: а б Каль Г (2015). Словарь геномики, транскриптомики и протеомики (Пятое изд.). Вайнхайм: Уайли. дои : 10.1002/9783527678679 . ISBN  9783527678679 . Архивировано из оригинала 4 августа 2022 года . Проверено 24 апреля 2023 г.
  24. ^ Перейти обратно: а б с д и Янделл М., Энце Д. (апрель 2012 г.). «Руководство для начинающих по аннотации генома эукариот». Обзоры природы. Генетика . 13 (5): 329–342. дои : 10.1038/nrg3174 . ПМИД   22510764 . S2CID   3352427 .
  25. ^ Треанген Т.Дж., Абрахам А.Л., Тушон М., Роча Э.П. (май 2009 г.). «Генезис, эффекты и судьба повторов в геномах прокариот» . Обзоры микробиологии FEMS . 33 (3): 539–571. дои : 10.1111/j.1574-6976.2009.00169.x . ПМИД   19396957 .
  26. ^ Лиер Т (февраль 2021 г.). «Повторяющиеся элементы у человека» . Международный журнал молекулярных наук . 22 (4): 2072. doi : 10.3390/ijms22042072 . ПМЦ   7922087 . PMID   33669810 .
  27. ^ Бергман СМ, Кенвиль Х (ноябрь 2007 г.). «Обнаружение и обнаружение мобильных элементов в последовательностях генома» . Брифинги по биоинформатике . 8 (6): 382–392. дои : 10.1093/нагрудник/bbm048 . ПМИД   17932080 .
  28. ^ Перейти обратно: а б с Александр Р.П., Фанг Г., Розовский Дж., Снайдер М., Герштейн М.Б. (август 2010 г.). «Аннотирование некодирующих участков генома». Обзоры природы. Генетика . 11 (8): 559–571. дои : 10.1038/nrg2814 . ПМИД   20628352 . S2CID   6617359 .
  29. ^ Эдгар Р.К. (октябрь 2010 г.). «Поиск и кластеризация на порядки быстрее, чем BLAST» . Биоинформатика . 26 (19): 2460–2461. doi : 10.1093/биоинформатика/btq461 . ПМИД   20709691 .
  30. ^ Эдгар Р. «Маскировка последовательности» . Drive5.com . Архивировано из оригинала 3 февраля 2020 года . Проверено 25 апреля 2023 г.
  31. ^ Перейти обратно: а б с д и Эджигу Г.Ф., Юнг Дж. (сентябрь 2020 г.). «Обзор компьютерной геномной аннотации последовательностей, полученных с помощью секвенирования следующего поколения» . Биология . 9 (9): 295. doi : 10.3390/biology9090295 . ПМЦ   7565776 . ПМИД   32962098 .
  32. ^ Гарбер М., Грабхерр М.Г., Гуттман М., Трапнелл С. (июнь 2011 г.). «Вычислительные методы аннотации и количественной оценки транскриптома с использованием RNA-seq». Природные методы . 8 (6): 469–477. дои : 10.1038/nmeth.1613 . ПМИД   21623353 . S2CID   205419756 .
  33. ^ Гупта Н., Таннер С., Джейтли Н., Адкинс Дж.Н., Липтон М., Эдвардс Р. и др. (сентябрь 2007 г.). «Целопротеомный анализ посттрансляционных модификаций: применение масс-спектрометрии для протеогеномной аннотации» . Геномные исследования . 17 (9): 1362–1377. дои : 10.1101/гр.6427907 . ПМК   1950905 . ПМИД   17690205 .
  34. ^ Де Бона Ф, Оссовски С, Шнебергер К, Рэч Г (август 2008 г.). «Оптимальное сплайсинговое выравнивание считываний коротких последовательностей» . Биоинформатика . 24 (16): i174–i180. doi : 10.1093/биоинформатика/btn300 . ПМИД   18689821 .
  35. ^ Трапнелл С., Пахтер Л., Зальцберг С.Л. (май 2009 г.). «TopHat: обнаружение соединений сплайсинга с помощью RNA-Seq» . Биоинформатика . 25 (9): 1105–1111. doi : 10.1093/биоинформатика/btp120 . ПМЦ   2672628 . ПМИД   19289445 .
  36. ^ Крижанович К., Эчкики А., Ру Дж., Шикич М. (март 2018 г.). «Оценка инструментов для выравнивания длинного чтения RNA-seq с учетом сплайсинга» . Биоинформатика . 34 (5): 748–754. doi : 10.1093/биоинформатика/btx668 . ПМК   6192213 . ПМИД   29069314 .
  37. ^ Макхарди AC, Клотген А (2017). «Обнаружение генов в последовательности генома». В Кейт Дж.М. (ред.). Биоинформатика . Методы молекулярной биологии. Том. 1525 г. (Второе изд.). Нью-Йорк: Спрингер. стр. 271–291. дои : 10.1007/978-1-4939-6622-6_11 . ISBN  978-1-4939-6622-6 . ПМИД   27896725 .
  38. ^ Брент М.Р., Гиго Р. (июнь 2004 г.). «Последние достижения в предсказании структуры генов». Современное мнение в области структурной биологии . 14 (3): 264–272. дои : 10.1016/j.sbi.2004.05.007 . ПМИД   15193305 .
  39. ^ Биннс Д., Диммер Э., Хантли Р., Баррелл Д., О'Донован С., Апвейлер Р. (ноябрь 2009 г.). «QuickGO: веб-инструмент для поиска в онтологии генов» . Биоинформатика . 25 (22): 3045–3046. doi : 10.1093/биоинформатика/btp536 . ПМЦ   2773257 . ПМИД   19744993 .
  40. ^ Перейти обратно: а б с Ву ТТ, Юнг Дж (2021). «Прогнозирование функции белка с помощью онтологии генов: от традиционных моделей к моделям глубокого обучения» . ПерДж . 9 : е12019. дои : 10.7717/peerj.12019 . ПМЦ   8395570 . ПМИД   34513334 .
  41. ^ Перейти обратно: а б Саксена Р., Бишной Р., Сингла Д. (2021). «Онтология генов: применение и важность функциональной аннотации геномных данных». В Сингхе Б., Патхаке Р.К. (ред.). Биоинформатика: методы и приложения . Лондон: Академическая пресса. стр. 145–157. дои : 10.1016/B978-0-323-89775-4.00015-8 . ISBN  978-0-323-89775-4 .
  42. ^ Перейти обратно: а б Чжао Ю, Ван Дж, Чэнь Дж, Чжан Икс, Го М, Ю Г (2020). «Обзор литературы по прогнозированию функций генов путем моделирования онтологии генов» . Границы генетики . 11 : 400. дои : 10.3389/fgene.2020.00400 . ПМК   7193026 . ПМИД   32391061 .
  43. ^ Сассон О, Каплан Н, Линиал М (июнь 2006 г.). «Функциональное прогнозирование аннотаций: все за одного и один за всех» . Белковая наука . 15 (6): 1557–1562. дои : 10.1110/ps.062185706 . ПМК   2242553 . ПМИД   16672244 .
  44. ^ Синха С., Линн А.М., Десаи Д.К. (октябрь 2020 г.). «Внедрение вычислительных методов, основанных на гомологии и негомологии, для идентификации и аннотации орфанных ферментов: использование Mycobacterium Tuberculosis H37Rv в качестве примера» . БМК Биоинформатика . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . ПМК   574302 . ПМИД   33076816 .
  45. ^ Летовский С., Касиф С. (2003). «Прогнозирование функции белка на основе данных о взаимодействии белок/белок: вероятностный подход» . Биоинформатика . 19 (Приложение 1): i197–i204. doi : 10.1093/биоинформатика/btg1026 . ПМИД   12855458 .
  46. ^ Дайнат Дж., Понтаротти П. (2021). «Методы идентификации и изучения эволюции псевдогенов с использованием филогенетического подхода» (PDF) . В Полисено Л (ред.). Псевдогены . Методы молекулярной биологии. Том. 2324 (Второе изд.). Нью-Йорк: Спрингер. стр. 21–34. дои : 10.1007/978-1-0716-1503-4_2 . ISBN  978-1-0716-1503-4 . ПМИД   34165706 . S2CID   235625288 .
  47. ^ Нуманаджик И., Гёккая А.С., Чжан Л., Бергер Б., Алкан С., Хач Ф. (сентябрь 2018 г.). «Быстрая характеристика сегментных дупликаций в сборках генома» . Биоинформатика . 34 (17): i706–i714. doi : 10.1093/биоинформатика/bty586 . ПМК   6129265 . ПМИД   30423092 .
  48. ^ Хартасанчес Д.А., Брасо-Вивес М., Эредиа-Дженестар Х.М., Пибус М., Наварро А. (ноябрь 2018 г.). «Влияние свернувшихся дубликатов на оценки разнообразия: чего ожидать» . Геномная биология и эволюция . 10 (11): 2899–2905. дои : 10.1093/gbe/evy223 . ПМК   6239678 . ПМИД   30364947 .
  49. ^ Си Дж, Чжао Р, Ву Р (март 2015 г.). «Обзор предсказания сайтов связывания белков с ДНК» . Международный журнал молекулярных наук . 16 (3): 5194–5215. дои : 10.3390/ijms16035194 . ПМЦ   4394471 . ПМИД   25756377 .
  50. ^ Гриффитс-Джонс С. (2007). «Аннотирование некодирующих генов РНК». Ежегодный обзор геномики и генетики человека . 8 : 279–298. дои : 10.1146/annurev.genom.8.080706.092419 . ПМИД   17506659 .
  51. ^ Перейти обратно: а б Зееманн Т. (июль 2014 г.). «Прокка: быстрая аннотация генома прокариот». Биоинформатика . 30 (14): 2068–2069. doi : 10.1093/биоинформатика/btu153 . ПМИД   24642063 .
  52. ^ Валеев Т, Евшин И, Колпаков Ф (2013). «Браузер генома BioUML» . Виртуальная биология . 1 (1): 15. дои : 10.12704/vb/e8 .
  53. ^ Сот П.С., Ян А., Ван Х, Парсания С., Рём У., Вонг К.Х., Хо Дж.В. (май 2017 г.). «PBrowse: веб-платформа для совместного исследования геномных данных в режиме реального времени» . Исследования нуклеиновых кислот . 45 (9): е67. дои : 10.1093/nar/gkw1358 . ПМЦ   5605237 . ПМИД   28100700 .
  54. ^ Ван Дж, Конг Л, Гао Г, Луо Дж (март 2013 г.). «Краткое введение в веб-браузеры генома» . Брифинги по биоинформатике . 14 (2): 131–143. дои : 10.1093/нагрудник/bbs029 . ПМИД   22764121 .
  55. ^ Юнг Дж, Ким Джи, И Джи (декабрь 2019 г.). «genCo: визуализированный сравнительный геномный метод для анализа нескольких структур генома» . Биоинформатика . 35 (24): 5303–5305. doi : 10.1093/биоинформатика/btz596 . ПМК   6954651 . ПМИД   31350879 .
  56. ^ Перейти обратно: а б Узунис К.А., Карп П.Д. (2002). «Прошлое, настоящее и будущее полногеномной реаннотации» . Геномная биология . 3 (2): КОММЕНТАРИЙ 2001. doi : 10.1186/gb-2002-3-2-comment2001 . ПМК   139008 . ПМИД   11864365 .
  57. ^ «Аннотация руководства — Wellcome Sanger Institute» . www.sanger.ac.uk . Архивировано из оригинала 2 февраля 2023 года . Проверено 28 марта 2023 г.
  58. ^ Сизен Р.Дж., ван Хиджум С.А. (июль 2010 г.). «(повторное) аннотирование генома и конвейеры аннотаций с открытым исходным кодом» . Микробная биотехнология . 3 (4): 362–369. дои : 10.1111/j.1751-7915.2010.00191.x . ПМЦ   3815804 . ПМИД   21255336 .
  59. ^ Лавленд Дж. Э., Гилберт Дж. Г., Гриффитс Э., Харроу Дж. Л. (2012). «Аннотация генов сообщества на практике» . База данных . 2012 (2012): bas009. дои : 10.1093/база данных/bas009 . ПМК   3308165 . ПМИД   22434843 .
  60. ^ Хартл Д.Л. (апрель 2000 г.). «Муха встречает дробовик: дробовик побеждает». Природная генетика . 24 (4): 327–328. дои : 10.1038/74125 . ПМИД   10742085 . S2CID   5354139 .
  61. ^ Мазумдер Р., Натале Д.А., Хулио Дж.А., Йе Л.С., Ву Ч. (февраль 2010 г.). «Сообщество аннотаций по биологии» . Биология Директ . 5 (1): 12. дои : 10.1186/1745-6150-5-12 . ПМЦ   2834641 . ПМИД   20167071 .
  62. ^ Хасс Дж.В., Ороско С., Гудейл Дж., Ву С., Баталов С., Викерс Т.Дж. и др. (июль 2008 г.). «Генная вики для аннотаций сообщества о функциях генов» . ПЛОС Биология . 6 (7): е175. дои : 10.1371/journal.pbio.0060175 . ПМЦ   2443188 . ПМИД   18613750 .
  63. ^ Дауб Дж., Гарднер П.П., Тейт Дж., Рамскольд Д., Манске М., Скотт В.Г. и др. (декабрь 2008 г.). «Википроект РНК: аннотации сообщества семейств РНК» . РНК . 14 (12): 2462–2464. дои : 10.1261/rna.1200508 . ПМК   2590952 . ПМИД   18945806 .
  64. ^ Купер Л., Джайсвал П. (2016). «Онтология растений: инструмент геномики растений». В Эдвардсе Д. (ред.). Биоинформатика растений . Методы молекулярной биологии. Том. 1374 г. (2-е изд.). Тотова, Нью-Джерси: Humana Press. стр. 89–114. дои : 10.1007/978-1-4939-3167-5_5 . ISBN  978-1-4939-3167-5 . ПМИД   26519402 .
  65. ^ Торто-Алалибо Т., Колмер К.В., Гвинн-Джильо М. (февраль 2009 г.). «Консорциум онтологии генов микробов, связанных с растениями (PAMGO): разработка сообществом новых терминов онтологии генов, описывающих биологические процессы, участвующие во взаимодействиях микроб-хозяин» . БМК Микробиология . 9 (Приложение 1): S1. дои : 10.1186/1471-2180-9-S1-S1 . ПМЦ   2654661 . ПМИД   19278549 .
  66. ^ Пиньеро Х., Рамирес-Ангита Х.М., Сауч-Питарх Х., Ронсано Ф., Сентено Э., Санс Ф., Ферлонг Л.И. (январь 2020 г.). «Платформа знаний DisGeNET для геномики заболеваний: обновление 2019 года» . Исследования нуклеиновых кислот . 48 (Д1): Д845–Д855. дои : 10.1093/nar/gkz1021 . ПМЦ   7145631 . ПМИД   31680165 .
  67. ^ Хейман Г.Т., Лауледеркинд С.Дж., Смит Дж.Р., Ван С.Дж., Петри В., Нигам Р. и др. (2016). «Порталы болезней, аннотации генов болезней и онтология болезней RGD в базе данных генома крыс» . База данных . 2016 : baw034. дои : 10.1093/база данных/baw034 . ПМЦ   4805243 . ПМИД   27009807 .
  68. ^ Топ EM, Спрингаэль Д., Бун Н. (ноябрь 2002 г.). «Катаболические мобильные генетические элементы и их потенциальное использование в биоаугментации загрязненных почв и вод» . ФЭМС Микробиология Экология . 42 (2): 199–208. дои : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . ПМИД   19709279 . S2CID   15173391 .
  69. ^ Фале П.С., Паливал В., Раджу С.С., Модак А., Пурохит Х.Дж. (январь 2013 г.). «Геномная последовательность почвенной бактерии Pseudomonas putida CSV86, разлагающей нафталин» . Геномные объявления . 1 (1): 234–235. doi : 10.1128/genomeA.00234-12 . ПМЦ   3587945 . ПМИД   23469351 .
  70. ^ Триведи В.Д., Джангир П.К., Шарма Р., Фале П.С. (декабрь 2016 г.). «Взгляд на функциональный и эволюционный анализ карбарильного метаболического пути штамма Pseudomonas sp. C5pp» . Научные отчеты . 6 (1): 38430. Бибкод : 2016NatSR...638430T . дои : 10.1038/srep38430 . ПМК   5141477 . ПМИД   27924916 .
  71. ^ Хо YY, Ли ZY, Ченг Х, Ван CS, Сюй XW (2014). «Высококачественный черновой вариант геномной последовательности штамма B6(T) бактерии Halomonas Zincidurans, устойчивого к тяжелым металлам» . Стандарты в геномных науках . 9 (30): 30. дои : 10.1186/1944-3277-9-30 . ПМК   4286145 . ПМИД   25945155 .
  72. ^ Пан X, Линь Д., Чжэн Ю, Чжан Ц, Инь Ю, Цай Л и др. (февраль 2016 г.). «Биодеградация ДДТ Stenotropomonas sp. ДДТ-1: характеристика и функциональный анализ генома» . Научные отчеты . 6 (1): 21332. Бибкод : 2016НатСР...621332П . дои : 10.1038/srep21332 . ПМЦ   4758049 . ПМИД   26888254 .
  73. ^ GAAS , NBIS — Национальная инфраструктура биоинформатики Швеции, 13 апреля 2022 г. , дата обращения 25 апреля 2022 г.
  74. ^ Банерджи С., Бхандари П., Вудхаус М., Сен Т.З., Уайз Р.П., Андорф К.М. (апрель 2021 г.). «FINDER: автоматизированный пакет программного обеспечения для аннотирования эукариотических генов на основе данных RNA-Seq и связанных с ними белковых последовательностей» . БМК Биоинформатика . 22 (1): 205. дои : 10.1186/s12859-021-04120-9 . ПМК   8056616 . ПМИД   33879057 .
  75. ^ Мартин Р., Хакл Т., Хаттаб Г., Фишер М.Г., Хайдер Д. (апрель 2021 г.). Бирол I (ред.). «МОСГА: Модульный аннотатор генома с открытым исходным кодом». Биоинформатика . 36 (22–23): 5514–5515. doi : 10.1093/биоинформатика/btaa1003 . hdl : 21.11116/0000-0006-FED4-D . ПМИД   33258916 .
  76. ^ Мартин Р. «МОСГА» . mosga.mathematik.uni-marburg.de . Проверено 25 апреля 2022 г.
  77. ^ Швенгерс О., Елонек Л., Дикманн М.А., Бейверс С., Блом Дж., Гёсманн А. (ноябрь 2021 г.). «Бакта: быстрая и стандартизированная аннотация бактериальных геномов посредством идентификации последовательностей без выравнивания» . Микробная геномика . 7 (11). дои : 10.1099/mgen.0.000685 . ПМЦ   8743544 . ПМИД   34739369 .
  78. ^ Ли В., О'Нил К.Р., Хафт Д.Х., ДиКуччио М., Четвернин В., Бадретдин А. и др. (январь 2021 г.). «RefSeq: расширение возможностей конвейера аннотаций генома прокариот за счет курирования модели семейства белков» . Исследования нуклеиновых кислот . 49 (Д1): Д1020–Д1028. дои : 10.1093/nar/gkaa1105 . ПМК   7779008 . ПМИД   33270901 .
  79. ^ «Аннотатор NCBO» . ncbo.bioontology.org . Проверено 8 февраля 2023 г.
  80. ^ Фанг Х., Гоф Дж. (январь 2013 г.). «DcGO: база данных предметно-ориентированных онтологий по функциям, фенотипам, заболеваниям и т. д.» . Исследования нуклеиновых кислот . 41 (Проблема с базой данных): D536–D544. дои : 10.1093/нар/gks1080 . ПМЦ   3531119 . ПМИД   23161684 .

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d11f31c4c7dc87676a7c3ae491b4f2c3__1715257320
URL1:https://arc.ask3.ru/arc/aa/d1/c3/d11f31c4c7dc87676a7c3ae491b4f2c3.html
Заголовок, (Title) документа по адресу, URL1:
DNA annotation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)