Проект аннотации генома позвоночных
База данных аннотаций генома позвоночных ( VEGA ) — это биологическая база данных, призванная помочь исследователям найти определенные области генома и аннотировать гены или области геномов позвоночных. [1] Браузер VEGA основан на веб-коде и инфраструктуре Ensembl и обеспечивает общедоступный доступ к известным генам позвоночных для научного сообщества. [2] [3] Веб-сайт VEGA часто обновляется, чтобы поддерживать самую актуальную информацию о геномах позвоночных, и пытается представить последовательно высококачественные аннотации всех опубликованных геномов или областей генома позвоночных. [4] VEGA была разработана Wellcome Trust Sanger Institute и находится в тесном сотрудничестве с другими базами данных аннотаций, такими как ZFIN (Информационная сеть Zebrafish), Havana Group и GenBank . [1] [5] Ручная аннотация в настоящее время более точна при идентификации вариантов сплайсинга, псевдогенов , особенностей полиаденилирования , некодирующих областей и сложных структур генов, чем автоматизированные методы. [5]
История
[ редактировать ]База данных аннотаций генома позвоночных (VEGA) была впервые обнародована в 2004 году Институтом Wellcome Trust Sanger. Он был разработан для просмотра ручных аннотаций геномных последовательностей человека, мыши и рыбки данио и является центральным кешем для центров секвенирования генома, где можно хранить свои аннотации хромосом человека. [6] Ручное аннотирование геномных данных чрезвычайно ценно для создания точного эталонного набора генов, но оно дорого по сравнению с автоматическими методами и поэтому ограничивается модельными организмами. Инструменты аннотации, разработанные в Wellcome Trust Sanger Institute (WTSI). [7] в настоящее время используются, чтобы заполнить этот пробел, поскольку их можно использовать удаленно и, таким образом, открыть жизнеспособное сотрудничество сообщества в области аннотаций. [8] Проектами ГАВАНА и ВЕГА руководила доктор Дженнифер Харроу из Института Велком Сэнгер. ВЕГА находится в архиве с февраля 2017 года, а команда HAVANA переехала в EMBL-EBI в июне 2017 года.
Геном человека
[ редактировать ]База данных Vega является центральным хранилищем для большинства центров секвенирования генома, в котором можно хранить свои аннотации хромосом человека. [6] Со времени первоначальной публикации VEGA количество аннотированных локусов человеческих генов увеличилось более чем вдвое и превысило 49 000 (выпуск в сентябре 2012 г.), из которых, по прогнозам, более 20 000 будут кодировать белки. [6] [9] Гаванская группа в рамках сотрудничества по консенсусному кодированию последовательностей (CCDS) и полногеномного расширения проекта ENCODE полностью вручную аннотировала геном человека, который доступен для справки, сравнительного анализа и поиска последовательностей в базе данных VEGA. [10] [11] Последний выпуск VEGA вышел в феврале 2017 года (выпуск 68), и теперь сайт VEGA находится в архиве и больше не будет обновляться.
Другие позвоночные
[ редактировать ]База данных VEGA объединяет информацию из баз данных геномов отдельных позвоночных и объединяет их, чтобы облегчить доступ и сравнительный анализ для исследователей. Группа анализа и аннотирования человека и позвоночных (Гавана) из Wellcome Trust Sanger Institute (WTSI) вручную аннотирует геномы человека, мыши и рыбки данио, используя инструмент аннотации генома Otterlace/ZMap. [12] Система ручных аннотаций Otterlace включает в себя реляционную базу данных, которая хранит данные ручных аннотаций и поддерживает графический интерфейс Zmap и основана на схеме Ensembl. [8]
данио
[ редактировать ]Геном рыбки данио, который полностью секвенируется и аннотируется вручную. [13] Геном рыбки данио в настоящее время содержит 18 454 аннотированных гена VEGA, из которых 16 588 являются предполагаемыми генами, кодирующими белки (выпуск на сентябрь 2012 г.). [14]
Мышь
[ редактировать ]Геном мыши в настоящее время содержит 23 322 аннотированных гена VEGA, из которых 14 805 являются предполагаемыми генами, кодирующими белки (июнь 2012 г., выпуск). [15] Локусы, выбранные для ручной аннотации, разбросаны по всему геному, но некоторым областям уделялось больше внимания, чем другим: хромосомам 2, 4, 11 и X, которые были полностью аннотированы. Аннотация, показанная в этом выпуске Vega, взята из замороженных данных, сделанных 19 марта 2012 года, а структуры генов представлены в объединенном генетическом наборе мыши, показанном в выпуске 67 Ensembl. Vega также показывает искусственные локусы, созданные программами Knockout для мышей . [15]
Свинья
[ редактировать ]В настоящее время в геноме свиньи аннотировано 2842 гена VEGA, из которых 2264 являются предполагаемыми генами, кодирующими белки (выпуск на сентябрь 2012 г.). [16] Главный комплекс гистосовместимости свиньи (MHC), также известный как антигенный комплекс лейкоцитов свиньи (SLA), охватывает область размером 2,4 Мб субметацентрической хромосомы 7 (SSC7p1.1-q1.1). Участвуя в контроле иммунного ответа и восприимчивости к ряду заболеваний, MHC свиней играет уникальную роль в гистосовместимости. [16] Хромосомы X-WTSI и Y-WTSI в настоящее время аннотируются Гаваной. [16]
Собака, шимпанзе, валлаби и горилла
[ редактировать ]Геном собаки в настоящее время содержит 45 аннотированных генов VEGA, из которых 29 являются предполагаемыми генами, кодирующими белки (февраль 2005 г., выпуск). [17] Геном шимпанзе в настоящее время содержит 124 аннотированных гена VEGA, из которых 52 являются предполагаемыми генами, кодирующими белки (выпуск на январь 2012 г.). [18] Геном Валлаби в настоящее время содержит 193 аннотированных гена VEGA, из которых 76 являются предполагаемыми генами, кодирующими белки (выпуск в марте 2009 г.). [19] Геном гориллы в настоящее время содержит 324 аннотированных гена VEGA, из которых 176 являются предполагаемыми генами, кодирующими белки (март 2009 г., выпуск). [20]
Сравнительный анализ
[ редактировать ]Помимо полных геномов, в отличие от других браузеров, VEGA также отображает небольшие готовые интересующие области из геномов других позвоночных, гаплотипов человека и линий мышей. В настоящее время он включает готовую последовательность и аннотацию главного комплекса гистосовместимости (MHC) из различных гаплотипов человека, а также собаки и свиньи [последний из которых в настоящее время доступен только в очень ограниченной форме в Ensembl Pre!. [21] Кроме того, имеется аннотация мышиного штамма NOD (диабет без ожирения) областей-кандидатов IDD (инсулинзависимый диабет) и еще двух регионов свиньи. [6]
Vega содержит сравнительный попарный анализ между конкретными геномными областями либо разных видов, либо разных гаплотипов/штаммов. В этом отличие от Ensembl, где выполняется множество сравнений всех геномов и всех геномов. [22] Анализ в Vega включает в себя:
1. Идентификация геномных выравниваний с использованием LastZ. 2. Прогнозирование пар ортологов с использованием конвейера генного дерева Ensembl. Обратите внимание: хотя конвейер генерирует филогенетические генные деревья, ограниченный объем сравнительного анализа Vega означает, что они обязательно будут неполными, и, следовательно, на веб-сайте показаны только ортологи. 3. Ручная идентификация аллелей в различных гаплотипах человека или линиях мышей.
Существует пять наборов анализов: [22]
1. Область MHC сравнивалась между гаплотипами собаки, свиньи (две сборки), гориллы, шимпанзе, валлаби, мыши и восьми человеческих гаплотипов:
- хромосома собаки 12-MHC
- хромосома 6-MHC гориллы
- хромосома 6-MHC шимпанзе
- хромосома 2-MHC валлаби
- хромосома 7 свиньи на Sscrofa10.2 (от 24,7 до 29,8 МБ)
- хромосома свиньи 7-MHC
- хромосома 17 мыши (от 33,3 до 38,9 Мбит/с)
- хромосома 6 на эталонной сборке человека (от 28 до 34 Мбит/с)
- Область MHC хромосомы 6 в гаплотипах COX, QBL, APD, DBB, MANN, MCF и SSTO человека (полноразмерные фрагменты хромосомы)
2. Сравнение регионов LRC свиньи, гориллы и человека (девять гаплотипов):
- хромосома 6 свиньи (от 53,6 до 54,0 Мбит/с)
- хромосома 19-LRC гориллы
- хромосома человека 19q13.4 (от 54,6 Мбит до 55,6 Мбит) на эталонной сборке.
- Область LRC хромосомы 19 в гаплотипах COX_1, COX_2, PGF_1, PGF_2, DM1A, DM1B, MC1A и MC1B (полноразмерные фрагменты хромосомы).
- Области инсулинозависимого диабета (Idd) на шести хромосомах мыши (1, 3, 4, 6, 11 и 17) сравнивались между эталонным CL57BL/6 и одним или несколькими из DIL для диабетиков без ожирения (NOD), CHORI- 29 NOD и 129 штаммов. Подробности описаны здесь
3. В этих сравнениях использовались следующие регионы эталонной сборки CL57BL/6:
- Idd3.1: хромосома 3, клоны от AC117584.11 до AC115749.12.
- Idd4.1: хромосома 11, клоны от AL596185.12 до AL663042.5.
- Idd4.2: хромосома 11, клоны от AL663082.5 до AL604065.7.
- Idd4.2Q: хромосома 11, клоны от AL596111.7 до AL645695.18.
- Idd5.1: хромосома 1, клоны от AL683804.15 до AL645534.20.
- Idd5.3: хромосома 1, клоны от AC100180.12 до AC101699.9.
- Idd5.4: хромосома 1, клоны от AC123760.9 до AC109283.8.
- Idd6.1 + Idd6.2: хромосома 6, клоны от AC164704.4 до AC164090.3.
- Idd6.3: хромосома 6, клоны от AC171002.2 до AC163356.2.
- Idd9.1: хромосома 4, клоны от AL627093.17 до AL670959.8.
- Idd9.1M: хромосома 4, клоны от AL611963.24 до AL669936.12.
- Idd9.2: хромосома 4, клоны от CR788296.8 до AL626808.28.
- Idd9.3: хромосома 4, клоны от AL607078.26 до AL606967.14.
- Idd10.1: хромосома 3, клоны от AC167172.3 до AC131184.4.
- Idd16.1: хромосома 17, клоны от AC125141.4 до AC167363.3.
- Idd18.1: хромосома 3, клоны от AL845310.4 до AL683824.8.
- Idd18.2: хромосома 3, клоны от AC123057.4 до AC129293.9.
4. Сравнение трех конкретных регионов:
- хромосома 17 свиньи (от 58,2 до 67,4 Мбит/с)
- хромосома человека 20q13.13-q13.33 (от 45,8 до 62,4 Мбит/с)
- хромосома 2 мыши (от 168,3 до 179,0 Мбит/с)
5. Попарные сравнения трех пар полноразмерных хромосом мыши и человека:
- хромосома 1 человека и хромосома 4 мыши
- хромосома 17 человека и хромосома 11 мыши
- Х-хромосома человека и Х-хромосома мыши
Ссылки
[ редактировать ]- ^ Перейти обратно: а б «Браузер Vega Genome» . Добро пожаловать в Институт Сэнгера . Проверено 30 октября 2012 г.
- ^ Сирл, SMJ; Гилберт, Дж; Айер, В; Клэмп, М (1 мая 2004 г.). «Система аннотаций Выдры» . Геномные исследования . 14 (5): 963–970. дои : 10.1101/гр.1864804 . ПМК 479127 . ПМИД 15123593 .
- ^ Хаббард, Т.; Баркер, Д; Бирни, Э; Кэмерон, Дж; Чен, Ю; Кларк, Л; Кокс, Т; Кафф, Дж; Карвен, В. (1 января 2002 г.). «Проект базы данных генома Ensembl» . Исследования нуклеиновых кислот . 30 (1): 38–41. дои : 10.1093/нар/30.1.38 . ПМК 99161 . ПМИД 11752248 .
- ^ Лавленд, Дж. (1 января 2005 г.). «VEGA, необычный геномный браузер» . Брифинги по биоинформатике . 6 (2): 189–193. дои : 10.1093/нагрудник/6.2.189 . ПМИД 15975227 .
- ^ Перейти обратно: а б Ашерст, Дж.Л.; Чен, СК; Гилберт, Дж. Г.; Йекош, К; Кинан, С; Мейдл, П; Сирл, С.М.; Сталкер, Дж; Стори, Р. (17 декабря 2004 г.). «База данных аннотаций генома позвоночных (Вега)» . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D459–D465. дои : 10.1093/nar/gki135 . ПМК 540089 . ПМИД 15608237 .
- ^ Перейти обратно: а б с д Уилминг, LG; Гилберт, JGR; Хау, К.; Треванион, С.; Хаббард, Т.; Харроу, Дж. Л. (23 декабря 2007 г.). «База данных аннотаций генома позвоночных (Vega)» . Исследования нуклеиновых кислот . 36 (База данных): D753–D760. дои : 10.1093/нар/gkm987 . ПМК 2238886 . ПМИД 18003653 .
- ^ «Институт Велком Траст Сэнгер» .
- ^ Перейти обратно: а б Лавленд, Дж. Э.; Гилберт, JGR; Гриффитс, Э.; Харроу, Дж. Л. (20 марта 2012 г.). «Аннотация генов сообщества на практике» . База данных . 2012 : bas009. дои : 10.1093/база данных/bas009 . ПМК 3308165 . ПМИД 22434843 .
- ^ «Геном человека» .
- ^ Бирни, Юэн; и др. (14 июня 2007 г.). «Идентификация и анализ функциональных элементов в 1% генома человека в рамках пилотного проекта ENCODE» . Природа . 447 (7146): 799–816. Бибкод : 2007Natur.447..799B . дои : 10.1038/nature05874 . ПМК 2212820 . ПМИД 17571346 .
- ^ Эшерст, Дженнифер Л.; Коллинз, Джон Э. (1 сентября 2003 г.). «Геновая аннотация: предсказание и тестирование» . Ежегодный обзор геномики и генетики человека . 4 (1): 69–88. дои : 10.1146/annurev.genom.4.070802.110300 . ПМИД 14527297 .
- ^ «Гаванский проект» .
- ^ Спрэг, Дж. (1 января 2006 г.). «Информационная сеть рыб данио: база данных модельных организмов рыб данио» . Исследования нуклеиновых кислот . 34 (90001): Д581–Д585. дои : 10.1093/nar/gkj086 . ПМЦ 1347449 . ПМИД 16381936 .
- ^ «Геном данио» .
- ^ Перейти обратно: а б «Геном мыши» .
- ^ Перейти обратно: а б с «Геном свиньи» .
- ^ «Геном собаки» .
- ^ «Геном шимпанзе» .
- ^ «Геном Валлаби» .
- ^ «Геном гориллы» .
- ^ «Пре!Ансамбль» .
- ^ Перейти обратно: а б «Сравнительный анализ» .