Jump to content

Червячная база

Червячная база
Содержание
Описание WormBase: комплексный ресурс по исследованию нематод.
Организмы Ценорабдитис элегантный
Контакт
Первичное цитирование ПМИД   19910365
Доступ
Веб-сайт www.wormbase.org

WormBase представляет собой онлайн- биологическую базу данных о биологии и геноме модельного организма нематод Caenorhabditis elegans , а также содержит информацию о других родственных нематодах. [1] [2] WormBase используется исследовательским сообществом C. elegans как информационный ресурс, так и как место для публикации и распространения своих результатов. База данных регулярно обновляется, новые версии выходят каждые два месяца. WormBase — одна из организаций, участвующих в проекте Базы данных общих моделей организмов (GMOD).

Содержание [ править ]

WormBase включает в себя следующие основные наборы данных:

Кроме того, WormBase содержит актуальную библиографию исследований C. elegans с возможностью поиска и связана с проектом WormBook .

Инструменты [ править ]

WormBase предлагает множество способов поиска и получения данных из базы данных:

  • ЧермМарт , Вики — было [3] инструмент для получения разнообразной информации о многих генах (или последовательностях этих генов). Это была реализация BioMart на WormBase . [4]
  • WormMine , Wiki — по состоянию на 2016 год, [3] основной объект интеллектуального анализа данных. Это реализация InterMine в WormBase . [5]
  • Браузер генома — просматривайте гены C. elegans (и других видов) в их геномном контексте.
  • Textpresso - инструмент поиска, который запрашивает опубликованную литературу по C. elegans (включая тезисы встреч) и часть литературы по нематодам.

Курирование последовательности [ править ]

Курирование последовательностей в WormBase означает поддержание и аннотирование первичной геномной последовательности и консенсусного набора генов.

Последовательность генома [ править ]

Несмотря на то, что последовательность генома C. elegans является наиболее точной и полной последовательностью генома эукариот, она постоянно нуждалась в уточнении по мере создания новых доказательств. Многие из этих изменений представляли собой вставки или делеции одиночных нуклеотидов, однако было обнаружено несколько крупных ошибок сборки. Например, в 2005 году пришлось инвертировать космиду размером 39 КБ. Другие улучшения были достигнуты благодаря сравнению геномной ДНК с последовательностями кДНК и анализу данных с высокой пропускной способностью RNASeq. Когда выявляются различия между геномной последовательностью и транскриптами, повторный анализ исходных геномных данных часто приводит к модификациям геномной последовательности. Изменения в геномной последовательности создают трудности при сравнении хромосомных координат данных, полученных из разных версий WormBase. Существует программа переназначения координат и доступны картографические данные, которые помогут в этом сравнении. [6]

структуры генной Модели

Все наборы генов видов WormBase изначально были созданы с помощью программ прогнозирования генов. Программы прогнозирования генов дают разумный набор генных структур, но лучшие из них правильно предсказывают только около 80% полных генных структур. Им трудно предсказать гены с необычной структурой, а также гены со слабым сигналом начала трансляции, слабыми сайтами сплайсинга или генами с одним экзоном. Они могут неправильно предсказать модель кодирующего гена, в которой ген является псевдогеном, и плохо предсказывают изоформы гена, если вообще предсказывают.

Генные модели генов C. elegans , C. briggsae , C. remanei и C. brenneri курируются вручную. Большинство изменений структуры генов было основано на данных транскриптов из крупномасштабных проектов, таких как библиотеки EST Юджи Кохары, проект Орфеома Марка Видала (worfdb.dfci.harvard.edu/), данные Уотерстона и Хиллера Illumina и данные 454 Македонки Митревы. Однако другие типы данных (например, выравнивание белков, программы предсказания ab initio , лидерные сайты транс-сплайсинга, сигналы поли-А и сайты добавления, метки транскриптов SAGE и TEC-RED , масс-спектроскопические пептиды и консервативные белковые домены) полезны в уточнение структур, особенно там, где экспрессия низкая и поэтому транскрипты недостаточно доступны. Когда гены консервативны между доступными видами нематод, сравнительный анализ также может быть очень информативным.

WormBase призывает исследователей сообщать им через службу поддержки, если у них есть доказательства неправильной структуры гена. Любые доказательства изменения последовательности кДНК или мРНК должны быть представлены в EMBL/GenBank/DDBJ; это помогает в подтверждении и доказательствах модели гена, поскольку WormBase регулярно извлекает данные о последовательностях из этих общедоступных баз данных. Это также делает данные общедоступными, позволяя исследователям ссылаться на них и выражать им признательность.

Когда в CDS (или псевдогене) вносится какое-либо изменение, старая модель гена сохраняется как объект «истории». Это имя будет иметь суффикс, например: «AC3.5:wp119», где «AC3.5» — это имя CDS, а «119» относится к выпуску базы данных, в котором было внесено изменение. Причина изменения и доказательства изменения добавляются к аннотации CDS — их можно увидеть в разделе «Видимые/Примечания» раздела «Отображение дерева» CDS на веб-сайте WormBase.

Генная номенклатура [ править ]

Гены [ править ]

В WormBase ген — это экспрессируемая область или область, которая была экспрессирована и теперь является псевдогеном. Гены имеют уникальные идентификаторы, например «WBGene00006415». Все гены C. elegans WormBase также имеют название последовательности, которое происходит от космиды, фосмиды или клона YAC, на котором они находятся, например F38H4.7 , что указывает на то, что он находится на космиде «F38H4», и их существует как минимум 6. другие гены этой космиды. Если ген продуцирует белок, который можно классифицировать как члена семейства, этому гену также может быть присвоено имя CGC , например tag-30, указывающее, что это 30-й член семейства генов- меток . Присвоение названий семейств генов контролируется WormBase. [7] Перед публикацией необходимо сделать запросы имен в WormBase. [8]

Есть несколько исключений из этого формата, например, гены cln-3.1 , cln-3.2 и cln-3.3 , которые одинаково похожи на человеческий ген CLN3 .Имена генов GCG для видов, не относящихся к elegans, в WormBase имеют трехбуквенный код вида, например Cre-acl-5 , Cbr-acl-5 , Cbn-acl-5 .

Ген может быть псевдогеном или может экспрессировать один или несколько генов некодирующей РНК (нкРНК) или последовательностей, кодирующих белок (CDS).

Псевдогены [ править ]

Псевдогены — это гены, которые не производят разумного функционального транскрипта. Они могут быть псевдогенами кодирующих генов или некодирующей РНК, могут быть целыми или фрагментами гена и могут экспрессировать или не экспрессировать транскрипт. Граница между тем, что считается приемлемым кодирующим транскриптом, иногда субъективна, поскольку в отсутствие других доказательств использование слабых сайтов сплайсинга или коротких экзонов часто может создать предполагаемую, хотя и неудовлетворительную модель CDS. Псевдогены и гены с проблемной структурой постоянно проверяются в WormBase, и используются новые данные, чтобы попытаться определить их статус.

CDS [ править ]

Кодирующие последовательности (CDS) — единственная часть структуры гена, которая вручную создается в WormBase. Структура гена и его транскриптов основана на структуре их CDS.

CDS имеют имя последовательности, которое происходит от того же имени последовательности, что и их родительский объект-ген, поэтому ген «F38H4.7» имеет CDS под названием «F38H4.7». CDS определяет кодирующие экзоны в гене от кодона START (метионин) до кодона STOP (включительно).

Любой ген может кодировать несколько белков в результате альтернативного сплайсинга. Эти изоформы имеют имя, которое формируется из названия последовательности гена с добавленной уникальной буквой. В случае гена bli-4 известно 6 изоформ CDS, называемых K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e и K04F10.4f.

В литературе принято ссылаться на изоформы, используя название семейства генов CGC с добавленной буквой, например pha-4a , однако это не имеет никакого значения в базе данных WormBase, и поиск pha-4a в WormBase ничего не даст. Правильное название этой изоформы — это либо имя CDS/транскрипта: F38A6.1a , либо, что еще лучше, имя белка: WP:CE15998 .

Транскрипты генов [ править ]

Транскрипты гена в WormBase автоматически получаются путем сопоставления любых доступных выравниваний кДНК или мРНК с моделью CDS. Следовательно, эти генные транскрипты часто включают экзоны UTR, окружающие CDS. Если доступных транскриптов кДНК или мРНК нет, то транскрипты генов будут иметь точно такую ​​же структуру, что и CDS, на которой они смоделированы.

Транскрипты генов называются по имени последовательности CDS, использованной для их создания, например, F38H4.7 или K04F10.4a .

Однако если в UTR происходит альтернативный сплайсинг, который не приводит к изменению последовательности белка, альтернативно сплайсированные транскрипты называются с добавленной цифрой, например: K04F10.4a.1 и K04F10.4a.2 . Если нет изоформ кодирующего гена, например AC3.5 , но происходит альтернативный сплайсинг в UTR, будет несколько транскриптов с именами AC3.5.1 и AC3.5.2 и т. д. Если нет альтернативных транскриптов UTR, будет одиночный coding_transcript имеет то же имя, что и CDS, и к нему не добавляется расширение .1, как в случае с K04F10.4f.

Опероны [ править ]

Группы генов, которые совместно транскрибируются как опероны, курируются как объекты Operan. Они имеют такие имена, как CEOP5460 , и курируются вручную с использованием данных из сайтов транс-сплайсинговой лидерной последовательности SL2.

Некодирующие гены - РНК

В WormBase есть несколько классов генов некодирующих РНК:

  • Гены тРНК прогнозируются программой «tRNAscan-SE».
  • Гены рРНК предсказываются на основании гомологии с другими видами.
  • Гены мяРНК в основном импортируются из Rfam .
  • Гены piRNA получены в результате анализа характерного мотива в этих генах.
  • Гены микроРНК в основном были импортированы из miRBase . У них есть первичный транскрипт и размеченный зрелый транскрипт. Первичный транскрипт будет иметь имя последовательности, например W09G3.10 , а зрелый транскрипт будет иметь добавленную к этому имени букву, например W09G3.10a (а если есть альтернативные зрелые транскрипты, W09G3.10b и т. д.).
  • Гены мякРНК в основном импортируются из Rfam или из бумаги.
  • Гены нкРНК, которые не имеют очевидной другой функции, но которые, очевидно, не кодируют белки и не являются псевдогенами, курируются. Многие из них сохранили гомологию с генами других видов. Некоторые из них экспрессируются в обратном направлении по отношению к генам, кодирующим белки.

Также имеется один ген scRNA.

Транспозоны [ править ]

Транспозоны не классифицируются как гены и поэтому не имеют родительского генного объекта. Их структура определяется как объект Transposon_CDS с именем типа C29E6.6 .

Другие виды [ править ]

Геномы видов, не относящихся к elegans, в WormBase были собраны с помощью технологий секвенирования, не требующих секвенирования космид или YAC. Таким образом, у этих видов нет названий последовательностей для CDS и транскриптов генов, основанных на названиях космид. Вместо этого они имеют уникальные буквенно-цифровые идентификаторы, аналогичные именам в таблице ниже.

Имена генов
Разновидность Пример имени гена
C. briggsae CBG00001
C. оставаться CRE00001
C. ликеро-водочный завод CBN00001
К. японская CJA00001
Мирный священник PPA00001

Белки [ править ]

Белковые продукты гена создаются путем трансляции последовательностей CDS. Каждой уникальной белковой последовательности присваивается уникальное идентифицирующее имя, например WP:CE40440 . Примеры названий белков-идентификаторов для каждого вида в WormBase приведены в таблице ниже.

Имена генов
Разновидность Пример названия белка
К. Элеганс WP:CE00001
C. briggsae БП:CBP00001
C. оставаться РП:RP00001
C. ликеро-водочный завод CN:CN00001
К. японская Я: JA00001
Мирный священник ПП:PP00001
Бактериофора гетерорабдита ХБ:HB00001
Бругия малайи БМ: BM00001
Мелоидогинная хапла МХ:MH00001
Мелоидогине инкогнита МИ:МИ00001
Гемонх контортус ХК:HC00001

Две последовательности CDS из разных генов внутри одного вида могут быть идентичными, и поэтому возможно иметь идентичные белки, кодируемые разными генами. Когда это происходит, для белка используется одно уникальное идентифицирующее имя, даже если он производится двумя генами.

ПараСайт [ править ]

WormBase ПараСайт [9] — это субпортал, содержащий около 100 проектов геномов паразитических гельминтов ( нематод и платихельминтов ), разработанных в Европейском институте биоинформатики и Wellcome Trust Sanger Institute . Все геномы собраны и аннотированы. дополнительная информация, такая как белковые домены и термины генной онтологии Также доступна . Генные деревья позволяют сопоставлять ортологи между паразитическими червями, другими нематодами и видами сравнения, не являющимися червями. Предлагается инструмент анализа данных BioMart , позволяющий обеспечить крупномасштабный доступ к данным.

Управление WormBase [ править ]

WormBase является результатом сотрудничества Европейского института биоинформатики , Wellcome Trust Sanger Institute , Института исследования рака Онтарио , Вашингтонского университета в Сент-Луисе и Калифорнийского технологического института . Он поддерживается грантом P41-HG002223 Национального института здравоохранения и грантом G0701197 Британского совета медицинских исследований . [10] Калифорнийский технологический институт осуществляет биологическое курирование и разрабатывает базовые онтологии, EBI осуществляет курирование и вычисление последовательностей, а также создание баз данных, Sanger в первую очередь занимается курированием и отображением геномов и генов паразитических нематод, а OICR разрабатывает веб-сайт и основные инструменты интеллектуального анализа данных.

Примечания и ссылки [ править ]

  1. ^ Харрис, ТВ; и др. (12 ноября 2009 г.). «WormBase: комплексный ресурс по исследованию нематод» . Нуклеиновые кислоты Рез . 38 (Проблема с базой данных): D463–7. дои : 10.1093/нар/gkp952 . ПМК   2808986 . ПМИД   19910365 .
  2. ^ Уильямс, ГВ; Дэвис, Пенсильвания; Роджерс, А.С.; Биери, Т.; Озерский, П.; Спит, Дж. (2011). «Методы и стратегии курирования структуры генов в WormBase» . База данных . 2011 : baq039. дои : 10.1093/база данных/baq039 . ПМК   3092607 . ПМИД   21543339 .
  3. ^ Jump up to: Перейти обратно: а б «Период закрытия WormMart: будет прекращен с 1 января 2016 г.» . Блог . Червячная база. 13 ноября 2015 г.
  4. ^ «ЧервьМарт» . Интеллектуальный анализ данных . Червячная база.
  5. ^ «Червячная мина» . Интеллектуальный анализ данных . Червячная база.
  6. ^ «Преобразование координат между релизами» . Проверено 21 сентября 2023 г.
  7. ^ «Номенклатура генов WormBase» . Червячная база .
  8. ^ «Форма подачи предложения по названию гена/названию класса генов» . Проверено 21 сентября 2023 г.
  9. ^ «Вормбаза ПараСайт» . Проверено 21 сентября 2023 г.
  10. ^ «WormBaseWiki:Авторские права — WormBaseWiki» . www.wormbase.org . Архивировано из оригинала 27 сентября 2006 года.

Внешние ссылки [ править ]

См. также [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 790667a15cccbca0f2aae0fb8b247092__1718578260
URL1:https://arc.ask3.ru/arc/aa/79/92/790667a15cccbca0f2aae0fb8b247092.html
Заголовок, (Title) документа по адресу, URL1:
WormBase - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)