Jump to content

ЮниДжин

ЮниДжин
Содержание
Описание транскриптом
Контакт
Исследовательский центр NCBI
Доступ
Веб-сайт https://www.ncbi.nlm.nih.gov/unigene

UniGene представляла собой и базу данных транскриптомов NCBI , следовательно, несмотря на название, не была в первую очередь базой данных по генам . Каждая запись представляет собой набор транскриптов , которые, по-видимому, происходят из одного и того же локуса транскрипции (т.е. гена или экспрессируемого псевдогена ). Информация о белков сходстве кДНК , экспрессии генов, клонах и геномном расположении включена в каждую запись.

Доступны описания процедур сборки на основе транскриптов и геномов UniGene.

Подробное описание базы данных UniGene

[ редактировать ]

Ресурс UniGene, разработанный в NCBI , объединяет EST и другие последовательности мРНК , а также кодирующие последовательности (CDS), аннотированные на геномной ДНК, в подмножества родственных последовательностей. В большинстве случаев каждый кластер состоит из последовательностей, продуцируемых одним геном, включая альтернативно сплайсированные транскрипты. Однако некоторые гены могут быть представлены более чем одним кластером. Кластеры специфичны для конкретного организма и в настоящее время доступны для человека , мышей , крыс , рыбок данио и крупного рогатого скота . Они строятся в несколько этапов с использованием автоматического процесса, основанного на специальных алгоритмах сравнения последовательностей . Сначала нуклеотидные последовательности ищутся на наличие примесей, таких как митохондриальные , рибосомальные и векторные последовательности, повторяющиеся элементы и последовательности низкой сложности. После проверки последовательности она должна содержать не менее 100 оснований, чтобы быть кандидатом на включение в UniGene. мРНК и геномная ДНК сначала группируются в генные связи. Второе сравнение последовательностей связывает EST друг с другом и со связями генов. На этом этапе все кластеры «заякорены» и содержат либо последовательность с сайтом полиаденилирования, либо два EST, помеченные как происходящие с 3-го конца клона. Ребра на основе клонов добавляются путем связывания 5 и 3 EST, которые происходят от одного и того же клона. В некоторых случаях такое связывание может объединить кластеры, выявленные на предыдущем этапе. Наконец, незакрепленные EST и кластеры генов размером 1 (которые могут представлять собой редкие транскрипты) сравниваются с другими кластерами UniGene с более низкой строгостью. Сборка UniGene обновляется еженедельно, и последовательности, составляющие кластер, могут меняться. Таким образом, небезопасно ссылаться на кластер UniGene по его идентификатору кластера; вместо этого следует использовать Номера доступа GenBank последовательностей в кластере.

По состоянию на июль 2000 г. человеческое подмножество UniGene содержало 1,7 миллиона последовательностей в 82 000 кластеров; 98% этих кластерных последовательностей были EST, а оставшиеся 2% были мРНК или CDS, аннотированными на геномной ДНК. Эти человеческие кластеры могут представлять собой фрагменты до 82 000 уникальных человеческих генов, а это означает, что многие человеческие гены теперь представлены в кластере UniGene. (Это число, несомненно, является завышенной оценкой числа генов в геноме человека, поскольку некоторые гены могут быть представлены более чем одним кластером.) Только 1,4% кластеров полностью лишены EST, а это означает, что большинство генов человека представлены хотя бы одним кластером. СТАНДАРТНОЕ ВОСТОЧНОЕ ВРЕМЯ. И наоборот, похоже, что большинство человеческих генов были идентифицированы только с помощью EST; только 16% кластеров содержат либо мРНК, либо CDS, аннотированные на геномной ДНК. Поскольку для мышей, крыс и рыбок данио доступно меньше EST, кластеры UniGene не являются репрезентативными для уникальных генов в геноме. Мышиный UniGene содержит 895 000 последовательностей в 88 000 кластеров, а крысиный UniGene содержит 170 000 последовательностей в 37 000 кластеров.

Новый ресурс UniGene, HomoloGene, включает тщательно подобранные и рассчитанные ортологи и гомологи генов человека, мыши, крысы и рыбки данио. Рассчитанные ортологи и гомологи являются результатом сравнения нуклеотидных последовательностей между всеми кластерами UniGene для каждой пары организмов. Гомологи идентифицируются как лучшее совпадение между кластером UniGene в одном организме и кластером во втором организме. Когда две последовательности в разных организмах лучше всего совпадают друг с другом (взаимное лучшее совпадение), кластеры UniGene, соответствующие паре последовательностей, считаются предполагаемыми ортологами. Специальный символ указывает на то, что кластеры UniGene в трех или более организмах имеют взаимно согласованные отношения ортологов. Рассчитанные ортологи и гомологи считаются предполагаемыми, поскольку они основаны только на сравнении последовательностей. Кураторские ортологи предоставляются Базой данных генома мыши (MGD) в Лаборатории Джексона и Информационной базой данных рыб данио (ZFIN) в Университете Орегона, а также могут быть получены из научной литературы. Запросы к UniGene вводятся в текстовое поле на любой из страниц UniGene. Терминами запроса могут быть, например, идентификатор UniGene, имя гена, текстовый термин, который находится где-то в записи UniGene, или номер доступа EST или последовательности генов в кластере. Например, кластер под названием «Домен 10 дезинтегрина и металлопротеазы», ​​который содержит последовательность человеческого ADAM10, можно получить, введя ADAM10, дезинтегрин, AF009615 (инвентарный номер ADAM10 в GenBank) или H69859 (инвентарный номер GenBank EST в кластере). Чтобы запросить определенную часть записи UniGene, используйте символ @. Например, @gene(symbol) ищет гены, имя символа которых заключено в круглые скобки, @chr(num) ищет записи, соответствующие номеру хромосомы, @lib(id) возвращает записи в библиотеке кДНК, идентифицированные по идентификатору. , а @pid(id) выбирает записи, связанные с идентификатором идентификатора белка GenBank.

Страница результатов запроса содержит список всех кластеров UniGene, соответствующих запросу. Каждый кластер идентифицируется идентификатором, описанием и символом гена, если таковой имеется. Идентификаторы кластеров имеют префикс Hs для Homo sapiens, Rn для Rattus norvegicus, Mm для Mus musculus или Dn для Danio rerio. Описания кластеров UniGene взяты из LocusLink, если таковой имеется, или из названия последовательности в кластере. Страница отчета UniGene для каждого кластера связана с данными других ресурсов NCBI (рис. 12.5). Вверху страницы находятся ссылки на LocusLink, который предоставляет описательную информацию о генетических локусах (Pruitt et al., 2000), OMIM, каталог человеческих генов и генетических нарушений, и HomoloGene. Далее перечислены сходства между трансляциями последовательностей ДНК в кластере и последовательностями белков модельных организмов, включая человека, мышь, крысу, плодовую мушку и червя. В следующем разделе описывается соответствующая картографическая информация. За ним следует «информация об экспрессии», в которой перечислены ткани, из которых были созданы EST в кластере, а также ссылки на базу данных SAGE. Далее перечислены последовательности, составляющие кластер, вместе со ссылкой для загрузки этих последовательностей.

Важно отметить, что в кластерах, содержащих только EST (т. е. без мРНК или аннотированных CDS), будут отсутствовать некоторые из этих полей, такие как LocusLink, OMIM и связи мРНК/ген. Названия UniGene для таких кластеров, такие как EST, слабо похожие на ORF2, содержат домен обратной транскриптазы [H. sapiens],'' происходят от названия охарактеризованного белка, с которым совпадает транслируемая последовательность EST. Название кластера может быть таким же простым, как «EST», если EST не имеют существенного сходства с охарактеризованными белками. [1]

Выход на пенсию UniGene

[ редактировать ]

1 февраля 2019 года NCBI объявило о прекращении использования базы данных UniGene, поскольку «эталонные геномы доступны для большинства организмов с большим исследовательским сообществом. Следовательно, использование и потребность в UniGene значительно снизились». [2] Доступ к сборкам UniGene останется доступным через FTP.

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Андреас Д. Баксеванис и Б.Ф. Фрэнсис Уэллет | БИОИНФОРМАТИКА Практическое руководство по анализу генов и белков (2-е издание 2001 г.) || JOHN WILEY & SONS, INC.| ISBN   0-471-38391-0 | ISBN   978-0-471-38391-8 |
  2. ^ «NCBI откажется от UniGene» . февраль 2019 года . Проверено 12 февраля 2019 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9518fe614d9f55c86fb20634f3545d30__1662911280
URL1:https://arc.ask3.ru/arc/aa/95/30/9518fe614d9f55c86fb20634f3545d30.html
Заголовок, (Title) документа по адресу, URL1:
UniGene - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)