Jump to content

RefSeq

Refseq
Содержание
Описание курируемая неизбыточная база данных последовательностей геномов.
Контакт
Исследовательский центр Национальный центр биотехнологической информации
Первичное цитирование Прюитт К.Д. и др. (2005) [1]
Доступ
Веб-сайт https://www.ncbi.nlm.nih.gov/RefSeq

эталонных последовательностей ( RefSeq ) База данных [1] представляет собой продуктов с открытым доступом аннотированную и курируемую коллекцию общедоступных нуклеотидных последовательностей ( ДНК , РНК ) и их белковых . RefSeq был представлен в 2000 году. [2] [3] Эта база данных создана Национальным центром биотехнологической информации (NCBI) и, в отличие от GenBank , предоставляет только одну запись для каждой природной биологической молекулы (т.е. ДНК, РНК или белка) для основных организмов, начиная от вирусов и бактерий и заканчивая эукариотами .

Для каждого модельного организма RefSeq стремится предоставить отдельные и связанные записи геномной ДНК, транскриптов генов и белков, возникающих из этих транскриптов. RefSeq ограничивается основными организмами, по которым имеется достаточно данных (121 461 отдельный «названный» организм по состоянию на июль 2022 г.). [4] в то время как GenBank включает последовательности для любого представленного организма (примерно 504 000 официально описанных видов ). [5]

Категории RefSeq

[ редактировать ]

Коллекция RefSeq включает в себя разные типы данных разного происхождения, поэтому необходимо установить стандартные категории и идентификаторы для хранения каждого типа данных. Наиболее важными категориями являются:

Категории доступа RefSeq и типы молекул
Категория Описание
Северная Каролина Полные геномные молекулы
из Неполный геномный регион
Нью-Мексико мРНК
Нет. нкРНК
НАПРИМЕР Белок
ХМ предсказанная мРНК модель
XR предсказанная нкРНК модель
XP предсказанная белковая модель (эукариотические последовательности)
WP предсказанная белковая модель (прокариотические последовательности)

Более подробную информацию и дополнительные категории см. в таблице 1 в главе 18 книги «База данных ссылочных последовательностей (RefSeq)» .

Проекты RefSeq

[ редактировать ]

Несколько проектов по улучшению услуг RefSeq в настоящее время разрабатываются NCBI, часто в сотрудничестве с исследовательскими центрами, такими как EMBL-EBI:

  • Consensus CDS (CCDS): Этот проект направлен на выявление основного набора областей, кодирующих белки человека и мыши , и стандартизацию наборов генов с высокими и постоянными уровнями качества геномных аннотаций. Этот проект был анонсирован в 2009 году и все еще находится в разработке. [6] [7]
  • Функциональные элементы RefSeq (RefSeqFE): он сосредоточен на описании негенных функциональных элементов, которые являются регуляторными областями генов, такими как: энхансеры , сайленсеры , гиперчувствительные области ДНКазы I , точки начала репликации ДНК и т. д.). Текущие рамки этого проекта ограничены геномами человека и мыши. [8]
  • RefSeqGene: Его основная цель — определить геномные последовательности, которые будут использоваться в качестве эталонных стандартов для хорошо охарактеризованных генов. Ранее описанные последовательности мРНК , белков и хромосом имеют недостатки, заключающиеся в том, что они не обеспечивают явных геномных координат фланкирующих генов и интронных областей, а также демонстрируют неуклюже большие координаты, которые изменяются с каждой новой сборкой генома. Проект RefSeqGene призван устранить эти ошибки. [9]
  • Целевые локусы: в этом проекте регистрируются молекулярные маркеры, особенно локусы, кодирующие белки, и локусы рибосомальной РНК , которые используются для филогенетического анализа и анализа штрих-кодирования . В объем этого проекта входят последовательности организмов Archaea , Bacteria и Fungi , доступные через Entrez и BLAST запросы . Он также включает GenBank последовательности для животных , растений и протистов , доступные через запросы BLAST. [10]
  • Вариация вируса (ViV): это специальный ресурс конвейеров обработки данных последовательностей и инструментов анализа для отображения и извлечения последовательностей нескольких вирусных групп, таких как вирус гриппа , эболавирус , коронавирус MERS или вирус Зика . Регулярно добавляются новые вирусы, конвейеры обработки, инструменты и другие функции. [11]
  • RefSeq Select: Этот проект направлен на отбор наборов данных транскриптов RefSeq Select , как наиболее репрезентативных для каждого гена, кодирующего белок, на основе множества критериев: предшествующее использование в клинических базах данных, экспрессия транскриптов, эволюционная консервативность кодирующей области и т. д. Поскольку многие гены представлены множеством транскриптов/белков RefSeq из-за биологического процесса альтернативного сплайсинга , эта сложность проблематична для таких исследований, как сравнительная геномика или обмен данными о клинических вариантах. [12]
  • MANE ( соответствующая аннотация из N в CBI и E MBL-EBI): это совместный проект NCBI и EMBL - EBI , основная цель которого — определить набор транскриптов и их белков для всех генов, кодирующих белки, геном человека. Благодаря этому различия в аннотации транскриптов между системами аннотаций RefSeq и Ensembl / GENCODE уменьшаются. Набор транскриптов MANE Select создан в качестве полезного универсального стандарта для клинических отчетов и сравнительной или эволюционной геномики. второй клинический набор MANE Plus Также создается с дополнительными транскриптами для сообщения обо всех патогенных (P) или вероятно патогенных (LP) клинических вариантах, доступных в общедоступных ресурсах. [13] Этот проект был анонсирован в 2018 году и, как ожидается, завершится в 2022 году.

Статистика

[ редактировать ]

Согласно выпуску RefSeq 213 (июль 2022 г.), количество видов, представленных в базе данных путем подсчета различных таксономических идентификаторов, следующее: [4]

Таксономический идентификатор Разновидность
Архея 1443
Бактерии 69122
Грибы 16869
Беспозвоночное 5715
Митохондрия 13648
Растение 9177
Плазмида 6073
Пластид 9430
Простейшие 746
Позвоночное животное ( млекопитающее ) 1509
Популярный 11620
Позвоночные (другие) 5237
Другой 4
Полный 121461

Количество присоединений и пар оснований на тип молекулы: [4]

Тип молекулы Образцы Пары оснований/остатки
Геномика 40,758,769 2.923212393984 × 10 ^ 12
РНК 45,781,716 1.22253022047 × 10 ^ 11
Белок 234,520,053 9.129062394 × 10 ^ 10

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Прюитт К.Д. , Татусова Т., Маглотт Д.Р. (январь 2005 г.). «Эталонная последовательность NCBI (RefSeq): курируемая база данных неизбыточных последовательностей геномов, транскриптов и белков» . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D501–D504. дои : 10.1093/nar/gki025 . ПМК   539979 . ПМИД   15608248 .
  2. ^ Маглотт Д.Р. , Кац К.С., Сикотт Х., Прюитт К.Д. (январь 2000 г.). «LocusLink и RefSeq NCBI» . Исследования нуклеиновых кислот . 28 (1): 126–128. дои : 10.1093/нар/28.1.126 . ПМЦ   102393 . ПМИД   10592200 .
  3. ^ Прюитт К.Д., Кац К.С., Сикотт Х., Маглотт Д.Р. (январь 2000 г.). «Представляем RefSeq и LocusLink: курируемые ресурсы генома человека в NCBI». Тенденции в генетике . 16 (1): 44–47. дои : 10.1016/s0168-9525(99)01882-x . ПМИД   10637631 .
  4. ^ Перейти обратно: а б с Статистика RefSeq Release 213 (отчет). Национальная медицинская библиотека . 11 июля 2022 г. Проверено 20 июля 2022 г.
  5. ^ Сэйерс Э.В., Кавано М., Кларк К., Прюитт К.Д., Шох К.Л., Шерри С.Т., Карш-Мизрачи I (январь 2022 г.). «ГенБанк» . Исследования нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ   8690257 . ПМИД   34850943 .
  6. ^ Прюитт К.Д., Харроу Дж., Харт Р.А., Валлин С., Дикханс М., Маглотт Д.Р. и др. (июль 2009 г.). «Проект консенсусной кодирующей последовательности (CCDS): идентификация общего набора генов, кодирующих белки для геномов человека и мыши» . Геномные исследования . 19 (7): 1316–1323. дои : 10.1101/гр.080531.108 . ПМК   2704439 . ПМИД   19498102 .
  7. ^ Пухар С., О'Лири Н.А., Фаррелл С.М., Лавленд Дж.Э., Мадж Дж.М., Валлин С. и др. (январь 2018 г.). «База данных консенсусных кодирующих последовательностей (CCDS): стандартизированный набор областей, кодирующих белки человека и мыши, поддерживаемый экспертным контролем» . Исследования нуклеиновых кислот . 46 (Д1): Д221–Д228. дои : 10.1093/нар/gkx1031 . ПМЦ   5753299 . ПМИД   29126148 .
  8. ^ Фаррелл С.М., Гольдфарб Т., Рангвала С.Х., Асташин А., Ермолаева О.Д., Хем В. и др. (январь 2022 г.). «Функциональные элементы RefSeq как экспериментально исследованные негенные эталонные стандарты и функциональные взаимодействия у человека и мыши» . Геномные исследования . 32 (1): 175–188. дои : 10.1101/гр.275819.121 . ПМЦ   8744684 . ПМИД   34876495 .
  9. ^ Галли М.Л., Бразил Р.М., Холлинг К.К., Хси Э.Д., Кант Дж.А., Никифорова М.Н. и др. (июнь 2007 г.). «Клинические лабораторные отчеты по молекулярной патологии». Архивы патологии и лабораторной медицины . 131 (6): 852–863. дои : 10.5858/2007-131-852-CLRIMP . ПМИД   17550311 .
  10. ^ «Проект целевых локусов NCBI RefSeq» . www.ncbi.nlm.nih.gov . Проверено 27 июля 2022 г.
  11. ^ Хэтчер Е.Л., Жданов С.А., Бао Ю., Блинкова О., Навроцкий Е.П., Остапчук Ю. и др. (январь 2017 г.). «Ресурс по вариациям вирусов — улучшенное реагирование на возникающие вирусные вспышки» . Исследования нуклеиновых кислот . 45 (Д1): Д482–Д490. дои : 10.1093/nar/gkw1065 . ПМК   5210549 . ПМИД   27899678 .
  12. ^ «Выбор RefSeq NCBI» . www.ncbi.nlm.nih.gov . Проверено 27 июля 2022 г.
  13. ^ Моралес Дж., Пухар С., Лавленд Дж.Э., Асташин А., Беннетт Р., Берри А. и др. (апрель 2022 г.). «Совместный набор транскриптов NCBI и EMBL-EBI для клинической геномики и исследований» . Природа . 604 (7905): 310–315. дои : 10.1038/s41586-022-04558-8 . ПМЦ   9007741 . ПМИД   35388217 .

Источники

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 91c3df45fb357713e5cf560c5f13032b__1705224960
URL1:https://arc.ask3.ru/arc/aa/91/2b/91c3df45fb357713e5cf560c5f13032b.html
Заголовок, (Title) документа по адресу, URL1:
RefSeq - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)