RefSeq
Содержание | |
---|---|
Описание | курируемая неизбыточная база данных последовательностей геномов. |
Контакт | |
Исследовательский центр | Национальный центр биотехнологической информации |
Первичное цитирование | Прюитт К.Д. и др. (2005) [1] |
Доступ | |
Веб-сайт | https://www.ncbi.nlm.nih.gov/RefSeq |
эталонных последовательностей ( RefSeq ) База данных [1] представляет собой продуктов с открытым доступом аннотированную и курируемую коллекцию общедоступных нуклеотидных последовательностей ( ДНК , РНК ) и их белковых . RefSeq был представлен в 2000 году. [2] [3] Эта база данных создана Национальным центром биотехнологической информации (NCBI) и, в отличие от GenBank , предоставляет только одну запись для каждой природной биологической молекулы (т.е. ДНК, РНК или белка) для основных организмов, начиная от вирусов и бактерий и заканчивая эукариотами .
Для каждого модельного организма RefSeq стремится предоставить отдельные и связанные записи геномной ДНК, транскриптов генов и белков, возникающих из этих транскриптов. RefSeq ограничивается основными организмами, по которым имеется достаточно данных (121 461 отдельный «названный» организм по состоянию на июль 2022 г.). [4] в то время как GenBank включает последовательности для любого представленного организма (примерно 504 000 официально описанных видов ). [5]
Категории RefSeq
[ редактировать ]Коллекция RefSeq включает в себя разные типы данных разного происхождения, поэтому необходимо установить стандартные категории и идентификаторы для хранения каждого типа данных. Наиболее важными категориями являются:
Категория | Описание |
---|---|
Северная Каролина | Полные геномные молекулы |
из | Неполный геномный регион |
Нью-Мексико | мРНК |
Нет. | нкРНК |
НАПРИМЕР | Белок |
ХМ | предсказанная мРНК модель |
XR | предсказанная нкРНК модель |
XP | предсказанная белковая модель (эукариотические последовательности) |
WP | предсказанная белковая модель (прокариотические последовательности) |
Более подробную информацию и дополнительные категории см. в таблице 1 в главе 18 книги «База данных ссылочных последовательностей (RefSeq)» .
Проекты RefSeq
[ редактировать ]Несколько проектов по улучшению услуг RefSeq в настоящее время разрабатываются NCBI, часто в сотрудничестве с исследовательскими центрами, такими как EMBL-EBI:
- Consensus CDS (CCDS): Этот проект направлен на выявление основного набора областей, кодирующих белки человека и мыши , и стандартизацию наборов генов с высокими и постоянными уровнями качества геномных аннотаций. Этот проект был анонсирован в 2009 году и все еще находится в разработке. [6] [7]
- Функциональные элементы RefSeq (RefSeqFE): он сосредоточен на описании негенных функциональных элементов, которые являются регуляторными областями генов, такими как: энхансеры , сайленсеры , гиперчувствительные области ДНКазы I , точки начала репликации ДНК и т. д.). Текущие рамки этого проекта ограничены геномами человека и мыши. [8]
- RefSeqGene: Его основная цель — определить геномные последовательности, которые будут использоваться в качестве эталонных стандартов для хорошо охарактеризованных генов. Ранее описанные последовательности мРНК , белков и хромосом имеют недостатки, заключающиеся в том, что они не обеспечивают явных геномных координат фланкирующих генов и интронных областей, а также демонстрируют неуклюже большие координаты, которые изменяются с каждой новой сборкой генома. Проект RefSeqGene призван устранить эти ошибки. [9]
- Целевые локусы: в этом проекте регистрируются молекулярные маркеры, особенно локусы, кодирующие белки, и локусы рибосомальной РНК , которые используются для филогенетического анализа и анализа штрих-кодирования . В объем этого проекта входят последовательности организмов Archaea , Bacteria и Fungi , доступные через Entrez и BLAST запросы . Он также включает GenBank последовательности для животных , растений и протистов , доступные через запросы BLAST. [10]
- Вариация вируса (ViV): это специальный ресурс конвейеров обработки данных последовательностей и инструментов анализа для отображения и извлечения последовательностей нескольких вирусных групп, таких как вирус гриппа , эболавирус , коронавирус MERS или вирус Зика . Регулярно добавляются новые вирусы, конвейеры обработки, инструменты и другие функции. [11]
- RefSeq Select: Этот проект направлен на отбор наборов данных транскриптов RefSeq Select , как наиболее репрезентативных для каждого гена, кодирующего белок, на основе множества критериев: предшествующее использование в клинических базах данных, экспрессия транскриптов, эволюционная консервативность кодирующей области и т. д. Поскольку многие гены представлены множеством транскриптов/белков RefSeq из-за биологического процесса альтернативного сплайсинга , эта сложность проблематична для таких исследований, как сравнительная геномика или обмен данными о клинических вариантах. [12]
- MANE ( соответствующая аннотация из N в CBI и E MBL-EBI): это совместный проект NCBI и EMBL - EBI , основная цель которого — определить набор транскриптов и их белков для всех генов, кодирующих белки, геном человека. Благодаря этому различия в аннотации транскриптов между системами аннотаций RefSeq и Ensembl / GENCODE уменьшаются. Набор транскриптов MANE Select создан в качестве полезного универсального стандарта для клинических отчетов и сравнительной или эволюционной геномики. второй клинический набор MANE Plus Также создается с дополнительными транскриптами для сообщения обо всех патогенных (P) или вероятно патогенных (LP) клинических вариантах, доступных в общедоступных ресурсах. [13] Этот проект был анонсирован в 2018 году и, как ожидается, завершится в 2022 году.
Статистика
[ редактировать ]Согласно выпуску RefSeq 213 (июль 2022 г.), количество видов, представленных в базе данных путем подсчета различных таксономических идентификаторов, следующее: [4]
Таксономический идентификатор | Разновидность |
---|---|
Архея | 1443 |
Бактерии | 69122 |
Грибы | 16869 |
Беспозвоночное | 5715 |
Митохондрия | 13648 |
Растение | 9177 |
Плазмида | 6073 |
Пластид | 9430 |
Простейшие | 746 |
Позвоночное животное ( млекопитающее ) | 1509 |
Популярный | 11620 |
Позвоночные (другие) | 5237 |
Другой | 4 |
Полный | 121461 |
Количество присоединений и пар оснований на тип молекулы: [4]
Тип молекулы | Образцы | Пары оснований/остатки |
---|---|---|
Геномика | 40,758,769 | 2.923212393984 × 10 12 |
РНК | 45,781,716 | 1.22253022047 × 10 11 |
Белок | 234,520,053 | 9.129062394 × 10 10 |
См. также
[ редактировать ]- ГенБанк
- Анализ последовательности
- Инструмент профилирования последовательностей
- Мотив последовательности
- ЮниПрот
- Список секвенированных геномов эукариот
- Список секвенированных геномов архей
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Прюитт К.Д. , Татусова Т., Маглотт Д.Р. (январь 2005 г.). «Эталонная последовательность NCBI (RefSeq): курируемая база данных неизбыточных последовательностей геномов, транскриптов и белков» . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D501–D504. дои : 10.1093/nar/gki025 . ПМК 539979 . ПМИД 15608248 .
- ^ Маглотт Д.Р. , Кац К.С., Сикотт Х., Прюитт К.Д. (январь 2000 г.). «LocusLink и RefSeq NCBI» . Исследования нуклеиновых кислот . 28 (1): 126–128. дои : 10.1093/нар/28.1.126 . ПМЦ 102393 . ПМИД 10592200 .
- ^ Прюитт К.Д., Кац К.С., Сикотт Х., Маглотт Д.Р. (январь 2000 г.). «Представляем RefSeq и LocusLink: курируемые ресурсы генома человека в NCBI». Тенденции в генетике . 16 (1): 44–47. дои : 10.1016/s0168-9525(99)01882-x . ПМИД 10637631 .
- ^ Перейти обратно: а б с Статистика RefSeq Release 213 (отчет). Национальная медицинская библиотека . 11 июля 2022 г. Проверено 20 июля 2022 г.
- ^ Сэйерс Э.В., Кавано М., Кларк К., Прюитт К.Д., Шох К.Л., Шерри С.Т., Карш-Мизрачи I (январь 2022 г.). «ГенБанк» . Исследования нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ 8690257 . ПМИД 34850943 .
- ^ Прюитт К.Д., Харроу Дж., Харт Р.А., Валлин С., Дикханс М., Маглотт Д.Р. и др. (июль 2009 г.). «Проект консенсусной кодирующей последовательности (CCDS): идентификация общего набора генов, кодирующих белки для геномов человека и мыши» . Геномные исследования . 19 (7): 1316–1323. дои : 10.1101/гр.080531.108 . ПМК 2704439 . ПМИД 19498102 .
- ^ Пухар С., О'Лири Н.А., Фаррелл С.М., Лавленд Дж.Э., Мадж Дж.М., Валлин С. и др. (январь 2018 г.). «База данных консенсусных кодирующих последовательностей (CCDS): стандартизированный набор областей, кодирующих белки человека и мыши, поддерживаемый экспертным контролем» . Исследования нуклеиновых кислот . 46 (Д1): Д221–Д228. дои : 10.1093/нар/gkx1031 . ПМЦ 5753299 . ПМИД 29126148 .
- ^ Фаррелл С.М., Гольдфарб Т., Рангвала С.Х., Асташин А., Ермолаева О.Д., Хем В. и др. (январь 2022 г.). «Функциональные элементы RefSeq как экспериментально исследованные негенные эталонные стандарты и функциональные взаимодействия у человека и мыши» . Геномные исследования . 32 (1): 175–188. дои : 10.1101/гр.275819.121 . ПМЦ 8744684 . ПМИД 34876495 .
- ^ Галли М.Л., Бразил Р.М., Холлинг К.К., Хси Э.Д., Кант Дж.А., Никифорова М.Н. и др. (июнь 2007 г.). «Клинические лабораторные отчеты по молекулярной патологии». Архивы патологии и лабораторной медицины . 131 (6): 852–863. дои : 10.5858/2007-131-852-CLRIMP . ПМИД 17550311 .
- ^ «Проект целевых локусов NCBI RefSeq» . www.ncbi.nlm.nih.gov . Проверено 27 июля 2022 г.
- ^ Хэтчер Е.Л., Жданов С.А., Бао Ю., Блинкова О., Навроцкий Е.П., Остапчук Ю. и др. (январь 2017 г.). «Ресурс по вариациям вирусов — улучшенное реагирование на возникающие вирусные вспышки» . Исследования нуклеиновых кислот . 45 (Д1): Д482–Д490. дои : 10.1093/nar/gkw1065 . ПМК 5210549 . ПМИД 27899678 .
- ^ «Выбор RefSeq NCBI» . www.ncbi.nlm.nih.gov . Проверено 27 июля 2022 г.
- ^ Моралес Дж., Пухар С., Лавленд Дж.Э., Асташин А., Беннетт Р., Берри А. и др. (апрель 2022 г.). «Совместный набор транскриптов NCBI и EMBL-EBI для клинической геномики и исследований» . Природа . 604 (7905): 310–315. дои : 10.1038/s41586-022-04558-8 . ПМЦ 9007741 . ПМИД 35388217 .
Источники
[ редактировать ]- В этой статье использованы общедоступные материалы из Справочник НЦБИ . Национальный центр биотехнологической информации .