ГенБанк
Эту статью необходимо обновить . Причина: недавняя версия 260.0. ( май 2024 г. ) |
Содержание | |
---|---|
Описание | Нуклеотидные последовательности более чем 300 000 организмов с подтверждающей библиографической и биологической аннотацией. |
Типы данных захвачен |
|
Организмы | Все |
Контакт | |
Исследовательский центр | NCBI |
Первичное цитирование | ПМИД 21071399 |
Дата выпуска | 1982 год |
Доступ | |
Формат данных | |
Веб-сайт | NCBI |
URL-адрес загрузки | NCBI FTP |
веб-службы URL-адрес | |
Инструменты | |
Интернет | ВЗРЫВ |
Автономный | ВЗРЫВ |
Разнообразный | |
Лицензия | Неясно [1] |
База GenBank данных последовательностей представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их белковых трансляций. Он производится и поддерживается Национальным центром биотехнологической информации ; часть Национальных институтов здравоохранения США ( NCBI ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).
GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру более чем 500 000 официально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Национальной лабораторией Лос-Аламоса . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос в геометрической прогрессии , удваиваясь примерно каждые 18 месяцев. [3] [4]
Версия 250.0, опубликованная в июне 2022 года, содержала более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиардах последовательностей. [5] GenBank создается за счет прямых заявок из отдельных лабораторий, а также за счет массовых заявок из крупных центров секвенирования .
Материалы
[ редактировать ]В GenBank можно отправлять только оригинальные последовательности. Прямые заявки передаются в GenBank с помощью BankIt, веб-формы, или отдельной программы подачи Sequin. После получения представленной последовательности сотрудники GenBank проверяют оригинальность данных, присваивают инвентарный номер последовательности и выполняют проверки качества. Затем материалы передаются в общедоступную базу данных, где их можно получить с помощью Entrez или загрузить через FTP . Массовая подача данных экспрессированных тегов последовательностей (EST), сайтов с тегами последовательностей (STS), последовательностей геномных исследований (GSS) и высокопроизводительных геномных последовательностей (HTGS) чаще всего предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома. [6] [7]
История
[ редактировать ]Уолтер Гоуд из группы теоретической биологии и биофизики Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного GenBank. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.
В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете управляла проектом GenBank в сотрудничестве с LANL. [9] Проект GenBank , один из первых проектов биоинформатического сообщества в Интернете, открыл BIOSCI новостные группы /Bionet для продвижения открытого доступа к общению среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]
Рост
[ редактировать ]GenBank В примечаниях к выпуску для версии 250.0 (июнь 2022 г.) говорится, что «с 1982 года по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 года версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]
База данных GenBank включает дополнительные наборы данных, которые создаются механически из сбора данных основной последовательности и поэтому исключены из этого подсчета.
Организм | пары оснований |
---|---|
Яровая пшеница | 2.15443744183 × 10 11 |
SARS-CoV-2 | 1.65771825746 × 10 11 |
Bardeum vulgare subsp. вульгарный | 1.01344340096 × 10 11 |
Мускулистые мышцы | 3.0614386913 × 10 10 |
Мудрый человек | 2.7834633853 × 10 10 |
Авена сатива | 2.1127939362 × 10 10 |
кишечная палочка | 1.5517830491 × 10 10 |
Клебсиелла пневмония | 1.1144687122 × 10 10 |
Данио рерио | 1.0890148966 × 10 10 |
Босс Телец | 1.0650671156 × 10 10 |
Triticum turgidum subsp. жесткий | 9.981529154 × 10 9 |
Зеа Мэйс | 7.412263902 × 10 9 |
Авена островная | 6.924307246 × 10 9 |
Ржаная крупа | 6.749247504 × 10 9 |
Раттус норвегикус | 6.548854408 × 10 9 |
Эгилопс – самый длинный | 5.920483689 × 10 9 |
Знакомая волчья собака | 5.776499164 × 10 9 |
Эгилопс шаронский | 5.272476906 × 10 9 |
Свинья свинья | 5.179074907 × 10 9 |
Ринатрема бивиттатум | 5.178626132 × 10 9 |
Неполная идентификация
[ редактировать ]В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента базового локального поиска Национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество эталонных последовательностей.
Статья опубликована в Журнале клинической микробиологии. [12] оценил результаты секвенирования гена 16S рРНК, проанализированные с помощью GenBank в сочетании с другими свободно доступными общедоступными веб-базами данных с контролем качества, такими как EzTaxon -e [13] и БИБИ [14] базы данных. Результаты показали, что анализ, проведенный с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), был более дискриминационным, чем с использованием GenBank (каппа = 0,66) или других баз данных отдельно.
GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была ошибочной. Недавняя статья, опубликованная в журнале «Геном», показала, что 75% последовательностей субъединицы I митохондриальной цитохром-с-оксидазы были ошибочно отнесены к рыбы Nemipterus мезоприону в результате продолжающегося использования последовательностей первоначально ошибочно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с некорректными научными названиями.
Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильное отнесение видов (которые могут иметь разные причины), но также включают химеры и записи об образцах с ошибками секвенирования. Недавняя рукопись о качестве всех цитохрома b записей птиц также показала, что в 45% выявленных ошибочных записей отсутствует ваучерный образец, который предотвращает повторную оценку идентификации вида. [19]
См. также
[ редактировать ]- Вместе
- Справочная база данных по белкам человека (HPRD)
- Анализ последовательности
- ЮниПрот
- Список секвенированных геномов эукариот
- Список секвенированных геномов архей
- RefSeq — база данных эталонных последовательностей
- Geneious — включает в себя инструмент отправки данных в GenBank.
- Открытые научные данные
- Открытый стандарт
Ссылки
[ редактировать ]- ^ На странице загрузки в UCSC говорится: « NCBI не накладывает никаких ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут претендовать на патенты , авторские права или другие права интеллектуальной собственности на все или часть отправленных ими данных. NCBI не в состоянии оценить обоснованность таких претензий и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank».
- ^ Эрик В. Сэйерс; Марк Кавано; Карен Кларк; Ким Д. Прюитт; Конрад Л. Шох; Стивен Т. Шерри; Илен Карш-Мизрачи (7 января 2022 г.). «ГенБанк» . Архив нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ 8690257 . ПМИД 34850943 .
- ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Уилер, Д.Л.; и др. (2008). «ГенБанк» . Исследования нуклеиновых кислот . 36 (База данных): D25–D30. дои : 10.1093/нар/gkm929 . ПМК 2238942 . ПМИД 18073190 .
- ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW; и др. (2009). «ГенБанк» . Исследования нуклеиновых кислот . 37 (База данных): D26–D31. дои : 10.1093/нар/gkn723 . ПМК 2686462 . ПМИД 18940867 .
- ^ Jump up to: а б с д «Примечания к выпуску GenBank (выпуск 250)» . НКБИ. 15 июня 2022 г. Проверено 20 июля 2022 г.
- ^ «Как отправить данные в GenBank» . НКБИ . Проверено 20 июля 2022 г.
- ^ «Типы представления данных в Генбанк» . НКБИ . Проверено 20 июля 2022 г.
- ^ Хэнсон, Тодд (21 ноября 2000 г.). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
- ^ История LANL GenBank
- ^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank» . Исследования нуклеиновых кислот . 18 (6): 1517–1520. дои : 10.1093/нар/18.6.1517 . ПМК 330520 . ПМИД 2326192 .
- ^ Бенсон, Д.А.; Кавано, М.; Кларк, К.; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW (2012). «ГенБанк» . Исследования нуклеиновых кислот . 41 (Проблема с базой данных): D36–D42. дои : 10.1093/nar/gks1195 . ПМК 3531190 . ПМИД 23193287 .
- ^ Кён Сон Пак; Чанг-Сок Ки; Чхоль-Ин Кан; Яэ-Жан Ким; Ду Рён Чон; Кьонг Ран Пек; Сон Джэ Хун; Нам Ён Ли (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI по молекулярной идентификации изолятов клинических культур крови, которые были неидентифицированы или ошибочно идентифицированы обычными методами» . Дж. Клин. Микробиол . 50 (5): 1792–1795. дои : 10.1128/JCM.00081-12 . ПМЦ 3347139 . ПМИД 22403421 .
- ^ База данных EzTaxon-e eztaxon-e.ezbiocloud.net (по состоянию на 25 марта 2021 г.)
- ^ leBIBI V5 pbil.univ-lyon1.fr (по состоянию на 25 марта 2021 г.)
- ^ Огванг, Джоэл; Бариш, Мишель; Бос, Артур Р. (2021). «Генетическое разнообразие и филогенетические взаимоотношения тонкоперых лещей ( Nemipterus spp.) Красного моря и восточной части Средиземного моря» . Геном . 64 (3): 207–216. дои : 10.1139/gen-2019-0163 . ПМИД 32678985 .
- ^ ван ден Бург, Маттейс П.; Эррандо-Перес, Сальвадор; Виетес, Дэвид Р. (13 августа 2020 г.). «ACDC, глобальная база данных последовательностей цитохрома b амфибий с использованием воспроизводимого курирования записей GenBank» . Научные данные . 7 (1): 268. Бибкод : 2020НатСД...7..268В . дои : 10.1038/s41597-020-00598-9 . eISSN 2052-4463 . ПМЦ 7426930 . ПМИД 32792559 .
- ^ Ли, Сяобин; Шен, Сюэцзюань; Чен, Сяо; Сян, Дэн; Мерфи, Роберт В.; Шен, Юнъи (6 февраля 2018 г.). «Обнаружение потенциально проблемных последовательностей генов Cytb рыб в GenBank» . Границы генетики . 9:30 . дои : 10.3389/fgene.2018.00030 . eISSN 1664-8021 . ПМЦ 5808227 . ПМИД 29467794 .
- ^ Хеллер, Филип; Казалетто, Джеймс; Руис, Грегори; Геллер, Джонатан (7 августа 2018 г.). «База данных последовательностей генов субъединицы I цитохром с-оксидазы многоклеточных животных, полученная из GenBank с помощью CO-ARBitrator» . Научные данные . 5 (1). Бибкод : 2018NatSD...580156H . дои : 10.1038/sdata.2018.156 . eISSN 2052-4463 . ПМК 6080493 . ПМИД 30084847 .
- ^ Ван Ден Бург, Маттейс П.; Виетес, Дэвид Р. (22 сентября 2022 г.). «Генетические базы данных птиц нуждаются в улучшенном курировании и сообщении об ошибках в <scp>NCBI</scp>» . Ибис . дои : 10.1111/ibi.13143 . eISSN 1474-919X . hdl : 10261/282622 . ISSN 0019-1019 .
- В этой статье использованы общедоступные материалы из Справочник НЦБИ . Национальный центр биотехнологической информации .
Внешние ссылки
[ редактировать ]- ГенБанк
- Пример записи последовательности для бета-гемоглобина
- BankIt
- Sequin — автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базу данных последовательностей GenBank.
- EMBOSS — бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии.
- GenBank, RefSeq, TPA и UniProt: что в названии?