Jump to content

ГенБанк

(Перенаправлено с Генбанка )
ГенБанк
Содержание
Описание Нуклеотидные последовательности более чем 300 000 организмов с подтверждающей библиографической и биологической аннотацией.
Типы данных
захвачен
  • Нуклеотидная последовательность
  • Белковая последовательность
Организмы Все
Контакт
Исследовательский центр NCBI
Первичное цитирование ПМИД   21071399
Дата выпуска 1982 год ; 42 года назад ( 1982 )
Доступ
Формат данных
Веб-сайт NCBI
URL-адрес загрузки NCBI FTP
веб-службы URL-адрес
Инструменты
Интернет ВЗРЫВ
Автономный ВЗРЫВ
Разнообразный
Лицензия Неясно [1]

База GenBank данных последовательностей представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их белковых трансляций. Он производится и поддерживается Национальным центром биотехнологической информации ; часть Национальных институтов здравоохранения США ( NCBI ) в рамках Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получат последовательности, полученные в лабораториях по всему миру более чем 500 000 официально описанных видов . [2] База данных была создана в 1982 году Уолтером Гоудом и Национальной лабораторией Лос-Аламоса . GenBank стал важной базой данных для исследований в области биологии и в последние годы рос в геометрической прогрессии , удваиваясь примерно каждые 18 месяцев. [3] [4]

Версия 250.0, опубликованная в июне 2022 года, содержала более 17 триллионов нуклеотидных оснований в более чем 2,45 миллиардах последовательностей. [5] GenBank создается за счет прямых заявок из отдельных лабораторий, а также за счет массовых заявок из крупных центров секвенирования .

Материалы

[ редактировать ]

В GenBank можно отправлять только оригинальные последовательности. Прямые заявки передаются в GenBank с помощью BankIt, веб-формы, или отдельной программы подачи Sequin. После получения представленной последовательности сотрудники GenBank проверяют оригинальность данных, присваивают инвентарный номер последовательности и выполняют проверки качества. Затем материалы передаются в общедоступную базу данных, где их можно получить с помощью Entrez или загрузить через FTP . Массовая подача данных экспрессированных тегов последовательностей (EST), сайтов с тегами последовательностей (STS), последовательностей геномных исследований (GSS) и высокопроизводительных геномных последовательностей (HTGS) чаще всего предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома. [6] [7]

Уолтер Гоуд из группы теоретической биологии и биофизики Лос-Аламосской национальной лаборатории (LANL) и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного GenBank. [8] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом , Министерством энергетики и Министерством обороны . LANL сотрудничала в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х годов биоинформатическая компания Intelligenetics в Стэнфордском университете управляла проектом GenBank в сотрудничестве с LANL. [9] Проект GenBank , один из первых проектов биоинформатического сообщества в Интернете, открыл BIOSCI новостные группы /Bionet для продвижения открытого доступа к общению среди ученых-биологов. В период с 1989 по 1992 год проект GenBank перешел в недавно созданный Национальный центр биотехнологической информации (NCBI) . [10]

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII.
CD-ROM Генбанка v100
Рост пар оснований GenBank с 1982 по 2018 год в полулогарифмическом масштабе.

GenBank В примечаниях к выпуску для версии 250.0 (июнь 2022 г.) говорится, что «с 1982 года по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [5] [11] По состоянию на 15 июня 2022 года версия GenBank 250.0 содержит более 239 миллионов локусов , 1,39 триллиона нуклеотидных оснований из 239 миллионов зарегистрированных последовательностей. [5]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из сбора данных основной последовательности и поэтому исключены из этого подсчета.

Топ-20 организмов в GenBank (выпуск 250) [5]
Организм пары оснований
Яровая пшеница 2.15443744183 × 10 ^ 11
SARS-CoV-2 1.65771825746 × 10 ^ 11
Bardeum vulgare subsp. вульгарный 1.01344340096 × 10 ^ 11
Мускулистые мышцы 3.0614386913 × 10 ^ 10
Мудрый человек 2.7834633853 × 10 ^ 10
Авена сатива 2.1127939362 × 10 ^ 10
кишечная палочка 1.5517830491 × 10 ^ 10
Клебсиелла пневмония 1.1144687122 × 10 ^ 10
Данио рерио 1.0890148966 × 10 ^ 10
Босс Телец 1.0650671156 × 10 ^ 10
Triticum turgidum subsp. жесткий 9.981529154 × 10 ^ 9
Зеа Мэйс 7.412263902 × 10 ^ 9
Авена островная 6.924307246 × 10 ^ 9
Ржаная крупа 6.749247504 × 10 ^ 9
Раттус норвегикус 6.548854408 × 10 ^ 9
Эгилопс – самый длинный 5.920483689 × 10 ^ 9
Знакомая волчья собака 5.776499164 × 10 ^ 9
Эгилопс шаронский 5.272476906 × 10 ^ 9
Свинья свинья 5.179074907 × 10 ^ 9
Ринатрема бивиттатум 5.178626132 × 10 ^ 9

Неполная идентификация

[ редактировать ]

В общедоступных базах данных, поиск в которых можно осуществлять с помощью инструмента базового локального поиска Национального центра биотехнологической информации (NCBI BLAST), отсутствуют рецензируемые последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество эталонных последовательностей.

Статья опубликована в Журнале клинической микробиологии. [12] оценил результаты секвенирования гена 16S рРНК, проанализированные с помощью GenBank в сочетании с другими свободно доступными общедоступными веб-базами данных с контролем качества, такими как EzTaxon -e [13] и БИБИ [14] базы данных. Результаты показали, что анализ, проведенный с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), был более дискриминационным, чем с использованием GenBank (каппа = 0,66) или других баз данных отдельно.

GenBank, будучи общедоступной базой данных, может содержать последовательности, ошибочно отнесенные к определенному виду, поскольку первоначальная идентификация организма была ошибочной. Недавняя статья, опубликованная в журнале «Геном», показала, что 75% последовательностей субъединицы I митохондриальной цитохром-с-оксидазы были ошибочно отнесены к рыбы Nemipterus мезоприону в результате продолжающегося использования последовательностей первоначально ошибочно идентифицированных особей. [15] Авторы дают рекомендации, как избежать дальнейшего распространения общедоступных последовательностей с некорректными научными названиями.

Многочисленные опубликованные рукописи выявили ошибочные последовательности в GenBank. [16] [17] [18] Это не только неправильное отнесение видов (которые могут иметь разные причины), но также включают химеры и записи об образцах с ошибками секвенирования. Недавняя рукопись о качестве всех цитохрома b записей птиц также показала, что в 45% выявленных ошибочных записей отсутствует ваучерный образец, который предотвращает повторную оценку идентификации вида. [19]

См. также

[ редактировать ]
  1. ^ На странице загрузки в UCSC говорится: « NCBI не накладывает никаких ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут претендовать на патенты , авторские права или другие права интеллектуальной собственности на все или часть отправленных ими данных. NCBI не в состоянии оценить обоснованность таких претензий и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank».
  2. ^ Эрик В. Сэйерс; Марк Кавано; Карен Кларк; Ким Д. Прюитт; Конрад Л. Шох; Стивен Т. Шерри; Илен Карш-Мизрачи (7 января 2022 г.). «ГенБанк» . Архив нуклеиновых кислот . 50 (Д1): Д161–Д164. дои : 10.1093/nar/gkab1135 . ПМЦ   8690257 . ПМИД   34850943 .
  3. ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Уилер, Д.Л.; и др. (2008). «ГенБанк» . Исследования нуклеиновых кислот . 36 (База данных): D25–D30. дои : 10.1093/нар/gkm929 . ПМК   2238942 . ПМИД   18073190 .
  4. ^ Бенсон Д; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW; и др. (2009). «ГенБанк» . Исследования нуклеиновых кислот . 37 (База данных): D26–D31. дои : 10.1093/нар/gkn723 . ПМК   2686462 . ПМИД   18940867 .
  5. ^ Jump up to: а б с д «Примечания к выпуску GenBank (выпуск 250)» . НКБИ. 15 июня 2022 г. Проверено 20 июля 2022 г.
  6. ^ «Как отправить данные в GenBank» . НКБИ . Проверено 20 июля 2022 г.
  7. ^ «Типы представления данных в Генбанк» . НКБИ . Проверено 20 июля 2022 г.
  8. ^ Хэнсон, Тодд (21 ноября 2000 г.). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
  9. ^ История LANL GenBank
  10. ^ Бентон Д. (1990). «Последние изменения в онлайн-сервисе GenBank» . Исследования нуклеиновых кислот . 18 (6): 1517–1520. дои : 10.1093/нар/18.6.1517 . ПМК   330520 . ПМИД   2326192 .
  11. ^ Бенсон, Д.А.; Кавано, М.; Кларк, К.; Карш-Мизрачи, И.; Липман, диджей; Остелл, Дж.; Сэйерс, EW (2012). «ГенБанк» . Исследования нуклеиновых кислот . 41 (Проблема с базой данных): D36–D42. дои : 10.1093/nar/gks1195 . ПМК   3531190 . ПМИД   23193287 .
  12. ^ Кён Сон Пак; Чанг-Сок Ки; Чхоль-Ин Кан; Яэ-Жан Ким; Ду Рён Чон; Кьонг Ран Пек; Сон Джэ Хун; Нам Ён Ли (май 2012 г.). «Оценка услуг GenBank, EzTaxon и BIBI по молекулярной идентификации изолятов клинических культур крови, которые были неидентифицированы или ошибочно идентифицированы обычными методами» . Дж. Клин. Микробиол . 50 (5): 1792–1795. дои : 10.1128/JCM.00081-12 . ПМЦ   3347139 . ПМИД   22403421 .
  13. ^ База данных EzTaxon-e eztaxon-e.ezbiocloud.net (по состоянию на 25 марта 2021 г.)
  14. ^ leBIBI V5 pbil.univ-lyon1.fr (по состоянию на 25 марта 2021 г.)
  15. ^ Огванг, Джоэл; Бариш, Мишель; Бос, Артур Р. (2021). «Генетическое разнообразие и филогенетические взаимоотношения тонкоперых лещей ( Nemipterus spp.) Красного моря и восточной части Средиземного моря» . Геном . 64 (3): 207–216. дои : 10.1139/gen-2019-0163 . ПМИД   32678985 .
  16. ^ ван ден Бург, Маттейс П.; Эррандо-Перес, Сальвадор; Виетес, Дэвид Р. (13 августа 2020 г.). «ACDC, глобальная база данных последовательностей цитохрома b амфибий с использованием воспроизводимого курирования записей GenBank» . Научные данные . 7 (1): 268. Бибкод : 2020НатСД...7..268В . дои : 10.1038/s41597-020-00598-9 . eISSN   2052-4463 . ПМЦ   7426930 . ПМИД   32792559 .
  17. ^ Ли, Сяобин; Шен, Сюэцзюань; Чен, Сяо; Сян, Дэн; Мерфи, Роберт В.; Шен, Юнъи (6 февраля 2018 г.). «Обнаружение потенциально проблемных последовательностей генов Cytb рыб в GenBank» . Границы генетики . 9:30 . дои : 10.3389/fgene.2018.00030 . eISSN   1664-8021 . ПМЦ   5808227 . ПМИД   29467794 .
  18. ^ Хеллер, Филип; Казалетто, Джеймс; Руис, Грегори; Геллер, Джонатан (7 августа 2018 г.). «База данных последовательностей генов субъединицы I цитохром с-оксидазы многоклеточных животных, полученная из GenBank с помощью CO-ARBitrator» . Научные данные . 5 (1). Бибкод : 2018NatSD...580156H . дои : 10.1038/sdata.2018.156 . eISSN   2052-4463 . ПМК   6080493 . ПМИД   30084847 .
  19. ^ Ван Ден Бург, Маттейс П.; Виетес, Дэвид Р. (22 сентября 2022 г.). «Генетические базы данных птиц нуждаются в улучшенном курировании и сообщении об ошибках в <scp>NCBI</scp>» . Ибис . дои : 10.1111/ibi.13143 . eISSN   1474-919X . hdl : 10261/282622 . ISSN   0019-1019 .


[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a38bacd22294632fd9b989f6bccb24ae__1715585940
URL1:https://arc.ask3.ru/arc/aa/a3/ae/a38bacd22294632fd9b989f6bccb24ae.html
Заголовок, (Title) документа по адресу, URL1:
GenBank - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)