Jump to content

Европейский архив нуклеотидов

Это хорошая статья. Нажмите здесь для получения дополнительной информации.

Европейский архив нуклеотидов (ENA)
Содержание
Описание Комплексный архив нуклеотидных последовательностей, аннотаций и связанных данных.
Типы данных
захвачен
Нуклеотидная последовательность , функциональная аннотация , прочтения секвенирования и информация о секвенаторе , сведения об образце , другие связанные записи.
Организмы Все
Контакт
Исследовательский центр Европейский институт биоинформатики
Лаборатория Группа ПАНДА
Первичное цитирование ПМИД   20972220
Дата выпуска апрель 1982 г.
Доступ
Формат данных XML
БЫСТРЫЙ
Формат ЭМБЛ-Банка
Веб-сайт Вот этот
URL-адрес загрузки ENA скачать
веб-службы URL-адрес ENA-браузер
Инструменты
Автономный набор инструментов CRAM
Разнообразный
Лицензия Неограниченный

Европейский архив нуклеотидов ( ENA ) представляет собой хранилище, обеспечивающее свободный и неограниченный доступ к аннотированным последовательностям ДНК и РНК . Он также хранит дополнительную информацию, такую ​​как экспериментальные процедуры, детали сборки последовательности и другие метаданные, связанные с проектами секвенирования . [1] Архив состоит из трех основных баз данных: архива чтения последовательностей , архива трассировок и базы данных нуклеотидных последовательностей EMBL (также известной как EMBL-банк). [2] ENA производится и поддерживается Европейским институтом биоинформатики и является членом Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC), а также Банка данных ДНК Японии и GenBank .

ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый международно-поддерживаемый ресурс данных о нуклеотидных последовательностях. [3] По состоянию на начало 2012 года базы данных ENA и других членов INSDC содержали полные геномы 5682 организмов и данные о последовательностях почти 700 000 организмов. [4] Более того, объем данных растет экспоненциально, причем время удвоения составляет примерно 10 месяцев. [5]

История [ править ]

Европейский архив нуклеотидов возник на основе отдельных баз данных, самой ранней из которых была Библиотека данных EMBL, созданная в октябре 1980 года в Европейской лаборатории молекулярной биологии (EMBL) в Гейдельберге . [3] Первый выпуск этой базы данных был выпущен в апреле 1982 года и содержал в общей сложности 568 отдельных записей, состоящих примерно из 500 000 пар оснований . [6] В 1984 году, ссылаясь на библиотеку данных EMBL, Нил и Кеннард заметили, что «несколько лет назад стало ясно, что большая компьютеризированная база данных последовательностей будет необходима для исследований в области молекулярной биологии». [6]

Данные о нуклеотидной последовательности в виде книги.

Несмотря на то, что в то время основным методом распространения была магнитная лента , к 1987 году Библиотеку данных EMBL использовали примерно 10 000 ученых по всему миру. [7] В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных через BITNET , EARN и ранний Интернет . [8] В мае 1988 года журнал Nucleic Acids Research ввел политику, гласящую, что «рукописи, представленные в [Nucleic Acids Research] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в Библиотеке данных EMBL». [9]

EBI в кампусе Wellcome Trust Genome в Хинкстоне , Великобритания , где находится Европейский архив нуклеотидов.

В 1990-х годах библиотека данных EMBL была переименована в базу данных нуклеотидных последовательностей EMBL. [10] и был официально переведен в Европейский институт биоинформатики (EBI) из Гейдельберга. [11] В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления Архива версий последовательностей (SVA), который хранит записи всех текущих и предыдущих записей в базе данных. [1] Год спустя, в июне 2004 года, ограничения на максимальную длину последовательности для каждой записи (тогда 350 килобаз ) были сняты, что позволило хранить все последовательности генома как одну запись в базе данных . [12]

После внедрения секвенирования по Сэнгеру Институт Сэнгера Wellcome Trust (тогда известный как Центр Сэнгера) начал каталогизировать считывания последовательностей вместе с информацией о качестве в базе данных под названием The Trace Archive. [13] Архив трассировки существенно вырос благодаря коммерциализации технологий высокопроизводительного параллельного секвенирования такими компаниями, как Roche и Illumina . [14] В 2008 году EBI объединил Архив трассировок и базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank). [2] и недавно разработанный архив считывания последовательностей (или коротких) (SRA), составляющий ENA, с целью предоставления комплексного архива нуклеотидных последовательностей. [13] Являясь членом Международного сотрудничества по базам данных нуклеотидных последовательностей , ENA ежедневно обменивается данными как с Банком данных ДНК Японии , так и с GenBank . [15]

База данных нуклеотидных последовательностей EMBL [ править ]

База данных нуклеотидных последовательностей EMBL (EMBL-Bank) увеличилась в размере примерно с 600 записей в 1982 году до более чем 2,5 × 10. 8 к декабрю 2012 года. [16]

База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) — это раздел ENA, который содержит детали сборки генома высокого уровня , а также собранные последовательности и их функциональные аннотации . [12] [17] В EMBL-Bank поступают прямые данные от геномных консорциумов и небольших исследовательских групп, а также путем получения данных о последовательностях, связанных с патентными заявками . [2] [18]

Начиная с версии 114 (декабрь 2012 г.), база данных нуклеотидных последовательностей EMBL содержит примерно 5 × 10 11 нуклеотиды с несжатым размером файла 1,6 терабайта . [16]

Классы данных [ править ]

База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, помимо прочего: [19]

Формат EMBL-Bank [ править ]

База данных нуклеотидных последовательностей EMBL использует простой текстовый формат для представления и хранения данных, который обычно называется форматом EMBL-Bank. [20] Формат EMBL-Bank использует синтаксис, отличный от записей в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например таксономии , определенные в базе данных таксонов NCBI . Каждая строка файла формата EMBL начинается с двухбуквенного кода, например: AC для обозначения инвентарного номера и KW для списка ключевых слов, соответствующих записи; каждая запись заканчивается //. [20]

Архив чтения последовательности [ править ]

SRA быстро росла с 2008 года. [21] По состоянию на 2011 год большая часть данных о последовательностях SRA была получена с помощью Illumina . анализатора генома [22]

ENA управляет экземпляром Архива чтения последовательностей (SRA), архивного хранилища данных чтения и анализа последовательностей, предназначенных для публичного распространения. [23] Первоначально называвшееся «Архив короткого чтения», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные чтения последовательностей. [24] В настоящее время архив принимает считывания последовательностей, созданные платформами секвенирования следующего поколения , такими как анализатор генома Illumina и ABI SOLiD, а также некоторые соответствующие анализы и сопоставления . [25] SRA действует под руководством Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC). [23] и является самым быстрорастущим хранилищем в ENA. [14]

В 2010 году архив чтения последовательностей составлял примерно 95% данных о парах оснований, доступных через ENA. [13] охватывающий более 500 000 000 000 чтений последовательностей, состоящих из более чем 60 триллионов (6 × 10 13 ) пары оснований. [23] Почти половина этих данных была передана в рамках проекта «1000 геномов». [23] при этом исследователи опубликовали свои данные о последовательностях в SRA в режиме реального времени . [26] В общей сложности по состоянию на сентябрь 2010 года 65% архива чтения последовательностей составляли геномные последовательности человека, а еще 16% относились к считыванию последовательностей метагенома человека . [23]

Предпочтительным форматом данных для файлов, отправляемых в SRA, является формат BAM, который способен хранить как выровненные, так и невыровненные чтения. [23] Внутри SRA опирается на набор инструментов NCBI SRA Toolkit, используемый во всех трех базах данных, входящих в INSDC, для обеспечения гибкого сжатия данных , доступа к API и преобразования в другие форматы, такие как FASTQ . [22]

Доступ к данным [ править ]

браузера ENA Снимок экрана веб-интерфейса , показывающий HTML-запись.

Доступ к данным, содержащимся в ENA, можно получить вручную или программно через URL-адрес REST через браузер ENA. Первоначально ограничено архивом чтения последовательностей, [14] Браузер ENA теперь также обеспечивает доступ к архиву трассировки и банку EMBL, позволяя извлекать файлы в различных форматах, включая XML , HTML , FASTA и FASTQ. [13] Доступ к отдельным записям можно получить, используя их регистрационные номера, а другие текстовые запросы выполняются через поисковую систему EB-eye . [13] Кроме того, сходства последовательностей поиск на основе , реализованный с использованием графов Де Брейна, предлагает еще один метод извлечения записей из ENA. [14]

Доступ к ENA осуществляется через API-интерфейсы EBI SOAP и REST, которые также предлагают доступ к другим базам данных, размещенным в EBI, таким как Ensembl и InterPro . [27]

Хранение [ править ]

Европейский архив нуклеотидов обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением. [5] [28] По состоянию на 2012 год потребности ENA в хранении данных продолжают расти в геометрической прогрессии , причем время удвоения составляет примерно 10 месяцев. [5] Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует передовые сжатия . стратегии [23] [29] Набор инструментов сжатия на основе эталонов CRAM был разработан, чтобы помочь снизить требования к хранилищу ENA. [5] [30]

Финансирование [ править ]

В настоящее время ENA финансируется совместно Европейской лабораторией молекулярной биологии , Европейской комиссией и Wellcome Trust . [13] Создаваемая структура ELIXIR, координируемая директором EBI Джанет Торнтон , направлена ​​на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности баз данных по наукам о жизни, таких как ENA. [29] [31] [32]

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б Кокрейн, Г.; Ахтар Р.; Альдеберт, П.; Олторп, Н.; Болдуин, А.; Бейтс, К.; Бхаттачарья, С.; Бонфилд, Дж.; Бауэр, Л. (2007). «Приоритеты сбора данных о трассировках, последовательностях и аннотациях нуклеотидов в архиве трассировок Ensembl и базе данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 36 (База данных): D5–D12. дои : 10.1093/нар/gkm1018 . ISSN   0305-1048 . ПМК   2238915 . ПМИД   18039715 .
  2. ^ Jump up to: Перейти обратно: а б с ЭМБЛ-ЭБИ. «База данных нуклеотидных последовательностей EMBL» . Проверено 8 января 2013 г.
  3. ^ Jump up to: Перейти обратно: а б Хамм, Г.Х.; Кэмерон, Дж.Н. (1986). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 14 (1): 5–9. дои : 10.1093/нар/14.1.5 . ПМК   339348 . ПМИД   3945550 .
  4. ^ Кокрейн, Гай; Кук, Чарльз Э; Бирни, Юэн (2012). «Будущее архивирования последовательностей ДНК» . ГигаСайенс . 1 (1): 2. дои : 10.1186/2047-217X-1-2 . ISSN   2047-217X . ПМК   3617450 . ПМИД   23587147 .
  5. ^ Jump up to: Перейти обратно: а б с д Кокрейн, Г.; Алако, Б.; Амид, К.; Бауэр, Л.; Сердено-Таррага, А.; Клеланд, И.; Гибсон, Р.; Гудгейм, Н.; Джанг, М. (2012). «Перед ростом Европейского архива нуклеотидов» . Исследования нуклеиновых кислот . 41 (Д1): Д30–Д35. дои : 10.1093/nar/gks1175 . ISSN   0305-1048 . ПМЦ   3531187 . ПМИД   23203883 .
  6. ^ Jump up to: Перейти обратно: а б Книл, Г.; Кеннард, О. (1984). «Библиотека данных нуклеотидных последовательностей EMBL». Труды Биохимического общества . 12 (6): 1011–1014. дои : 10.1042/bst0121011 . ПМИД   6530028 .
  7. ^ Кэмерон, Дж.Н. (1988). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 16 (5): 1865–1867. дои : 10.1093/нар/16.5.1865 . ПМК   338182 . ПМИД   3353226 .
  8. ^ Фукс, Р.; Стер, П.; Райс, П.; Омонд, Р.; Кэмерон, Г. (1990). «Новые сервисы библиотеки данных EMBL» . Исследования нуклеиновых кислот . 18 (15): 4319–4323. дои : 10.1093/нар/18.15.4319 . ПМК   331247 . ПМИД   2388823 .
  9. ^ Кан, П.; Хазледин, Д. (1988). «Новое требование НАР по предоставлению данных в библиотеку данных EMBL: Информация для авторов» . Исследования нуклеиновых кислот . 16 (10): I–IV. ПМЦ   336623 . ПМИД   16617480 .
  10. ^ «Что такое Европейский архив нуклеотидов?» . ЭМБЛ-ЭБИ . Проверено 6 января 2013 г.
  11. ^ Родригес-Томе, П.; Стер, П.Дж.; Кэмерон, Дж.Н.; Флорес, ТП (1996). «Базы данных Европейского института биоинформатики (EBI)» . Исследования нуклеиновых кислот . 24 (1): 6–12. дои : 10.1093/нар/24.1.6 . ПМК   145572 . ПМИД   8594602 .
  12. ^ Jump up to: Перейти обратно: а б Штессер, Г.; Бейкер, В; Ван Ден Брук, А; Гарсиа-Пастор, М; Канц, К; Куликова Т; Лейнонен, Р; Лин, Кью; Ломбард, В. (2003). «База данных нуклеотидных последовательностей EMBL: основные новые разработки» . Исследования нуклеиновых кислот . 31 (1): 17–22. дои : 10.1093/нар/gkg021 . ISSN   1362-4962 . ПМЦ   165468 . ПМИД   12519939 .
  13. ^ Jump up to: Перейти обратно: а б с д и ж Лейнонен Р., Ахтар Р., Бирни Э. и др. (январь 2011 г.). «Европейский архив нуклеотидов» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D28–31. дои : 10.1093/нар/gkq967 . ПМК   3013801 . ПМИД   20972220 .
  14. ^ Jump up to: Перейти обратно: а б с д Лейнонен, Р.; Ахтар Р.; Бирни, Э.; Бонфилд, Дж.; Бауэр, Л.; Корбетт, М.; Ченг, Ю.; Демиральп, Ф.; Фарук, Н. (2009). «Улучшение услуг Европейского архива нуклеотидов» . Исследования нуклеиновых кислот . 38 (База данных): D39–D45. дои : 10.1093/nar/gkp998 . ISSN   0305-1048 . ПМЦ   2808951 . ПМИД   19906712 .
  15. ^ ЭМБЛ-ЭБИ. «О Европейском архиве нуклеотидов» . Проверено 7 января 2013 г.
  16. ^ Jump up to: Перейти обратно: а б «База данных нуклеотидных последовательностей EMBL: примечания к выпуску» . Примечания к выпуску EMBL-Bank 114 . ЭМБЛ-ЭБИ. Декабрь 2012 г. Архивировано из оригинала 02 января 2013 г. Проверено 7 января 2013 г.
  17. ^ Амид, К.; Бирни, Э.; Бауэр, Л.; Сердено-Таррага, А.; Ченг, Ю.; Клеланд, И.; Фарук, Н.; Гибсон, Р.; Гудгейм, Н. (2011). «Основные разработки инструментов подачи заявок в Европейском нуклеотидном архиве» . Исследования нуклеиновых кислот . 40 (Д1): Д43–Д47. дои : 10.1093/nar/gkr946 . ISSN   0305-1048 . ПМК   3245037 . ПМИД   22080548 .
  18. ^ Штессер, Г.; Бейкер, В; Ван Ден Брук, А; Камон, Э; Гарсиа-Пастор, М; Канц, К; Куликова Т; Лейнонен, Р; Лин, Кью (2002). «База данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 30 (1): 21–26. дои : 10.1093/нар/30.1.21 . ISSN   1362-4962 . ПМК   99098 . ПМИД   11752244 .
  19. ^ «Классы данных ЭМБЛ-Банка» . EBML-EBI. 2012 . Проверено 8 января 2013 г.
  20. ^ Jump up to: Перейти обратно: а б «Руководство пользователя ЭМБЛ-Банк (Выпуск 129)» (Открытый текст) . ЭМБЛ-ЭБИ. Сентябрь 2016 г. Проверено 3 ноября 2016 г.
  21. ^ «Обзор NCBI SRA» . НКБИ. 1 января 2013 г. Архивировано из оригинала 8 февраля 2013 г. Проверено 8 января 2013 г.
  22. ^ Jump up to: Перейти обратно: а б Кодама, Ю.; Шамуэй, М.; Лейнонен, Р. (2011). «Архив чтения последовательности: взрывной рост данных секвенирования» . Исследования нуклеиновых кислот . 40 (Д1): Д54–Д56. дои : 10.1093/nar/gkr854 . ISSN   0305-1048 . ПМК   3245110 . ПМИД   22009675 .
  23. ^ Jump up to: Перейти обратно: а б с д и ж г Лейнонен Р., Сугавара Х., Шамуэй М. (январь 2011 г.). «Последовательность чтения архива» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D19–21. дои : 10.1093/нар/gkq1019 . ПМК   3013647 . ПМИД   21062823 .
  24. ^ Остелл, Джим (2009). «Архив чтения последовательностей NCBI: основная инфраструктура» . Био-ИТ-Мир . Проверено 8 января 2013 г.
  25. ^ «Об архиве чтения последовательностей NCBI» . НКБИ. 8 января 2013 г. Архивировано из оригинала 19 апреля 2013 г. . Проверено 10 января 2013 г.
  26. ^ Шамуэй, М.; Кокрейн, Г.; Сугавара, Х. (2009). «Архивирование данных секвенирования следующего поколения» . Исследования нуклеиновых кислот . 38 (База данных): D870–D871. дои : 10.1093/нар/gkp1078 . ISSN   0305-1048 . ПМЦ   2808927 . ПМИД   19965774 .
  27. ^ Маквильям, Х.; Валентин, Ф.; Гужон, М.; Ли, В.; Нараянасами, М.; Мартин, Дж.; Мияр, Т.; Лопес, Р. (2009). «Веб-сервисы Европейского института биоинформатики-2009» . Исследования нуклеиновых кислот . 37 (Веб-сервер): W6–W10. дои : 10.1093/нар/gkp302 . ISSN   0305-1048 . ПМК   2703973 . ПМИД   19435877 .
  28. ^ Кокрейн, Г.; Ахтар Р.; Бонфилд, Дж.; Бауэр, Л.; Демиральп, Ф.; Фарук, Н.; Гибсон, Р.; Хоад, Г.; Хаббард, Т. (2009). «Инновации петабайтного масштаба в Европейском архиве нуклеотидов» . Исследования нуклеиновых кислот . 37 (База данных): D19–D25. дои : 10.1093/нар/gkn765 . ISSN   0305-1048 . ПМК   2686451 . ПМИД   18978013 .
  29. ^ Jump up to: Перейти обратно: а б «EMBL-EBI продолжит поддерживать архив чтения последовательностей для необработанных данных» (PDF) . Пресс-релиз . ЭМБЛ-ЭБИ. 16 февраля 2011 г. Архивировано из оригинала (PDF) 15 мая 2011 г. . Проверено 7 января 2013 г.
  30. ^ Си-Ян Фриц, М.; Лейнонен, Р.; Кокрейн, Г.; Бирни, Э. (2011). «Эффективное хранение данных высокопроизводительного секвенирования ДНК с использованием эталонного сжатия» . Геномные исследования . 21 (5): 734–740. дои : 10.1101/гр.114819.110 . ISSN   1088-9051 . ПМК   3083090 . ПМИД   21245279 .
  31. ^ «Об ЭЛИКСИРЕ» . ЭЛИКСИР . Проверено 9 января 2013 г.
  32. ^ Кроссвелл, Линдси К.; Торнтон, Джанет М. (2012). «ЭЛИКСИР: распределенная инфраструктура для европейских биологических данных». Тенденции в биотехнологии . 30 (5): 241–242. дои : 10.1016/j.tibtech.2012.02.002 . ISSN   0167-7799 . ПМИД   22417641 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 47db2c5282a2822914c68ae5d8e1ee9d__1701587400
URL1:https://arc.ask3.ru/arc/aa/47/9d/47db2c5282a2822914c68ae5d8e1ee9d.html
Заголовок, (Title) документа по адресу, URL1:
European Nucleotide Archive - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)