Европейский архив нуклеотидов
![]() | |
Содержание | |
---|---|
Описание | Комплексный архив нуклеотидных последовательностей, аннотаций и связанных данных. |
Типы данных захвачен | Нуклеотидная последовательность , функциональная аннотация , прочтения секвенирования и информация о секвенаторе , сведения об образце , другие связанные записи. |
Организмы | Все |
Контакт | |
Исследовательский центр | Европейский институт биоинформатики |
Лаборатория | Группа ПАНДА |
Первичное цитирование | ПМИД 20972220 |
Дата выпуска | апрель 1982 г. |
Доступ | |
Формат данных | XML БЫСТРЫЙ Формат ЭМБЛ-Банка |
Веб-сайт | Вот этот |
URL-адрес загрузки | ENA скачать |
веб-службы URL-адрес | ENA-браузер |
Инструменты | |
Автономный | набор инструментов CRAM |
Разнообразный | |
Лицензия | Неограниченный |
Европейский архив нуклеотидов ( ENA ) представляет собой хранилище, обеспечивающее свободный и неограниченный доступ к аннотированным последовательностям ДНК и РНК . Он также хранит дополнительную информацию, такую как экспериментальные процедуры, детали сборки последовательности и другие метаданные, связанные с проектами секвенирования . [1] Архив состоит из трех основных баз данных: архива чтения последовательностей , архива трассировок и базы данных нуклеотидных последовательностей EMBL (также известной как EMBL-банк). [2] ENA производится и поддерживается Европейским институтом биоинформатики и является членом Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC), а также Банка данных ДНК Японии и GenBank .
ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый международно-поддерживаемый ресурс данных о нуклеотидных последовательностях. [3] По состоянию на начало 2012 года базы данных ENA и других членов INSDC содержали полные геномы 5682 организмов и данные о последовательностях почти 700 000 организмов. [4] Более того, объем данных растет экспоненциально, причем время удвоения составляет примерно 10 месяцев. [5]
История [ править ]
Европейский архив нуклеотидов возник на основе отдельных баз данных, самой ранней из которых была Библиотека данных EMBL, созданная в октябре 1980 года в Европейской лаборатории молекулярной биологии (EMBL) в Гейдельберге . [3] Первый выпуск этой базы данных был выпущен в апреле 1982 года и содержал в общей сложности 568 отдельных записей, состоящих примерно из 500 000 пар оснований . [6] В 1984 году, ссылаясь на библиотеку данных EMBL, Нил и Кеннард заметили, что «несколько лет назад стало ясно, что большая компьютеризированная база данных последовательностей будет необходима для исследований в области молекулярной биологии». [6]

Несмотря на то, что в то время основным методом распространения была магнитная лента , к 1987 году Библиотеку данных EMBL использовали примерно 10 000 ученых по всему миру. [7] В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных через BITNET , EARN и ранний Интернет . [8] В мае 1988 года журнал Nucleic Acids Research ввел политику, гласящую, что «рукописи, представленные в [Nucleic Acids Research] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в Библиотеке данных EMBL». [9]

В 1990-х годах библиотека данных EMBL была переименована в базу данных нуклеотидных последовательностей EMBL. [10] и был официально переведен в Европейский институт биоинформатики (EBI) из Гейдельберга. [11] В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления Архива версий последовательностей (SVA), который хранит записи всех текущих и предыдущих записей в базе данных. [1] Год спустя, в июне 2004 года, ограничения на максимальную длину последовательности для каждой записи (тогда 350 килобаз ) были сняты, что позволило хранить все последовательности генома как одну запись в базе данных . [12]
После внедрения секвенирования по Сэнгеру Институт Сэнгера Wellcome Trust (тогда известный как Центр Сэнгера) начал каталогизировать считывания последовательностей вместе с информацией о качестве в базе данных под названием The Trace Archive. [13] Архив трассировки существенно вырос благодаря коммерциализации технологий высокопроизводительного параллельного секвенирования такими компаниями, как Roche и Illumina . [14] В 2008 году EBI объединил Архив трассировок и базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank). [2] и недавно разработанный архив считывания последовательностей (или коротких) (SRA), составляющий ENA, с целью предоставления комплексного архива нуклеотидных последовательностей. [13] Являясь членом Международного сотрудничества по базам данных нуклеотидных последовательностей , ENA ежедневно обменивается данными как с Банком данных ДНК Японии , так и с GenBank . [15]
База данных нуклеотидных последовательностей EMBL [ править ]

База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) — это раздел ENA, который содержит детали сборки генома высокого уровня , а также собранные последовательности и их функциональные аннотации . [12] [17] В EMBL-Bank поступают прямые данные от геномных консорциумов и небольших исследовательских групп, а также путем получения данных о последовательностях, связанных с патентными заявками . [2] [18]
Начиная с версии 114 (декабрь 2012 г.), база данных нуклеотидных последовательностей EMBL содержит примерно 5 × 10 11 нуклеотиды с несжатым размером файла 1,6 терабайта . [16]
Классы данных [ править ]
База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, помимо прочего: [19]
- Теги выраженной последовательности со связанными с ними данными образца.
- Нуклеотидная последовательность создается на основе проектов полногеномного секвенирования на различных стадиях сборки, включая полные контиги и аннотированную, полностью собранную последовательность.
- Данные, относящиеся к транскриптомике , такие как комплементарная ДНК , с необязательной аннотацией.
- Новые или расширенные аннотации существующих кодирующих последовательностей , например, новые версии последовательностей с исправленными стартовыми или стоп-кодонами .
Формат EMBL-Bank [ править ]
База данных нуклеотидных последовательностей EMBL использует простой текстовый формат для представления и хранения данных, который обычно называется форматом EMBL-Bank. [20] Формат EMBL-Bank использует синтаксис, отличный от записей в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например таксономии , определенные в базе данных таксонов NCBI . Каждая строка файла формата EMBL начинается с двухбуквенного кода, например: AC
для обозначения инвентарного номера и KW
для списка ключевых слов, соответствующих записи; каждая запись заканчивается //
. [20]
Архив чтения последовательности [ править ]

ENA управляет экземпляром Архива чтения последовательностей (SRA), архивного хранилища данных чтения и анализа последовательностей, предназначенных для публичного распространения. [23] Первоначально называвшееся «Архив короткого чтения», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные чтения последовательностей. [24] В настоящее время архив принимает считывания последовательностей, созданные платформами секвенирования следующего поколения , такими как анализатор генома Illumina и ABI SOLiD, а также некоторые соответствующие анализы и сопоставления . [25] SRA действует под руководством Международного сотрудничества по базам данных нуклеотидных последовательностей (INSDC). [23] и является самым быстрорастущим хранилищем в ENA. [14]
В 2010 году архив чтения последовательностей составлял примерно 95% данных о парах оснований, доступных через ENA. [13] охватывающий более 500 000 000 000 чтений последовательностей, состоящих из более чем 60 триллионов (6 × 10 13 ) пары оснований. [23] Почти половина этих данных была передана в рамках проекта «1000 геномов». [23] при этом исследователи опубликовали свои данные о последовательностях в SRA в режиме реального времени . [26] В общей сложности по состоянию на сентябрь 2010 года 65% архива чтения последовательностей составляли геномные последовательности человека, а еще 16% относились к считыванию последовательностей метагенома человека . [23]
Предпочтительным форматом данных для файлов, отправляемых в SRA, является формат BAM, который способен хранить как выровненные, так и невыровненные чтения. [23] Внутри SRA опирается на набор инструментов NCBI SRA Toolkit, используемый во всех трех базах данных, входящих в INSDC, для обеспечения гибкого сжатия данных , доступа к API и преобразования в другие форматы, такие как FASTQ . [22]
Доступ к данным [ править ]

Доступ к данным, содержащимся в ENA, можно получить вручную или программно через URL-адрес REST через браузер ENA. Первоначально ограничено архивом чтения последовательностей, [14] Браузер ENA теперь также обеспечивает доступ к архиву трассировки и банку EMBL, позволяя извлекать файлы в различных форматах, включая XML , HTML , FASTA и FASTQ. [13] Доступ к отдельным записям можно получить, используя их регистрационные номера, а другие текстовые запросы выполняются через поисковую систему EB-eye . [13] Кроме того, сходства последовательностей поиск на основе , реализованный с использованием графов Де Брейна, предлагает еще один метод извлечения записей из ENA. [14]
Доступ к ENA осуществляется через API-интерфейсы EBI SOAP и REST, которые также предлагают доступ к другим базам данных, размещенным в EBI, таким как Ensembl и InterPro . [27]
Хранение [ править ]
Европейский архив нуклеотидов обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением. [5] [28] По состоянию на 2012 год потребности ENA в хранении данных продолжают расти в геометрической прогрессии , причем время удвоения составляет примерно 10 месяцев. [5] Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует передовые сжатия . стратегии [23] [29] Набор инструментов сжатия на основе эталонов CRAM был разработан, чтобы помочь снизить требования к хранилищу ENA. [5] [30]
Финансирование [ править ]
В настоящее время ENA финансируется совместно Европейской лабораторией молекулярной биологии , Европейской комиссией и Wellcome Trust . [13] Создаваемая структура ELIXIR, координируемая директором EBI Джанет Торнтон , направлена на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности баз данных по наукам о жизни, таких как ENA. [29] [31] [32]
См. также [ править ]
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Кокрейн, Г.; Ахтар Р.; Альдеберт, П.; Олторп, Н.; Болдуин, А.; Бейтс, К.; Бхаттачарья, С.; Бонфилд, Дж.; Бауэр, Л. (2007). «Приоритеты сбора данных о трассировках, последовательностях и аннотациях нуклеотидов в архиве трассировок Ensembl и базе данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 36 (База данных): D5–D12. дои : 10.1093/нар/gkm1018 . ISSN 0305-1048 . ПМК 2238915 . ПМИД 18039715 .
- ^ Jump up to: Перейти обратно: а б с ЭМБЛ-ЭБИ. «База данных нуклеотидных последовательностей EMBL» . Проверено 8 января 2013 г.
- ^ Jump up to: Перейти обратно: а б Хамм, Г.Х.; Кэмерон, Дж.Н. (1986). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 14 (1): 5–9. дои : 10.1093/нар/14.1.5 . ПМК 339348 . ПМИД 3945550 .
- ^ Кокрейн, Гай; Кук, Чарльз Э; Бирни, Юэн (2012). «Будущее архивирования последовательностей ДНК» . ГигаСайенс . 1 (1): 2. дои : 10.1186/2047-217X-1-2 . ISSN 2047-217X . ПМК 3617450 . ПМИД 23587147 .
- ^ Jump up to: Перейти обратно: а б с д Кокрейн, Г.; Алако, Б.; Амид, К.; Бауэр, Л.; Сердено-Таррага, А.; Клеланд, И.; Гибсон, Р.; Гудгейм, Н.; Джанг, М. (2012). «Перед ростом Европейского архива нуклеотидов» . Исследования нуклеиновых кислот . 41 (Д1): Д30–Д35. дои : 10.1093/nar/gks1175 . ISSN 0305-1048 . ПМЦ 3531187 . ПМИД 23203883 .
- ^ Jump up to: Перейти обратно: а б Книл, Г.; Кеннард, О. (1984). «Библиотека данных нуклеотидных последовательностей EMBL». Труды Биохимического общества . 12 (6): 1011–1014. дои : 10.1042/bst0121011 . ПМИД 6530028 .
- ^ Кэмерон, Дж.Н. (1988). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 16 (5): 1865–1867. дои : 10.1093/нар/16.5.1865 . ПМК 338182 . ПМИД 3353226 .
- ^ Фукс, Р.; Стер, П.; Райс, П.; Омонд, Р.; Кэмерон, Г. (1990). «Новые сервисы библиотеки данных EMBL» . Исследования нуклеиновых кислот . 18 (15): 4319–4323. дои : 10.1093/нар/18.15.4319 . ПМК 331247 . ПМИД 2388823 .
- ^ Кан, П.; Хазледин, Д. (1988). «Новое требование НАР по предоставлению данных в библиотеку данных EMBL: Информация для авторов» . Исследования нуклеиновых кислот . 16 (10): I–IV. ПМЦ 336623 . ПМИД 16617480 .
- ^ «Что такое Европейский архив нуклеотидов?» . ЭМБЛ-ЭБИ . Проверено 6 января 2013 г.
- ^ Родригес-Томе, П.; Стер, П.Дж.; Кэмерон, Дж.Н.; Флорес, ТП (1996). «Базы данных Европейского института биоинформатики (EBI)» . Исследования нуклеиновых кислот . 24 (1): 6–12. дои : 10.1093/нар/24.1.6 . ПМК 145572 . ПМИД 8594602 .
- ^ Jump up to: Перейти обратно: а б Штессер, Г.; Бейкер, В; Ван Ден Брук, А; Гарсиа-Пастор, М; Канц, К; Куликова Т; Лейнонен, Р; Лин, Кью; Ломбард, В. (2003). «База данных нуклеотидных последовательностей EMBL: основные новые разработки» . Исследования нуклеиновых кислот . 31 (1): 17–22. дои : 10.1093/нар/gkg021 . ISSN 1362-4962 . ПМЦ 165468 . ПМИД 12519939 .
- ^ Jump up to: Перейти обратно: а б с д и ж Лейнонен Р., Ахтар Р., Бирни Э. и др. (январь 2011 г.). «Европейский архив нуклеотидов» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D28–31. дои : 10.1093/нар/gkq967 . ПМК 3013801 . ПМИД 20972220 .
- ^ Jump up to: Перейти обратно: а б с д Лейнонен, Р.; Ахтар Р.; Бирни, Э.; Бонфилд, Дж.; Бауэр, Л.; Корбетт, М.; Ченг, Ю.; Демиральп, Ф.; Фарук, Н. (2009). «Улучшение услуг Европейского архива нуклеотидов» . Исследования нуклеиновых кислот . 38 (База данных): D39–D45. дои : 10.1093/nar/gkp998 . ISSN 0305-1048 . ПМЦ 2808951 . ПМИД 19906712 .
- ^ ЭМБЛ-ЭБИ. «О Европейском архиве нуклеотидов» . Проверено 7 января 2013 г.
- ^ Jump up to: Перейти обратно: а б «База данных нуклеотидных последовательностей EMBL: примечания к выпуску» . Примечания к выпуску EMBL-Bank 114 . ЭМБЛ-ЭБИ. Декабрь 2012 г. Архивировано из оригинала 02 января 2013 г. Проверено 7 января 2013 г.
- ^ Амид, К.; Бирни, Э.; Бауэр, Л.; Сердено-Таррага, А.; Ченг, Ю.; Клеланд, И.; Фарук, Н.; Гибсон, Р.; Гудгейм, Н. (2011). «Основные разработки инструментов подачи заявок в Европейском нуклеотидном архиве» . Исследования нуклеиновых кислот . 40 (Д1): Д43–Д47. дои : 10.1093/nar/gkr946 . ISSN 0305-1048 . ПМК 3245037 . ПМИД 22080548 .
- ^ Штессер, Г.; Бейкер, В; Ван Ден Брук, А; Камон, Э; Гарсиа-Пастор, М; Канц, К; Куликова Т; Лейнонен, Р; Лин, Кью (2002). «База данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 30 (1): 21–26. дои : 10.1093/нар/30.1.21 . ISSN 1362-4962 . ПМК 99098 . ПМИД 11752244 .
- ^ «Классы данных ЭМБЛ-Банка» . EBML-EBI. 2012 . Проверено 8 января 2013 г.
- ^ Jump up to: Перейти обратно: а б «Руководство пользователя ЭМБЛ-Банк (Выпуск 129)» (Открытый текст) . ЭМБЛ-ЭБИ. Сентябрь 2016 г. Проверено 3 ноября 2016 г.
- ^ «Обзор NCBI SRA» . НКБИ. 1 января 2013 г. Архивировано из оригинала 8 февраля 2013 г. Проверено 8 января 2013 г.
- ^ Jump up to: Перейти обратно: а б Кодама, Ю.; Шамуэй, М.; Лейнонен, Р. (2011). «Архив чтения последовательности: взрывной рост данных секвенирования» . Исследования нуклеиновых кислот . 40 (Д1): Д54–Д56. дои : 10.1093/nar/gkr854 . ISSN 0305-1048 . ПМК 3245110 . ПМИД 22009675 .
- ^ Jump up to: Перейти обратно: а б с д и ж г Лейнонен Р., Сугавара Х., Шамуэй М. (январь 2011 г.). «Последовательность чтения архива» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D19–21. дои : 10.1093/нар/gkq1019 . ПМК 3013647 . ПМИД 21062823 .
- ^ Остелл, Джим (2009). «Архив чтения последовательностей NCBI: основная инфраструктура» . Био-ИТ-Мир . Проверено 8 января 2013 г.
- ^ «Об архиве чтения последовательностей NCBI» . НКБИ. 8 января 2013 г. Архивировано из оригинала 19 апреля 2013 г. . Проверено 10 января 2013 г.
- ^ Шамуэй, М.; Кокрейн, Г.; Сугавара, Х. (2009). «Архивирование данных секвенирования следующего поколения» . Исследования нуклеиновых кислот . 38 (База данных): D870–D871. дои : 10.1093/нар/gkp1078 . ISSN 0305-1048 . ПМЦ 2808927 . ПМИД 19965774 .
- ^ Маквильям, Х.; Валентин, Ф.; Гужон, М.; Ли, В.; Нараянасами, М.; Мартин, Дж.; Мияр, Т.; Лопес, Р. (2009). «Веб-сервисы Европейского института биоинформатики-2009» . Исследования нуклеиновых кислот . 37 (Веб-сервер): W6–W10. дои : 10.1093/нар/gkp302 . ISSN 0305-1048 . ПМК 2703973 . ПМИД 19435877 .
- ^ Кокрейн, Г.; Ахтар Р.; Бонфилд, Дж.; Бауэр, Л.; Демиральп, Ф.; Фарук, Н.; Гибсон, Р.; Хоад, Г.; Хаббард, Т. (2009). «Инновации петабайтного масштаба в Европейском архиве нуклеотидов» . Исследования нуклеиновых кислот . 37 (База данных): D19–D25. дои : 10.1093/нар/gkn765 . ISSN 0305-1048 . ПМК 2686451 . ПМИД 18978013 .
- ^ Jump up to: Перейти обратно: а б «EMBL-EBI продолжит поддерживать архив чтения последовательностей для необработанных данных» (PDF) . Пресс-релиз . ЭМБЛ-ЭБИ. 16 февраля 2011 г. Архивировано из оригинала (PDF) 15 мая 2011 г. . Проверено 7 января 2013 г.
- ^ Си-Ян Фриц, М.; Лейнонен, Р.; Кокрейн, Г.; Бирни, Э. (2011). «Эффективное хранение данных высокопроизводительного секвенирования ДНК с использованием эталонного сжатия» . Геномные исследования . 21 (5): 734–740. дои : 10.1101/гр.114819.110 . ISSN 1088-9051 . ПМК 3083090 . ПМИД 21245279 .
- ^ «Об ЭЛИКСИРЕ» . ЭЛИКСИР . Проверено 9 января 2013 г.
- ^ Кроссвелл, Линдси К.; Торнтон, Джанет М. (2012). «ЭЛИКСИР: распределенная инфраструктура для европейских биологических данных». Тенденции в биотехнологии . 30 (5): 241–242. дои : 10.1016/j.tibtech.2012.02.002 . ISSN 0167-7799 . ПМИД 22417641 .