Проект базы данных генома Ensembl
![]() ![]() | |
Содержание | |
---|---|
Описание | Вместе |
Контакт | |
Исследовательский центр | |
Первичное цитирование | Йейтс и др. (2020) [1] |
Доступ | |
Веб-сайт | www |
Проект базы данных геномов Ensembl — это научный проект Европейского института биоинформатики , который предоставляет централизованный ресурс для генетиков, молекулярных биологов и других исследователей, изучающих геномы наших собственных видов, а также других позвоночных и модельных организмов . [2] [3] [4] Ensembl — один из нескольких хорошо известных геномных браузеров для поиска геномной информации.
Подобные базы данных и браузеры имеются в NCBI и Калифорнийском университете в Санта-Крус (UCSC) .
История [ править ]
Геном человека состоит из трех миллиардов пар оснований , которые кодируют примерно 20 000–25 000 генов . Однако сам по себе геном бесполезен, если не удастся определить расположение и взаимоотношения отдельных генов. Одним из вариантов является ручное аннотирование , при котором группа ученых пытается найти гены, используя экспериментальные данные из научных журналов и общедоступных баз данных. Однако это медленная и кропотливая задача. известная как автоматическое аннотирование, заключается в использовании возможностей компьютеров для выполнения сложного сопоставления белков Альтернатива , с ДНК . [5] [6] Проект Ensembl был запущен в 1999 году в ответ на скорое завершение проекта «Геном человека» с первоначальными целями автоматически аннотировать геном человека, интегрировать эту аннотацию с имеющимися биологическими данными и сделать все эти знания общедоступными. [2]
В проекте Ensembl данные о последовательностях подаются в систему аннотаций генов (набор программных «конвейеров», написанных на Perl ), которая создает набор предсказанных местоположений генов и сохраняет их в базе данных MySQL для последующего анализа и отображения. Ensembl делает эти данные свободным доступом для мирового исследовательского сообщества. Все данные и код, созданные в рамках проекта Ensembl, доступны для скачивания. [7] а также имеется общедоступный сервер базы данных, обеспечивающий удаленный доступ. Кроме того, веб-сайт Ensembl обеспечивает компьютерное визуальное отображение большей части данных.
Со временем проект расширился и включил в себя дополнительные виды (включая ключевые модельные организмы, такие как мышь , плодовая мушка и рыбка данио ), а также более широкий спектр геномных данных, включая генетические вариации и регуляторные особенности. С апреля 2009 года дочерний проект Ensembl Genomes расширил сферу действия Ensembl на беспозвоночных многоклеточных животных , растения , грибы , бактерии и простейших , сосредоточив внимание на предоставлении таксономического и эволюционного контекста генам, в то время как первоначальный проект продолжает фокусироваться на позвоночных. [8] [9]
По состоянию на 2020 год Ensembl поддерживал более 50 000 геномов в базах данных Ensembl и Ensembl Genomes, добавляя некоторые новые инновационные функции, такие как Rapid Release , новый веб-сайт, предназначенный для более быстрого доступа пользователей к данным аннотаций генома, и COVID-19 , новый веб-сайт для доступа к эталонному геному SARS-CoV-2 .
Отображение геномных данных

Центральным элементом концепции Ensembl является способность автоматически генерировать графические представления сопоставления генов и других геномных данных с эталонным геномом . Они отображаются в виде дорожек данных, отдельные дорожки можно включать и выключать, что позволяет пользователю настроить отображение в соответствии со своими исследовательскими интересами. Интерфейс также позволяет пользователю увеличивать масштаб области или перемещаться по геному в любом направлении.
Другие дисплеи отображают данные с различными уровнями разрешения, от целых кариотипов до текстовых представлений ДНК и аминокислотных последовательностей, или представляют другие типы отображения, такие как деревья схожих генов ( гомологов ) у различных видов. Графика дополняется табличным отображением, и во многих случаях данные можно экспортировать непосредственно со страницы в различные стандартные форматы файлов, такие как FASTA .
Внешние данные также можно добавить на дисплей, загрузив подходящий файл в одном из поддерживаемых форматов, например BAM , BED или PSL .
Графика генерируется с использованием набора пользовательских модулей Perl на основе GD , стандартной библиотеки отображения графики Perl.
Альтернативные методы доступа [ править ]
В дополнение к своему веб-сайту Ensembl предоставляет REST API и Perl API. [10] (Интерфейс прикладного программирования), который моделирует биологические объекты, такие как гены и белки, позволяя писать простые сценарии для получения интересующих данных. Тот же API используется внутри веб-интерфейса для отображения данных. Он разделен на такие разделы, как основной API, API сравнения (для данных сравнительной геномики ), вариационный API (для доступа к SNP, SNV, CNV...) и API функциональной геномики (для доступа к нормативным данным). На веб-сайте Ensembl представлена обширная информация о том, как установить и использовать API .
Это программное обеспечение можно использовать для доступа к общедоступной базе данных MySQL , избегая необходимости загружать огромные наборы данных. Пользователи могут даже выбрать получение данных из MySQL с помощью прямых SQL-запросов, но это требует обширных знаний текущей схемы базы данных.
Большие наборы данных можно получить с помощью BioMart инструмента анализа данных . Он предоставляет веб-интерфейс для загрузки наборов данных с помощью сложных запросов.
Наконец, есть FTP- сервер, который можно использовать для загрузки целых баз данных MySQL, а также некоторых выбранных наборов данных в других форматах.
Текущий вид [ править ]
Аннотированные геномы включают наиболее полностью секвенированные позвоночные и избранные модельные организмы. Все они эукариоты, прокариотов нет. По состоянию на 2022 год зарегистрирован 271 вид, в том числе: [11]
Открытый исходный код/зеркала [ править ]
Все данные проекта Ensembl находятся в открытом доступе, а все программное обеспечение имеет открытый исходный код и свободно доступно научному сообществу по лицензии CC BY 4.0 . В настоящее время веб-сайт базы данных Ensembl зеркалируется в четырех разных местах по всему миру для улучшения обслуживания.
Официальные зеркальные сайты |
---|
Великобритания (Институт Сэнгера) ---- основной сайт |
Запад США (Amazon AWS) ---- Облачное зеркало на западном побережье США. |
Восток США (Amazon AWS) ---- Облачное зеркало на восточном побережье США. |
Азия (Amazon AWS) ---- Облачное зеркало в Сингапуре |
См. также [ править ]
- Список секвенированных геномов эукариот
- Список биологических баз данных
- Анализ последовательности
- Инструмент профилирования последовательностей
- Мотив последовательности
- Браузер генома UCSC
- КОДИРОВАТЬ
Ссылки [ править ]
- ^ Йейтс А.Д.; и др. (январь 2020 г.). «Ансамбль 2020» . Нуклеиновые кислоты Рез . 48 (Д1): Д682–Д688. дои : 10.1093/nar/gkz966 . ПМК 7145704 . ПМИД 31691826 .
- ^ Jump up to: Перейти обратно: а б Хаббард, Т. (1 января 2002 г.). «Проект базы данных генома Ensembl» . Исследования нуклеиновых кислот . 30 (1): 38–41. дои : 10.1093/нар/30.1.38 . ПМК 99161 . ПМИД 11752248 .
- ^ Фличек П., Амод М.Р., Баррелл Д. и др. (ноябрь 2010 г.). «Ансамбль 2011» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D800–D806. дои : 10.1093/нар/gkq1064 . ПМК 3013672 . ПМИД 21045057 .
- ^ Фличек П., Акен Б.Л., Баллестер Б. и др. (январь 2010 г.). «Ансамблю 10 лет» . Нуклеиновые кислоты Рез . 38 (Проблема с базой данных): D557–62. дои : 10.1093/нар/gkp972 . ПМК 2808936 . ПМИД 19906699 .
- ^ Дэвис, Чарльз Патрик (29 марта 2021 г.). «Медицинское определение аннотации генома» . Архивировано из оригинала 14 июня 2021 года . Проверено 7 августа 2022 г.
- ^ Карвен, Вэл; Эйрас, Эдуардо; Эндрюс, Т. Дэниел; Кларк, Лаура; Монгин, Эммануэль; Сирл, Стивен М.Дж.; Клэмп, Мишель (май 2004 г.). «Система автоматической аннотации генов Ensembl» . Геномные исследования . 14 (5): 942–950. дои : 10.1101/гр.1858004 . ISSN 1088-9051 . ПМК 479124 . ПМИД 15123590 .
- ^ Руффье, Магали; Кяхари, Андреас; Коморовская, Моника; Кинан, Стивен; Лэрд, Мэтью; Лонгден, Ян; Проктор, Гленн; Сирл, Стив; Стейнс, Дэниел; Тейлор, Кирон; Вулло, Алессандро; Йейтс, Эндрю; Зербино, Дэниел; Фличек, Пол (январь 2017 г.). «Основные программные ресурсы Ensembl: хранение и программный доступ к последовательностям ДНК и аннотациям генома» . База данных . 2017 (1): bax020. дои : 10.1093/база данных/bax020 . ПМЦ 5467575 . ПМИД 28365736 .
- ^ Хаббард, TJP; Акен, БЛ; Эйлинг, С.; Баллестер, Б.; Бил, К.; Брагин Э.; Брент, С.; Чен, Ю.; Клэпхэм, П.; Кларк, Л.; Коутс, Г. (январь 2009 г.). «Ансамбль 2009» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D690–697. дои : 10.1093/нар/gkn828 . ISSN 1362-4962 . ПМЦ 2686571 . ПМИД 19033362 .
- ^ Хоу, Кевин Л.; Контрерас-Морейра, Бруно; Де Сильва, Нишади; Маслен, Гарет; Аканни, Васиу; Аллен, Джеймс; Альварес-Харрета, Хорхе; Барба, Матье; Болсер, Дэн М.; Кэмбелл, Лахсен; Карбахо, Мануэль (8 января 2020 г.). «Ensembl Genomes 2020 позволит проводить геномные исследования беспозвоночных» . Исследования нуклеиновых кислот . 48 (Д1): Д689–Д695. дои : 10.1093/nar/gkz890 . ISSN 1362-4962 . ПМК 6943047 . ПМИД 31598706 .
- ^ Стабенау А., Маквикер Г., Мелсопп С., Проктор Г., Клэмп М., Бирни Э. (февраль 2004 г.). «Библиотеки основного программного обеспечения Ensembl» . Геномные исследования . 14 (5): 929–933. дои : 10.1101/гр.1857204 . ПМК 479122 . ПМИД 15123588 .
- ^ «Список видов» . uswest.ensembl.org . Архивировано из оригинала 6 августа 2022 года . Проверено 5 августа 2022 г.
Внешние ссылки [ править ]
