Биообразцы
Содержание | |
---|---|
Описание | База данных, содержащая агрегированную информацию, относящуюся к эталонным образцам и образцам, хранящимся в базах данных анализов Европейского института биоинформатики . |
Типы данных захвачен | Метаданные биологического образца |
Организмы | Все |
Контакт | |
Исследовательский центр | Европейский институт биоинформатики . |
Авторы | Mikhail Gostev |
Первичное цитирование | Gostev & al. (2012) [1] |
Дата выпуска | 2011 |
Доступ | |
Формат данных | XML , РДФ |
Веб-сайт | Страница EBI , страница NCBI |
URL-адрес загрузки | ЭБИ FTP |
веб-службы URL-адрес | ОТДЫХ |
Sparql Конечная точка | БиоСД Спаркл |
Инструменты | |
Интернет | Отображение образцов, расширенный поиск по образцам и группам, сортировка по столбцам, ссылки на записи в базе данных анализов |
Разнообразный | |
Лицензия | Неограниченный |
Управление версиями | Да |
Выпуск данных частота | Ежедневно |
Политика курирования | Да (ручной) |
Добавить в закладки сущности | Да – образцы и группы образцов |
BioSamples (BioSD) — это база данных Европейского института биоинформатики, содержащая информацию о биологических образцах, используемых при секвенировании . [1]
Он хранит предоставленные отправителем метаданные о биологических материалах, из которых Национального центра биотехнологической информации получены данные, хранящиеся в архивах первичных данных (NCBI). В архивах NCBI хранятся данные, относящиеся к различным типам образцов от многих видов, и поэтому база данных BioSample столь же разнообразна. Примеры биообразца включают первичную биопсию ткани , отдельного организма или изолят из окружающей среды.
База данных BioSamples фиксирует метаданные образцов в структурированном виде, поощряя использование словарей названий полей контролируемых атрибутов образцов. Эти метаданные играют ключевую роль в предоставлении контекста выборочных данных, позволяя их более полно понять, повторно использовать и агрегировать разрозненные наборы данных.
Метаданные образца связаны с соответствующими экспериментальными данными во многих архивных базах данных, что облегчает нагрузку отправителя за счет возможности однократной подачи описания образца. Затем они могут при необходимости ссылаться на этот образец при хранении данных в других архивах.
Записи BioSample индексируются и доступны для поиска, что позволяет выполнять межбазовые запросы по описанию образца.
История
[ редактировать ]База данных BioSamples была запущена в 2011 году, чтобы помочь агрегировать и стандартизировать метаданные образцов . Исторически сложилось так, что в каждом архиве существовало собственное соглашение о сборе выборочных метаданных. Они обычно были ограничены в своей стандартизации и не имели метода, позволяющего указать, когда выборка использовалась в нескольких наборах данных. В дополнение к этому, среди исследовательского сообщества растет понимание того, что выборочные метаданные жизненно важны для понимания лежащих в их основе данных. Кроме того, возможности повторного использования, агрегирования и интеграции данных увеличиваются за счет улучшения метаданных.Первоначально база данных была заполнена существующими описаниями, извлеченными из SRA , EST , GSS и dbGaP . [2] По состоянию на май 2013 года в базе данных содержится почти 2 миллиона записей BioSample, охватывающих 18 000 видов. [3]
Содержание
[ редактировать ]Размер базы данных BioSamples увеличился вдвое с января 2012 года, когда в базе данных BioSamples был описан 1 миллион образцов, по состоянию на октябрь 2013 года доступно 2 846 137 образцов в виде 80 232 групп. [4] Быстрый рост обусловлен преимущественно новыми источниками данных и увеличением объема данных из существующих источников. Новые источники данных включают 22 288 образцов из Атласа генома рака и 920 441 образец из Каталога соматических мутаций при раке (COSMIC). [5]
Атрибуты определяют исследуемый материал с помощью структурированных пар имя: значение, например:
tissue: liver
collection date: 31-Jan-2013
После указания типа образца пользователю предоставляется список обязательных и необязательных полей атрибутов для заполнения, а также возможность указать любое количество пользовательских описательных атрибутов. База данных BioSample может быть расширена, поскольку по мере разработки новых стандартов можно добавлять новые типы и атрибуты.Помимо типа и атрибутов BioSample, каждая запись BioSample также содержит:
идентификаторы | Блок идентификаторов, в котором указан не только доступ BioSample, присвоенный этой записи, но и любой другой внешний идентификатор образца, например, выданный исходной базой данных или хранилищем. |
---|---|
Организм | Название организма и идентификатор таксономии. Полное таксономическое дерево отображается и доступно для поиска. |
Заголовок | Название биообразца. Заголовок генерируется автоматически, если он не предоставлен отправителем. |
Описание | [необязательно] Произвольное текстовое поле, в котором будет храниться неструктурированная информация о образце. |
Ссылки | [необязательно] URL-адрес для ссылки на соответствующую информацию на внешних сайтах. |
Владелец | Информация об отправителе, включая имя и принадлежность, если таковая имеется. |
Даты | Информация о том, когда запись была отправлена, выпущена и в последний раз обновлена. |
Доступ | Заявление о том, является ли запись полностью общедоступной или с контролируемым доступом |
Полный список и определения типов и атрибутов BioSample доступны для предварительного просмотра и загрузки. [6]
Доступ к данным
[ редактировать ]Доступ к базе данных можно получить несколькими способами. Первоначальный выпуск BioSD для широкой публики обеспечивал доступ к базе данных только через веб-интерфейс. Впоследствии этот веб-интерфейс был обновлен в ноябре 2012 года, а затем снова в марте 2013 года после перезапуска всего сайта EBI. общедоступный интерфейс прикладного программирования В феврале 2013 года был выпущен (API) с использованием системы передачи репрезентативного состояния (REST). В октябре 2013 года в рамках новой RDF платформы EBI была выпущена конечная точка SPARQL , обеспечивающая доступ к данным в формате RDF. сервис EBI Кроме того, базу данных можно загрузить через FTP- . [7]
Веб-интерфейс
[ редактировать ]Веб-интерфейс позволяет пользователям получать доступ к базе данных BioSD через веб-браузер. Он предоставляет функциональные возможности поиска как по группам семплов, так и по самим семплам. Функция поиска включает инкрементный поиск , который помогает пользователям, предоставляя им возможные условия поиска по мере их ввода. Предоставляется расширенный поиск, который позволяет пользователям осуществлять поиск, применяя к условиям поиска двоичные термины И, ИЛИ и НЕ. Кроме того, подстановочный знак можно использовать для соответствия любой комбинации символов, включая отсутствие символов. Символ вопросительного знака также можно использовать для соответствия любому отдельному символу. [8] Их примеры можно увидеть в следующей таблице:
Поисковый запрос | Примеры результатов |
---|---|
мо*се | «мышь», «лось», «моз», «мофубарс» |
уже сейчас | «мышь», «лось», «моцэ» |
Веб-интерфейс также позволяет пользователям выбирать результаты поиска и просматривать дополнительную информацию об этих результатах поиска. Подробное представление предоставляет дополнительную информацию и ссылку на базу данных анализов, из которой были получены данные. Также предусмотрена сортировка по столбцам.
Интерфейс прикладного программирования
[ редактировать ]API предоставляет подходящий метод для получения данных программным способом. Он использует систему RESTful, которая позволяет пользователям запрашивать конечные точки URI и получать в качестве результатов XML . API имеет конечные точки URI для различных типов запросов. Эти запросы можно использовать для поиска конкретных образцов, поиска определенных групп, поиска групп, поиска образцов и поиска образцов внутри группы. [9]
Конечная точка SPARQL
[ редактировать ]Конечная точка SPARQL позволяет пользователям выполнять поиск в базе данных более полным способом, чем стандартный веб-интерфейс, при этом его можно использовать из веб-браузера. [10] С помощью этого интерфейса можно создавать гораздо более сложные запросы, чтобы расширить возможности пользователей в их поиске. Однако этот метод доступа к данным требует более длительного обучения. Конечная точка SPARQL возвращает результаты в формате RDF, который изначально был разработан с учетом метаданных и, таким образом, соответствует потребностям BioSD. [11]
Разработка
[ редактировать ]Команда разработчиков является частью команды Хелен Паркинсон в EMBL-EBI и включает в себя инженеров-программистов и веб-разработчиков, которым онтологи и биоинформатики помогают с конкретными предметными знаниями.
Основным языком программирования, используемым в проекте, является язык программирования Java . Для помощи в разработке проекта команды разработчиков используют интегрированную среду разработки , IntelliJ IDEA предоставляемую JetBrains . Другие инструменты, используемые в проекте, включают Bamboo для непрерывной интеграции и управления выпусками программного обеспечения. Кроме того, YourKit — это профилировщик Java, который помогает оптимизировать и устранять ошибки в проекте BioSD. [12]
Проект разработан как проект с открытым исходным кодом , весь исходный код которого находится в свободном доступе на GitHub . [13]
Финансирование
[ редактировать ]В настоящее время основное финансирование разработки и обслуживания базы данных BioSD обеспечивается за счет основного бюджета Европейской лаборатории молекулярной биологии (EMBL), который, в свою очередь, финансируется 20 странами-членами. [1] Также были внесены дополнительные вклады со стороны Европейской комиссии в виде ряда грантов. [14] Дальнейшее финансирование поступило от Инициативы по индуцированным плюрипотентным стволовым клеткам человека, предоставленной Wellcome Trust и Советом медицинских исследований , а также от Инициативы EBiSC по инновационным лекарственным средствам . [15]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Гостев, Михаил; Фолконбридж Адам; Брэнди Марко; Фернандес-Банет Хулио; Сарканс Угис; Бразма Алвис; Паркинсон Хелен (январь 2012 г.). «База данных BioSample (BioSD) в Европейском институте биоинформатики» . Нуклеиновые кислоты Рез . 40 (1). Англия: Д64-70. дои : 10.1093/nar/gkr937 . ПМЦ 3245134 . ПМИД 22096232 .
- ^ «О биосовместной базе данных генотипов и фенотипов (dbGaP)» (HTML) . Проверено 11 сентября 2014 г.
- ^ Барретт, Таня (14 ноября 2013 г.). «Справочник NCBI [Интернет] 2-е издание» . Проверено 11 сентября 2014 г.
- ^ Фолконбридж, Адам; Тони Бердетт; Марко Брандизи; Михаил Гостев; Руи Перейра; Драштти Васант; Угис Сарканс; Алвис Бразма; Хелен Паркинсон (20 ноября 2013 г.). «Обновления базы данных биообразцов в Европейском институте биоинформатики» . Исследования нуклеиновых кислот . 42 (Проблема с базой данных). Англия: D50-2. дои : 10.1093/нар/gkt1081 . ПМЦ 3965081 . ПМИД 24265224 .
- ^ Шеперд, Р; Медведь Д; Бэмфорд С; Коул К.Г.; Уорд С; Биндаль Н; Гунасекаран П; Цзя М; Кок С.Ю.; и др. (23 мая 2011 г.). «Интеллектуальный анализ данных с использованием Каталога соматических мутаций при раке BioMart» . База данных (Оксфорд) . 2011 . Англия: bar018. дои : 10.1093/база данных/bar018 . ПМЦ 3263736 . ПМИД 21609966 .
- ^ «Генератор шаблонов биообразцов» . EMBL-EBI (HTML) . Проверено 11 сентября 2014 г.
- ^ «Новости БиоОбразцы» . EMBL-EBI (HTML). Архивировано из оригинала 10 сентября 2014 года . Проверено 11 сентября 2014 г.
- ^ «Как искать в базе данных биообразцов» . EMBL-EBI (HTML). Архивировано из оригинала 11 сентября 2014 года . Проверено 11 сентября 2014 г.
- ^ «Обзор API BioSamples» . EMBL-EBI (HTML) . Проверено 29 сентября 2018 г.
- ^ «Конечная точка SPARQL базы данных BioSamples» . EMBL-EBI (HTML) . Проверено 11 сентября 2014 г.
- ^ «База данных биообразцов RDF» . EMBL-EBI (HTML) . Проверено 11 сентября 2014 г.
- ^ «О биообразцах» . EMBL-EBI (HTML) . Проверено 10 сентября 2014 г.
- ^ «Проект GitHub базы данных биообразцов EBI» . Гитхаб (HTML) . Проверено 10 сентября 2014 г.
- ^ Фолконбридж, А.; Бердетт, Т.; Брандизи, М.; Гостев, М.; Перейра, Р.; Васант, Д.; Сарканс, У.; Бразма, А.; Паркинсон, Х. (2013). «Обновления базы данных биообразцов в Европейском институте биоинформатики» . Исследования нуклеиновых кислот . 42 (Д1): Д50–Д52. дои : 10.1093/нар/gkt1081 . ISSN 0305-1048 . ПМЦ 3965081 . ПМИД 24265224 .
- ^ «Биообразцы: Краткий обзор» . EMBL-EBI (HTML). Архивировано из оригинала 10 сентября 2014 года . Проверено 10 сентября 2014 г.