Интегративная биоинформатика
Интегративная биоинформатика — это дисциплина биоинформатики , которая фокусируется на проблемах интеграции данных для наук о жизни .
С появлением технологий высокой пропускной способности (HTP) в науках о жизни, особенно в молекулярной биологии , объем собираемых данных вырос в геометрической прогрессии. Более того, данные разбросаны по множеству как общедоступных, так и частных репозиториев и хранятся в большом количестве различных форматов . Такая ситуация делает поиск этих данных и проведение анализа, необходимого для извлечения новых знаний из полного набора имеющихся данных, очень затруднительным. Интегративная биоинформатика пытается решить эту проблему, обеспечивая единый доступ к данным науки о жизни.
Подходы
[ редактировать ]Семантические веб-подходы
[ редактировать ]В подходе семантической сети поиск данных с нескольких веб-сайтов или баз данных осуществляется с помощью метаданных . Метаданные — это машиночитаемый код, который определяет содержимое страницы программы, чтобы сравнение данных с условиями поиска было более точным. Это позволяет уменьшить количество нерелевантных или бесполезных результатов. Некоторые метаданные существуют в виде определений, называемых онтологиями , которые могут быть помечены как пользователями, так и программами; они служат для облегчения поиска с использованием ключевых терминов или фраз для поиска и возврата данных. [1] Преимущества этого подхода включают общее повышение качества данных, возвращаемых при поиске, а также при правильной маркировке онтологий находят записи, которые могут не содержать явного указания поискового термина, но по-прежнему актуальны. Одним из недостатков этого подхода является то, что возвращаемые результаты имеют формат исходной базы данных, и поэтому прямое сравнение может быть затруднено. Другая проблема заключается в том, что термины, используемые при разметке и поиске, иногда могут быть неоднозначными и вызывать путаницу в результатах. [2] Кроме того, подход семантической сети все еще считается новой технологией и в настоящее время не получил широкого распространения. [3]
Одним из текущих приложений поиска на основе онтологий в биомедицинских науках является GoPubMed , который осуществляет поиск в PubMed . базе данных научной литературы [1] Другое использование онтологий находится в таких базах данных, как SwissProt , Ensembl и TrEMBL , которые используют эту технологию для поиска в хранилищах данных, связанных с протеомом человека, тегов, связанных с поисковым запросом. [4]
Некоторые исследования в этой области были сосредоточены на создании новых и конкретных онтологий. [5] Другие исследователи работали над проверкой результатов существующих онтологий. [2] В конкретном примере цель Verschelde et al. заключалась в интеграции нескольких различных библиотек онтологий в более крупную, которая содержала больше определений различных специализаций (медицинских, молекулярно-биологических и т. д.) и могла различать неоднозначные теги; Результатом стал эффект, подобный хранилищу данных, с легким доступом к множеству баз данных посредством использования онтологий. [4] В отдельном проекте Бертенс и др. построил решетчатую структуру из трех онтологий (для анатомии и разработки модельных организмов) на новой рамочной онтологии родовых органов. Например, результаты поиска «сердца» в этой онтологии вернут планы сердца для каждого вида позвоночных, чьи онтологии были включены. Заявленная цель проекта — облегчить сравнительные и эволюционные исследования. [6]
Подходы к хранению данных
[ редактировать ]В стратегии хранилища данных данные из разных источников извлекаются и объединяются в единую базу данных. Например, различные наборы данных «омики» могут быть интегрированы для обеспечения биологического понимания биологических систем. Примеры включают данные геномики, транскриптомики, протеомики, интерактомики, метаболомики. В идеале изменения в этих источниках регулярно синхронизируются с интегрированной базой данных. Данные предоставляются пользователям в едином формате. Многие программы, направленные на помощь в создании таких складов, призваны быть чрезвычайно универсальными, чтобы их можно было реализовать в различных исследовательских проектах. [7] Одним из преимуществ этого подхода является то, что данные доступны для анализа на одном объекте с использованием единой схемы. Некоторые недостатки заключаются в том, что наборы данных часто огромны и их трудно поддерживать в актуальном состоянии. Другая проблема этого метода заключается в том, что составление такого склада обходится дорого. [8]
Стандартизированные форматы для различных типов данных (например, данных о белках) сейчас появляются под влиянием таких групп, как Инициатива по стандартам протеомики (PSI). Некоторые проекты хранилищ данных даже требуют представления данных в одном из этих новых форматов. [9]
Другие подходы
[ редактировать ]В интеллектуальном анализе данных используются статистические методы для поиска закономерностей в существующих данных. Этот метод обычно возвращает множество шаблонов, некоторые из которых являются ложными, а некоторые существенными, но все шаблоны, которые находит программа, должны оцениваться индивидуально. В настоящее время некоторые исследования сосредоточены на объединении существующих методов интеллектуального анализа данных с новыми методами анализа шаблонов, которые уменьшают необходимость тратить время на анализ каждого шаблона, обнаруженного исходной программой, но вместо этого возвращают несколько результатов с высокой вероятностью релевантности. [10] Одним из недостатков этого подхода является то, что он не объединяет несколько баз данных, а это означает, что сравнение между базами данных невозможно. Основным преимуществом этого подхода является то, что он позволяет генерировать новые гипотезы для проверки.
См. также
[ редактировать ]- Биологическая база данных
- Визуализация биологических данных
- InterMine — система хранения биологических данных с открытым исходным кодом.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Домс, А.; Шредер, М. (2005). «GoPubMed: изучение PubMed с помощью онтологии генов» (PDF) . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W783–6. дои : 10.1093/nar/gki470 . ПМК 1160231 . ПМИД 15980585 . Проверено 28 сентября 2012 г.
- ^ Перейти обратно: а б Ван Офуйзен, EAA и Леуниссен, JAM (2010). «Оценка эффективности трех источников семантических фоновых знаний в сравнительной анатомии». Журнал интегративной биоинформатики. Проверено 28 октября 2012 г.
- ^ Руттенберг и др. (2007). «Продвижение трансляционных исследований с помощью семантической сети». БМК Биоинформатика. Проверено 28 сентября 2012 г.
- ^ Перейти обратно: а б Вершельде и др. (2007). «Интеграция баз данных с помощью онтологий для поддержки обработки естественного языка и анализа биомедицинских данных». Журнал интегративной биоинформатики. Проверено 28 октября 2012 г.
- ^ Кастильо и др. (2012). «Построение сетей транскриптома кофе на основе семантики генных аннотаций». Журнал интегративной биоинформатики. Проверено 29 октября 2012 г.
- ^ Бертенс и др. (2011). «Общая система онтологии органов, применяемая к анатомии, развитию и физиологии сердца позвоночных». Журнал интегративной биоинформатики. Проверено 30 октября 2012 г.
- ^ Шах и др. (2005). «Атлас – хранилище данных для интегративной биоинформатики». БМК Биоинформатика. Проверено 30 сентября 2012 г.
- ^ Куэнне и др. (2007). «Использование технологии хранилища данных в биоинформатике сельскохозяйственных культур». Журнал интегративной биоинформатики. Проверено 30 сентября 2012 г.
- ^ Тиле и др. (2010). «Стратегии биоинформатики в науках о жизни: от обработки и хранения данных до извлечения биологических знаний». Журнал интегративной биоинформатики. Проверено 29 октября 2012 г.
- ^ Бельмамун и др. (2010). «Извлечение и анализ пространственно-временных закономерностей экспрессии генов в интегративной базе данных». Журнал интегративной биоинформатики. Проверено 27 октября 2012 г.