Инструмент профилирования последовательностей

Инструмент профилирования последовательностей в биоинформатике — это тип программного обеспечения , которое представляет информацию, связанную с генетической последовательностью, именем гена или введенным ключевым словом. Такие инструменты обычно принимают такой запрос, как последовательность ДНК , РНК или белка или «ключевое слово», и выполняют поиск в одной или нескольких базах данных информации, связанной с этой последовательностью. Резюме и совокупные результаты предоставляются в стандартизированном формате с описанием информации, для сбора которой в противном случае потребовалось бы посещение множества небольших сайтов или прямой поиск в литературе. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и растущем количестве биоинформатических баз данных. Доступ к этим видам инструментов осуществляется через Интернет или через локально загружаемые исполняемые файлы.

Введение и использование

Эпоха «постгеномики » породила ряд веб-инструментов и программного обеспечения для сбора, организации и доставки больших объемов информации о первичных последовательностях , а также белковых структур , аннотаций генов, выравнивания последовательностей и других распространенных биоинформатических задач. задачи.

В целом существует три типа баз данных и поставщиков услуг. Первый включает в себя популярные базы данных, находящиеся в общественном достоянии или с открытым доступом, поддерживаемые финансированием и грантами, такие как NCBI , ExPASy , Ensembl и PDB . Второй включает меньшие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примеры включают базу данных генома дрожжей , базу данных РНК . Третий и последний из них включает в себя частные корпоративные или институциональные базы данных, доступ к которым требует оплаты или институциональной принадлежности. Такие примеры редки, учитывая глобализацию общедоступных баз данных, за исключением случаев, когда предполагаемая услуга находится в стадии разработки или конечная точка анализа не имеет коммерческой ценности.

Типичные сценарии профилирования становятся актуальными, особенно в случаях первых двух групп, когда исследователи обычно хотят объединить информацию, полученную из нескольких источников, об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания последовательностей и поиска BLAST для идентификации гомологов интересующего их гена у других видов, а затем использовать эти результаты для поиска решенной структуры белка для одного из гомологов. Точно так же они могут также захотеть узнать вероятную вторичную структуру мРНК , кодирующей интересующий ген, или продает ли компания конструкцию ДНК , содержащую этот ген. Инструменты профилирования последовательностей служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.

Многие общедоступные базы данных уже тесно связаны друг с другом, поэтому дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно переплетены. Однако специализированные инструменты, организованные и размещенные конкретными исследовательскими группами, могут быть трудно интегрироваться в эти усилия по установлению связей, поскольку они узконаправлены, часто модифицируются или используют специальные версии распространенных форматов файлов. Преимущества инструментов профилирования последовательностей включают в себя возможность использовать несколько таких специализированных инструментов в одном запросе и представлять выходные данные с помощью общего интерфейса, возможность направлять выходные данные одного набора инструментов или поиск в базе данных на входные данные другого, а также способность распространять обязательства по хостингу и компиляции среди сети исследовательских групп и учреждений, а не в одном централизованном репозитории.

Профилировщики на основе ключевых слов

Большинство инструментов профилирования, доступных сегодня в Интернете, попадают в эту категорию. Пользователь при посещении сайта/инструмента вводит любую соответствующую информацию, такую как ключевое слово, например, дистрофия, диабет и т. д., или номера доступа GenBank , идентификатор PDB. Все релевантные результаты поиска представлены в формате, уникальном для основного направления каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, являются поисковыми системами , узкоспециализированными для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных результатов, которые могут возникнуть в традиционной поисковой системе, такой как Google . Большинство инструментов профилирования на основе ключевых слов допускают гибкие типы ввода ключевых слов, номера доступа из индексированных баз данных, а также традиционные дескрипторы ключевых слов.

Каждый инструмент профилирования имеет свою направленность и область интересов. Например, NCBI поисковая система Entrez разделяет результаты по категориям, так что пользователи, ищущие информацию о структуре белка, могут отбирать последовательности без соответствующей структуры, а пользователи, заинтересованные в изучении литературы по теме, могут просматривать рефераты статей, опубликованных в научных журналах. без отвлечения от результатов генов или последовательностей. База данных литературы по биологическим наукам PubMed — популярный инструмент для поиска литературы, хотя этот сервис почти не уступает более общей Google Scholar .

Службы агрегирования данных на основе ключевых слов, такие как Bioinformatic Harvester , предоставляют отчеты с различных сторонних серверов в формате «как есть» , поэтому пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждого отдельного компонента службы. Это особенно неоценимо, учитывая быстрое появление различных сайтов, предоставляющих различные инструменты для анализа последовательностей и манипуляций. Другой агрегированный веб-портал, Справочная база данных по белкам человека ( Hprd ), содержит вручную аннотированные и тщательно отобранные записи о белках человека. Таким образом, предоставляемая информация является как выборочной, так и полной, а формат запроса является гибким и интуитивно понятным. Плюсы разработки баз данных, курируемых вручную, включают представление корректурного материала и концепцию «авторитетов молекул», которые берут на себя ответственность за конкретные белки. Однако их минусы заключаются в том, что они обычно медленнее обновляются и могут не содержать очень новых или спорных данных.

Профилировщики на основе данных последовательности

Типичный инструмент для профилирования последовательностей выполняет эту задачу еще дальше, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных, и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательностей BLAST от NCBI предоставляет ссылку из отчета о выравнивании на другую соответствующую информацию в его собственных базах данных, если такая конкретная информация существует.

Например, полученная запись, содержащая последовательность человека, будет содержать отдельную ссылку, ведущую к ее местоположению на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, соединяющую ее с базой данных структур. Sequerome , общедоступный инструмент, связывает весь отчет BLAST со многими сторонними серверами/сайтами, которые предоставляют высокоспецифичные услуги по манипуляциям с последовательностями, такие как карты рестриктаз , открытой рамки считывания анализ нуклеотидных последовательностей и предсказание вторичной структуры . Этот инструмент обеспечивает дополнительное преимущество, заключающееся в ведении журнала исследований операций, выполняемых пользователем, который затем можно удобно архивировать с помощью функций «почта», «печать» или «сохранение». Таким образом, вся операция исследования последовательности с использованием различных исследовательских инструментов и, таким образом, доведение проекта до завершения может быть завершена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов профилирования последовательностей будет включать в себя возможность онлайн-сотрудничества с исследователями для обмена журналами проектов и исследовательскими инструментами, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных о последовательностях и т. д. InstaSeq — это инструмент поиска на базе Google, который позволяет пользователю напрямую вводить последовательность и осуществлять поиск по всей Всемирной паутине. Эта уникальная поисковая система, единственная в своем роде, отличается от поиска в конкретных базах данных, например GenBank .

В результате пользователь может получить частный документ или страницу из менее известной базы данных практически из любой точки мира. Хотя в нынешнем сценарии профилировщиков на основе последовательностей очень мало, их ключевая роль станет очевидной, когда потребуется перекрестная обработка огромных объемов данных о последовательностях между порталами и доменами.

Будущий рост и направления

Распространение инструментов биоинформатики для генетического анализа помогает исследователям идентифицировать и классифицировать гены и наборы генов, представляющие интерес для их работы; однако большое разнообразие инструментов, выполняющих по существу схожие агрегатные и аналитические функции, также может сбить с толку и расстроить новых пользователей. Децентрализация, поощряемая инструментами агрегирования, позволяет отдельным исследовательским группам поддерживать специализированные серверы, предназначенные для конкретных типов анализа данных, в ожидании, что их результаты будут собраны в более крупный отчет о гене или белке, представляющий интерес для других исследователей.

Данные, полученные в результате экспериментов на микрочипах, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, объемны и их трудно анализировать вручную; Усилия сотрудничества в области структурной геномики , направленные на быстрое решение большого количества весьма разнообразных белковых структур, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот стимул к разработке более комплексных и более удобных для пользователя методов профилирования последовательностей делает эту область исследований активной среди современных исследователей геномики.

См. также

Ссылки

Пери С., Наварро Дж.Д., Кристиансен Т.З. и др. (январь 2004 г.). «Справочная база данных человеческих белков как источник открытий для протеомики» . Нуклеиновые кислоты Рез . 32 (Проблема с базой данных): D497–501. дои : 10.1093/nar/gkh070 . ПМК 308804 . ПМИД 14681466 .
Либель У; Киндлер Б; Пепперкок Р. (август 2004 г.). « «Комбайн»: быстрая метапоисковая система белковых ресурсов человека» . Биоинформатика . 20 (12): 1962–3. doi : 10.1093/биоинформатика/bth146 . ПМИД 14988114 .
Ганесан Н; Беннетт Н.Ф.; Велаутапиллаи М; Паттабираман Н; Сквайер Р; Кальянасундарам Б. (август 2005 г.). «Веб-интерфейс, облегчающий анализ последовательности и структуры отчетов о выравнивании BLAST» . БиоТехники . 39 (2): 186, 188. doi : 10.2144/05392BM05 . ПМИД 16116790 .
Битон Дж; Смит С. (ноябрь 2005 г.). «Google против PubMed» . Энн Р Колл Surg Engl . 87 (6): 491–2. дои : 10.1308/003588405X71207 . ЧВК 1964102 . ПМИД 16263030 .
Хантер Л; Коэн КБ (март 2006 г.). «Биомедицинская обработка языка: что за пределами PubMed?» . Мол. Клетка . 21 (5): 589–94. doi : 10.1016/j.molcel.2006.02.012 . ПМК 1702322 . ПМИД 16507357 .
Ганесан Н; Кальянасундарам Б; Велаутапиллаи М. (март 2007 г.). «Инструменты профилирования биоинформатических данных: прелюдия к метаболическому профилированию». Пак. Симп. Биокомпьютер. : 127–32. ПМИД 17990486 .