Jump to content

Инструмент профилирования последовательностей

Инструмент профилирования последовательностей в биоинформатике — это тип программного обеспечения , которое представляет информацию, связанную с генетической последовательностью, именем гена или введенным ключевым словом. Такие инструменты обычно принимают такой запрос, как последовательность ДНК , РНК или белка или «ключевое слово», и выполняют поиск в одной или нескольких базах данных информации, связанной с этой последовательностью. Резюме и совокупные результаты предоставляются в стандартизированном формате с описанием информации, для сбора которой в противном случае потребовалось бы посещение множества небольших сайтов или прямой поиск в литературе. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и растущем количестве биоинформатических баз данных. Доступ к этим видам инструментов осуществляется через Интернет или через локально загружаемые исполняемые файлы.

Введение и использование

[ редактировать ]

Эпоха «постгеномики » породила ряд веб-инструментов и программного обеспечения для сбора, организации и доставки больших объемов информации о первичных последовательностях , а также белковых структур , аннотаций генов, выравнивания последовательностей и других распространенных биоинформатических задач. задачи.

В целом существует три типа баз данных и поставщиков услуг. Первый включает в себя популярные базы данных, находящиеся в общественном достоянии или с открытым доступом, поддерживаемые финансированием и грантами, такие как NCBI , ExPASy , Ensembl и PDB . Второй включает меньшие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примеры включают базу данных генома дрожжей , базу данных РНК . Третий и последний из них включает в себя частные корпоративные или институциональные базы данных, доступ к которым требует оплаты или институциональной принадлежности. Такие примеры редки, учитывая глобализацию общедоступных баз данных, за исключением случаев, когда предполагаемая услуга находится в стадии разработки или конечная точка анализа не имеет коммерческой ценности.

Типичные сценарии профилирования становятся актуальными, особенно в случаях первых двух групп, когда исследователи обычно хотят объединить информацию, полученную из нескольких источников, об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания последовательностей и поиска BLAST для идентификации гомологов интересующего их гена у других видов, а затем использовать эти результаты для поиска решенной структуры белка для одного из гомологов. Точно так же они могут также захотеть узнать вероятную вторичную структуру мРНК , кодирующей интересующий ген, или продает ли компания конструкцию ДНК , содержащую этот ген. Инструменты профилирования последовательностей служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.

Многие общедоступные базы данных уже тесно связаны друг с другом, поэтому дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно переплетены. Однако специализированные инструменты, организованные и размещенные конкретными исследовательскими группами, могут быть трудно интегрироваться в эти усилия по установлению связей, поскольку они узконаправлены, часто модифицируются или используют специальные версии распространенных форматов файлов. Преимущества инструментов профилирования последовательностей включают в себя возможность использовать несколько таких специализированных инструментов в одном запросе и представлять выходные данные с помощью общего интерфейса, возможность направлять выходные данные одного набора инструментов или поиск в базе данных на входные данные другого, а также способность распространять обязательства по хостингу и компиляции среди сети исследовательских групп и учреждений, а не в одном централизованном репозитории.

Профилировщики на основе ключевых слов

[ редактировать ]

Большинство инструментов профилирования, доступных сегодня в Интернете, попадают в эту категорию. Пользователь при посещении сайта/инструмента вводит любую соответствующую информацию, такую ​​как ключевое слово, например, дистрофия, диабет и т. д., или номера доступа GenBank , идентификатор PDB. Все релевантные результаты поиска представлены в формате, уникальном для основного направления каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, являются поисковыми системами , узкоспециализированными для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных результатов, которые могут возникнуть в традиционной поисковой системе, такой как Google . Большинство инструментов профилирования на основе ключевых слов допускают гибкие типы ввода ключевых слов, номера доступа из индексированных баз данных, а также традиционные дескрипторы ключевых слов.

Каждый инструмент профилирования имеет свою направленность и область интересов. Например, NCBI поисковая система Entrez разделяет результаты по категориям, так что пользователи, ищущие информацию о структуре белка, могут отбирать последовательности без соответствующей структуры, а пользователи, заинтересованные в изучении литературы по теме, могут просматривать рефераты статей, опубликованных в научных журналах. без отвлечения от результатов генов или последовательностей. База данных литературы по биологическим наукам PubMed — популярный инструмент для поиска литературы, хотя этот сервис почти не уступает более общей Google Scholar .


Службы агрегирования данных на основе ключевых слов, такие как Bioinformatic Harvester , предоставляют отчеты с различных сторонних серверов в формате «как есть» , поэтому пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждого отдельного компонента службы. Это особенно неоценимо, учитывая быстрое появление различных сайтов, предоставляющих различные инструменты для анализа последовательностей и манипуляций. Другой агрегированный веб-портал, Справочная база данных по белкам человека ( Hprd ), содержит вручную аннотированные и тщательно отобранные записи о белках человека. Таким образом, предоставляемая информация является как выборочной, так и полной, а формат запроса является гибким и интуитивно понятным. Плюсы разработки баз данных, курируемых вручную, включают представление корректурного материала и концепцию «авторитетов молекул», которые берут на себя ответственность за конкретные белки. Однако их минусы заключаются в том, что они обычно медленнее обновляются и могут не содержать очень новых или спорных данных.

Профилировщики на основе данных последовательности

[ редактировать ]

Типичный инструмент для профилирования последовательностей выполняет эту задачу еще дальше, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных, и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательностей BLAST от NCBI предоставляет ссылку из отчета о выравнивании на другую соответствующую информацию в его собственных базах данных, если такая конкретная информация существует.

Например, полученная запись, содержащая последовательность человека, будет содержать отдельную ссылку, ведущую к ее местоположению на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, соединяющую ее с базой данных структур. Sequerome , общедоступный инструмент, связывает весь отчет BLAST со многими сторонними серверами/сайтами, которые предоставляют высокоспецифичные услуги по манипуляциям с последовательностями, такие как карты рестриктаз , открытой рамки считывания анализ нуклеотидных последовательностей и предсказание вторичной структуры . Этот инструмент обеспечивает дополнительное преимущество, заключающееся в ведении журнала исследований операций, выполняемых пользователем, который затем можно удобно архивировать с помощью функций «почта», «печать» или «сохранение». Таким образом, вся операция исследования последовательности с использованием различных исследовательских инструментов и, таким образом, доведение проекта до завершения может быть завершена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов профилирования последовательностей будет включать в себя возможность онлайн-сотрудничества с исследователями для обмена журналами проектов и исследовательскими инструментами, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных о последовательностях и т. д. InstaSeq — это инструмент поиска на базе Google, который позволяет пользователю напрямую вводить последовательность и осуществлять поиск по всей Всемирной паутине. Эта уникальная поисковая система, единственная в своем роде, отличается от поиска в конкретных базах данных, например GenBank .

В результате пользователь может получить частный документ или страницу из менее известной базы данных практически из любой точки мира. Хотя в нынешнем сценарии профилировщиков на основе последовательностей очень мало, их ключевая роль станет очевидной, когда потребуется перекрестная обработка огромных объемов данных о последовательностях между порталами и доменами.

Будущий рост и направления

[ редактировать ]

Распространение инструментов биоинформатики для генетического анализа помогает исследователям идентифицировать и классифицировать гены и наборы генов, представляющие интерес для их работы; однако большое разнообразие инструментов, выполняющих по существу схожие агрегатные и аналитические функции, также может сбить с толку и расстроить новых пользователей. Децентрализация, поощряемая инструментами агрегирования, позволяет отдельным исследовательским группам поддерживать специализированные серверы, предназначенные для конкретных типов анализа данных, в ожидании, что их результаты будут собраны в более крупный отчет о гене или белке, представляющий интерес для других исследователей.

Данные, полученные в результате экспериментов на микрочипах, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, объемны и их трудно анализировать вручную; Усилия сотрудничества в области структурной геномики , направленные на быстрое решение большого количества весьма разнообразных белковых структур, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот стимул к разработке более комплексных и более удобных для пользователя методов профилирования последовательностей делает эту область исследований активной среди современных исследователей геномики.

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4f185c1a955c715575e4dbb157fa7968__1702308240
URL1:https://arc.ask3.ru/arc/aa/4f/68/4f185c1a955c715575e4dbb157fa7968.html
Заголовок, (Title) документа по адресу, URL1:
Sequence profiling tool - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)