Jump to content

MG-RAST

MG-RAST
Оригинальный автор(ы) Аргоннская национальная лаборатория , Чикагский университет , Государственный университет Сан-Диего
Разработчик(и) Ф. Мейер, Д. Паарманн, М. Д'Суза, Р. Олсон, Э. М. Гласс, М. Кубал, Т. Пачян, А. Родригес, Р. Стивенс, А. Уилке, Дж. Уилкенинг, Р. А. Эдвардс
Первоначальный выпуск 2008 год ; 16 лет назад ( 2008 )
Стабильная версия
4.0 / 15 ноября 2016 г .; 7 лет назад ( 15.11.2016 )
Тип Биоинформатика
Веб-сайт http://metagenomics.anl.gov/

MG-RAST , сервер веб-приложений с открытым исходным кодом, облегчает автоматический филогенетический и функциональный анализ метагеномов . Он является одним из крупнейших хранилищ метагеномных данных и использует аббревиатуру «Метагеномные быстрые аннотации с использованием технологии подсистем» (MG-RAST). Эта платформа использует конвейер, который автоматически назначает функции метагеномным последовательностям, проводя сравнения последовательностей как на уровне нуклеотидов, так и на уровне аминокислот. Пользователи получают выгоду от филогенетической и функциональной информации об анализируемых метагеномах, а также от инструментов для сравнения различных наборов данных. MG-RAST также предлагает RESTful API для программного доступа.

Аргоннская национальная лаборатория Чикагского университета создала и поддерживает этот сервер. По состоянию на 29 декабря 2016 года MG-RAST проанализировал около 60 пар терабаз данных из более чем 150 000 наборов данных. Примечательно, что более 23 000 из этих наборов данных находятся в открытом доступе. Вычислительные ресурсы в настоящее время поступают из облака Magellan Министерства энергетики США в Аргоннской национальной лаборатории, веб-сервисов Amazon EC2 и различных традиционных кластеров.

MG-RAST был разработан как бесплатный общедоступный ресурс, предназначенный для анализа и хранения данных последовательностей метагенома. Он устраняет ключевое узкое место в анализе метагенома, устраняя зависимость от высокопроизводительных вычислений для аннотирования данных.

Значение MG-RAST становится очевидным в метагеномных и метатранскриптомных исследованиях, где обработка больших наборов данных часто требует интенсивного вычислительного анализа. Благодаря существенному сокращению затрат на секвенирование в последние годы ученые могут генерировать огромные объемы данных. Однако ограничивающим фактором стали затраты на вычисления. Например, недавнее исследование Университета Мэриленда оценило стоимость, превышающую 5 миллионов долларов за терабазу с использованием их конвейера метагеномного анализа CLOVR. Поскольку размер и количество наборов данных последовательностей продолжают расти, ожидается, что соответствующие затраты на анализ будут расти.

Помимо анализа, MG-RAST функционирует как инструмент хранилища метагеномных данных. Сбор и интерпретация метаданных имеют решающее значение для геномных и метагеномных исследований. MG-RAST решает проблемы, связанные с обменом, хранением и распространением этой информации. Система включает в себя минимальные стандарты контрольного списка и экологические пакеты для конкретных биомов, установленные Консорциумом по стандартам геномики. Кроме того, MG-RAST предоставляет удобный инструмент для загрузки метаданных во время отправки данных.

[ 1 ]

Конвейер для анализа метагеномных данных

[ редактировать ]

Приложение MG-RAST предоставляет комплексный набор услуг, включая автоматический контроль качества, аннотирование, сравнительный анализ и архивирование метагеномных и ампликонных последовательностей. Для достижения этих функций он использует комбинацию различных инструментов биоинформатики. Первоначально разработанный для анализа метагеномных данных, MG-RAST также расширяет поддержку обработки последовательностей ампликонов (16S, 18S и ITS) и метатранскриптома (RNA-seq). Однако важно отметить, что MG-RAST в настоящее время не имеет возможности прогнозировать кодирующие области эукариот, что ограничивает его полезность для анализа метагенома эукариот.

Процесс MG-RAST можно разделить на пять отдельных этапов:

Гигиена данных

[ редактировать ]

Конвейер MG-RAST включает ряд этапов контроля качества и удаления артефактов, обеспечивая надежную обработку наборов метагеномных и метатранскриптомных данных. Начальный этап включает в себя обрезку некачественных областей с помощью SolexaQA и исключение операций чтения неподходящей длины. В случае наборов данных метагенома и метатранскриптома вводится этап дерепликации для повышения эффективности обработки данных.

На следующем этапе используется DRISEE (оценка ошибок секвенирования, подразумеваемых при чтении дубликатов) для оценки ошибок секвенирования образцов путем измерения искусственных считываний дубликатов (ADR). Эта оценка способствует повышению точности последующего анализа.

Наконец, конвейер предлагает возможность проверять показания с помощью выравнивателя Bowtie. Он идентифицирует и удаляет чтения, которые обнаруживают совпадения, близкие к геномам модельных организмов, включая мух, мышей, коров и человека. Этот шаг помогает уточнить набор данных путем фильтрации операций чтения, связанных с потенциальными примесями или непредвиденными последовательностями.

Извлечение признаков

[ редактировать ]

В процессе идентификации генов MG-RAST использует подход машинного обучения, известный как FragGeneScan. Этот метод используется для идентификации последовательностей генов в метагеномных или метатранскриптомных данных.

Для идентификации последовательностей рибосомальной РНК MG-RAST инициирует поиск BLAT по сокращенной версии базы данных SILVA. Этот шаг позволяет системе точно определить и классифицировать последовательности рибосомальной РНК в наборе данных, способствуя более детальному пониманию биологического состава анализируемых метагеномов или метатранскриптомов.

Аннотация объекта

[ редактировать ]

Чтобы определить предполагаемые функции и аннотации генов, MG-RAST использует многоэтапный процесс. Первоначально он создает кластеры белков с уровнем идентичности 90%, используя реализацию UCLUST в QIIME. Затем для дальнейшего анализа выбирается самая длинная последовательность в каждом кластере.

Для анализа сходства MG-RAST использует sBLAT, распараллеленную версию алгоритма BLAT с использованием OpenMP. Поиск проводится по базе данных белков, полученной из M5nr, которая объединяет неизбыточные последовательности из различных баз данных, таких как GenBank, SEED, IMG, UniProt, KEGG и eggNOGs.

В случае считываний, связанных с последовательностями рРНК, этап кластеризации выполняется на уровне идентичности 97%. Самая длинная последовательность из каждого кластера выбирается в качестве репрезентативной и используется для поиска BLAT в базе данных M5rna. Эта база данных объединяет последовательности из SILVA, Greengenes и RDP, предоставляя исчерпывающую информацию для анализа последовательностей рибосомальной РНК.

Создание профиля

[ редактировать ]

Данные используются для нескольких ключевых продуктов, в первую очередь для профилей численности. Эти профили суммируют и реорганизуют информацию, содержащуюся в файлах сходства, в более удобочитаемом формате.

Загрузка данных

[ редактировать ]

Наконец, полученные профили численности загружаются в соответствующие базы данных.

Подробные этапы конвейера MG-RAST

[ редактировать ]
Трубопровод МГ-РАСТ Описание
qc_stats Генерация статистики контроля качества
предварительная обработка Предварительная обработка для обрезки регионов низкого качества из данных FASTQ.
дерепликация Дерепликация данных метагенома дробовика с использованием подхода k-mer
экран Удаление прочтений, которые почти точно совпадают с геномами модельных организмов (мухи, мыши, коровы и человека)
обнаружение РНК BLAT-поиск по редуцированной базе данных РНК для идентификации рибосомальной РНК
кластеризация РНК Затем рРНК-подобные прочтения группируются с идентичностью 97%.
РНК Симс Блат Поиск сходства BLAT для самого длинного представителя кластера по базе данных M5rna
генный вызов Подход машинного обучения FragGeneScan для прогнозирования кодирующих областей в последовательностях ДНК.
фильтрация аа Фильтровать белки
аа-кластеризация Кластерные белки на уровне идентичности 90% с использованием ucust
Я чувствую себя на вершине Анализ сходства BLAT для идентификации белка
аа симс аннотация Сходство последовательностей с базой данных белков из M5nr
РНК Симс аннотация Сходство последовательностей с базой данных РНК из M5rna
индекс сим последовательность Сходство последовательности индексов с источниками данных
сводка аннотаций md5 Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
сводка аннотаций функций Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
Краткое описание аннотации организма Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
Сводка аннотаций lca Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
сводка аннотаций онтологии Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
сводка аннотаций источника Создать сводный отчет: аннотацию md5, аннотацию функции, аннотацию организма, аннотацию LCAa, аннотацию онтологии и аннотацию источника.
сводная загрузка md5 Загрузить сводный отчет в проект
сводная нагрузка функции Загрузить сводный отчет в проект
суммарная нагрузка организма Загрузить сводный отчет в проект
суммарная нагрузка lca Загрузить сводный отчет в проект
сводная загрузка онтологии Загрузить сводный отчет в проект
завершенный этап
уведомить о завершении работы Отправить уведомление пользователю по электронной почте

Коммунальные услуги МГ-РАСТ

[ редактировать ]

G-RAST — это не просто мощный инструмент для анализа метагенома, это еще и сокровищница для исследования данных. Погрузитесь в разнообразный набор инструментов для визуализации и сравнения профилей метагенома в различных наборах данных. Фильтруйте по таким характеристикам, как состав, качество, функциональность или тип образца, чтобы адаптировать поиск. Погрузитесь глубже со статистическими выводами и экологическим анализом – и все это в удобном веб-интерфейсе.

См. также

[ редактировать ]
  1. ^ Поле, Рассвет; Амарал-Зеттлер, Линда; Кокрейн, Гай; Коул, Джеймс Р.; Давиндт, Питер; Гаррити, Джордж М.; Гилберт, Джек; Глекнер, Фрэнк Оливер; Хиршман, Линетт (21 июня 2011 г.). «Консорциум геномных стандартов» . ПЛОС Биология . 9 (6): e1001088. дои : 10.1371/journal.pbio.1001088 . ISSN   1545-7885 . ПМК   3119656 . ПМИД   21713030 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c7011aa648bc45133810572ca12b7b7__1715089680
URL1:https://arc.ask3.ru/arc/aa/6c/b7/6c7011aa648bc45133810572ca12b7b7.html
Заголовок, (Title) документа по адресу, URL1:
MG-RAST - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)