CS-BLAST

CS-BLAST
Разработчик(и)	Ангермюллер С., Бигерт А. и Зёдинг Дж.
Стабильная версия	2.2.3 / 7 декабря 2013 г.
Предварительный выпуск	1.1 / 14 апреля 2009 г .; 15 лет назад
Репозиторий	github .с /soedinglab /csblast ;
Написано в	С++
Доступно в	Английский
Тип	биоинформатики Инструмент
Лицензия	Лицензия GNU GPL v3
Веб-сайт	http://wwwuser.gwdg.de/~compbiol/data/csblast/releases/ , https://github.com/soedinglab/csblast

CS-BLAST ^[1] ^[2] ^[3] (Context-Specific BLAST) — это инструмент, который ищет последовательность белка , которая расширяет BLAST (Basic Local Alignment Search Tool) . ^[4] использование контекстно-зависимых вероятностей мутаций. Более конкретно, CS-BLAST извлекает контекстно-зависимые сходства аминокислот в каждой последовательности запроса из коротких окон в последовательностях запроса. Использование CS-BLAST удваивает чувствительность и значительно улучшает качество центровки без потери скорости по сравнению с BLAST. CSI-BLAST (Context-Specific Iterated BLAST) — это контекстно-зависимый аналог PSI-BLAST. ^[5] (Итерированный BLAST с учетом позиции), который вычисляет профиль мутации с вероятностями замены и смешивает его с профилем запроса. CSI-BLAST (Context-Specific Iterated BLAST) — это контекстно-зависимый аналог PSI-BLAST (Position-Specific Iterated BLAST). Обе эти программы доступны в виде веб-сервера и доступны для бесплатного скачивания.

Фон

Гомология — это отношения между биологическими структурами или последовательностями, происходящими от общего предка. Гомологичные белки (белки, имеющие общее происхождение) выводятся на основании сходства их последовательностей. Вывод о гомологичных отношениях включает в себя вычисление баллов выровненных пар за вычетом штрафов за пробелы. Выравнивание пар белков идентифицирует области сходства, указывающие на связь между двумя или более белками. Чтобы иметь гомологичные отношения, сумма баллов по всем выровненным парам аминокислот или нуклеотидов должна быть достаточно высокой [2]. Стандартные методы сравнения последовательностей используют матрицу замены для этого [4]. Сходства между аминокислотами или нуклеотидами количественно оцениваются в этих матрицах замен. Оценка замены ( $S$ ) аминокислот $a$ и $b$ можно ли написать так:

$S(a,b)=const\times \log \left({\frac {P(a|b)}{P(a)}}\right)$

где $P(a|b)$ обозначает вероятность аминокислоты $a$ мутируя в аминокислоту $b$ [2]. В большом наборе выравниваний последовательностей подсчет количества аминокислот, а также количества выровненных пар. $(a,b)$ позволит вам вывести вероятности $P(a|b)$ и $P(a)$ .

Поскольку белковым последовательностям необходимо поддерживать стабильную структуру, вероятность замены остатка во многом определяется структурным контекстом того места, где он находится. В результате матрицы замещения обучаются для структурных контекстов. Поскольку контекстная информация кодируется в вероятностях перехода между состояниями, смешивание вероятностей мутаций из матриц замен, взвешенных для соответствующих состояний, обеспечивает улучшенные качества выравнивания по сравнению со стандартными матрицами замен. CS-BLAST совершенствует эту концепцию. На рисунке показана эквивалентность последовательности к последовательности и профиля к последовательности с помощью матрицы выравнивания. Профиль запроса является результатом искусственных мутаций, в которых высота столбцов пропорциональна вероятностям соответствующих аминокислот.

(ЗДЕСЬ НУЖНО РАЗМЕСТИТЬ РИСУНОК, ЭТО ЗАГОЛОВОК) «Алгоритмы поиска/выравнивания последовательностей находят путь, который максимизирует сумму оценок сходства (цветовая маркировка от синего до красного). Оценки матрицы замен эквивалентны оценкам профиля, если профиль последовательности (цветная гистограмма) генерируется из последовательности запроса путем добавления искусственных мутаций с помощью схемы псевдоподсчета матрицы замен. Высота столбцов гистограммы представляет собой долю аминокислот в столбцах профиля».

Производительность

CS-BLAST значительно улучшает качество выравнивания во всем диапазоне идентичности последовательностей, особенно при сложных выравниваниях по сравнению с обычными BLAST и PSI-BLAST. PSI-BLAST (Position-Specific Iterated BLAST) работает примерно с той же скоростью на итерацию, что и обычный BLAST, но способен обнаруживать более слабые сходства последовательностей, которые все еще биологически значимы. Качество выравнивания основано на чувствительности и точности выравнивания.

Качество выравнивания

Чувствительность выравнивания измеряется путем правильного сравнения предсказанных выравниваний пар остатков с общим количеством возможных выравниваемых пар. Это рассчитывается с помощью дроби: (пары выровнены правильно)/(пары структурно выровнены)

Точность выравнивания измеряется правильностью выровненных пар остатков. Это рассчитывается с помощью дроби: (пары выровнены правильно)/(пары выровнены)

Эффективность поиска

График представляет собой эталон, который Бигерт и Зёдинг использовали для оценки обнаружения гомологии. Тест сравнивает CS-BLAST с BLAST, используя истинные положительные результаты из одного и того же суперсемейства и ложные положительные результаты пар из разных сгибов. (ГРАФИК НУЖНО ЗДЕСЬ)

Другой график использует обнаружение истинных положительных результатов (с масштабом, отличным от предыдущего графика) и ложных положительных результатов PSI-BLAST и CSI-BLAST, и сравнивает их для одной-пяти итераций. (ЗДЕСЬ НУЖНО ДРУГОЙ ГРАФИК)

CS-BLAST обеспечивает улучшенную чувствительность и качество выравнивания при сравнении последовательностей. Поиск последовательностей с помощью CS-BLAST более чем в два раза чувствительнее, чем BLAST. Он обеспечивает более качественное выравнивание и генерирует надежные значения E без потери скорости. CS-BLAST обнаруживает на 139% больше гомологичных белков при совокупной частоте ошибок 20%. При частоте ошибок 10% обнаруживается на 138% больше гомологов, а в самых простых случаях при частоте ошибок 1% CS-BLAST все еще был на 96% эффективнее, чем BLAST. Кроме того, CS-BLAST в 2 итерациях более чувствителен, чем 5 итераций PSI-BLAST. По сравнению с ними было обнаружено примерно на 15% больше гомологов.

Метод

Метод CS-BLAST выявляет сходство между аминокислотами, специфичными для контекста последовательности, для 13 окон остатков, центрированных по каждому остатку. CS-BLAST работает путем создания профиля последовательности для последовательности запроса с использованием контекстно-зависимых мутаций, а затем запускает метод поиска от профиля к последовательности.

CS-BLAST начинается с прогнозирования ожидаемых вероятностей мутаций для каждой позиции. Для определенного остатка выбирается окно последовательности из десяти окружающих остатков, как показано на изображении. Затем Бигерт и Сёдинг сравнили окно последовательности с библиотекой с тысячами контекстных профилей. Библиотека создается путем кластеризации репрезентативного набора окон профиля последовательности. Фактическое предсказание вероятностей мутаций достигается путем взвешенного смешивания центральных столбцов наиболее похожих контекстных профилей. Это выравнивает короткие негомологичные и неразрывные профили, что придает больший вес более совпадающим профилям, что упрощает их обнаружение. Профиль последовательности представляет собой множественное выравнивание гомологичных последовательностей и описывает, какие аминокислоты могут встречаться в каждом положении в родственных последовательностях. При использовании этого метода матрицы замены не нужны. Кроме того, нет необходимости в вероятностях перехода, поскольку контекстная информация кодируется внутри контекстных профилей. Это упрощает вычисления и позволяет масштабировать время выполнения линейно, а не квадратично.

Вероятность контекстно-зависимой мутации, вероятность наблюдения конкретной аминокислоты в гомологичной последовательности в данном контексте, рассчитывается путем взвешенного смешивания аминокислот в центральных столбцах наиболее похожих контекстных профилей. Изображение иллюстрирует расчет ожидаемых вероятностей мутации для конкретного остатка в определенном положении. Как видно на изображении, вся библиотека профилей контекста вносит свой вклад на основе сходства с профилем последовательности, специфичным для контекста, для последовательности запроса.

Модели

Прогнозируя вероятности замены, используя только контекст локальной последовательности аминокислоты, вы получаете преимущество, заключающееся в том, что вам не нужно знать структуру исследуемого белка, но при этом вы позволяете обнаруживать больше гомологичных белков, чем стандартные матрицы замен [4]. Подход Бигерта и Сёдинга к прогнозированию вероятностей замены был основан на генеративной модели. В другой статье в сотрудничестве с Ангермюллером они разрабатывают дискриминационный метод машинного обучения, который повышает точность прогнозирования [2].

Генеративная модель

Учитывая наблюдаемую переменную $x$ и целевая переменная $y$ генеративная модель определяет вероятности $P(x,y)$ и $P(y)$ отдельно. Чтобы спрогнозировать ненаблюдаемую целевую переменную, $y$ , теорема Байеса, $P(y|x)=\left({\frac {P(x|y)P(y)}{[\textstyle \sum _{y}P(x|y)P(y)\displaystyle ]}}\right)$

используется. Генеративная модель, как следует из названия, позволяет генерировать новые точки данных. $(x,y)$ . Совместное распределение описывается как $P(x,y)=P(x|y)P(y)$ . Для обучения генеративной модели используется следующее уравнение для максимизации совместной вероятности: $\prod \left({\frac {P(x_{n},y_{n})}{trainingData(x_{n},y_{n})}}\right)$ .

Дискриминационная модель

Дискриминативная модель представляет собой классификатор максимальной энтропии логистической регрессии. Цель дискриминационной модели состоит в том, чтобы предсказать вероятность замены в зависимости от контекста с учетом последовательности запроса. Дискриминативный подход к моделированию вероятностей замещения, $P(a|C_{l})$ где $C_{l}$ описывает последовательность аминокислот вокруг позиции $l$ последовательности, основан на $K$ состояния контекста. Состояния контекста характеризуются весом эмиссии параметров ( $v_{k}(a)$ ), вес смещения ( $\pi _{k}$ ) и вес контекста ( $\lambda _{k}(j,a)$ ) [2]. Вероятности выбросов из контекстного состояния задаются весами выбросов следующим образом: $d=1$ к $20$ : $P(a|k)=\left({\frac {exp(v_{k}(a))}{\sum exp(v_{k}(a'))}}\right)$

где $P(a|k)$ — вероятность выброса и — состояние контекста. В дискриминативном подходе вероятность состояния контекста $k$ данный контекст $C_{l}$ моделируется непосредственно экспонентой аффинной функции профиля контекстной учетной записи, где $C_{l}(j,a)$ это профиль подсчета контекста с константой нормализации $Z(C_{l})$ нормализует вероятность до 1. Это уравнение имеет следующий вид, где первое суммирование принимает $j=-d$ к $d$ и второе суммирование занимает $a=1$ к $20$ : $P(k|C_{l})=\left({\frac {1}{Z(C_{l})}}exp(\pi _{k}+\pi \sum \sum \lambda _{k}(j,a)(C_{l}(j,a))\right)$ .

Как и в генеративной модели, целевое распределение получается путем смешивания вероятностей выбросов каждого состояния контекста, взвешенных по сходству.

Использование CS-BLAST

Набор инструментов MPI Bioinformatics на интерактивном веб-сайте и сервисе, который позволяет любому проводить комплексный и совместный анализ белков с помощью множества различных инструментов, включая CS-BLAST, а также PSI-BLAST [1]. Этот инструмент позволяет вводить белок и выбирать параметры для настройки анализа. Он также может пересылать выходные данные другим инструментам.

См. также

Ссылки

^ Ангермюллер, К.; Бигерт, А.; Сёдинг, Дж. (декабрь 2012 г.). «Дискриминативное моделирование вероятностей замены аминокислот в зависимости от контекста» . Биоинформатика . 28 (24): 3240–7. doi : 10.1093/биоинформатика/bts622 . hdl : 11858/00-001M-0000-0015-8D22-F . ПМИД 23080114 .
^ Бигерт, А.; Сёдинг, Дж. (март 2009 г.). «Профили контекстно-зависимых последовательностей для поиска гомологии» (PDF) . Proc Natl Acad Sci США . 106 (10): 3770–5. Бибкод : 2009PNAS..106.3770B . дои : 10.1073/pnas.0810767106 . ПМК 2645910 . ПМИД 19234132 .
^ «Разработаны более эффективные методы поиска последовательностей генов и белков» . ScienceDaily. 7 марта 2009 г. Проверено 14 августа 2009 г.
^ Альтшул С.Ф., Гиш В., Миллер В., Майерс Э.В., Липман DJ (1990). «Базовый инструмент поиска локального выравнивания». Дж Мол Биол . 215 (3): 403–410. дои : 10.1016/S0022-2836(05)80360-2 . ПМИД 2231712 .
^ Альтшул С.Ф.; Мэдден ТЛ; Шеффер А.А.; Чжан Дж; Чжан Цзы; Миллер В; Липман DJ. (1997). «Gapped BLAST и PSI-BLAST: новое поколение программ поиска по базам данных белков» . Нуклеиновые кислоты Рез . 25 (17): 3389–3402. дои : 10.1093/нар/25.17.3389 . ПМК 146917 . ПМИД 9254694 .

[1] Альва, Викрам, Сын-Зин Нам, Йоханнес Сёдинг и Андрей Н. Лупас. «Набор инструментов биоинформатики MPI как интегративная платформа для расширенного анализа последовательности и структуры белков». Nucleic Acids Research 44. Проблема веб-сервера (2016 г.): W410-415. НКБИ . Веб. 2 ноября 2016 г.

[2] Ангермюллер, Кристоф, Андреас Бигерт и Йоханнес Зёдинг. «Дискриминативное моделирование свойств замены аминокислот, специфичных для контекста» БИОИНФОРМАТИКА 28.24 (2012): 3240-247. Оксфордские журналы . Веб. 2 ноября 2016 г.

[3] Астшул, Стивен Ф. и др. «Gapped BLAST и PSI-BLAST: новое поколение программ поиска в базе данных белков». Nucleic Acids Research 25.17 (1997): 3389-402. Издательство Оксфордского университета. Распечатать

[4] Бигерт А. и Дж. Сёдинг. «Профили, специфичные для контекста последовательности, для поиска гомологии». Труды Национальной академии наук 106.10 (2009): 3770-3775. ПНАС. Веб. 23 октября 2016 г.

Внешние ссылки

CS-BLAST — бесплатный сервер в Мюнхенском университете (LMU)
CS-BLAST — бесплатный сервер в Институте Макса Планка в Тюбингене
Исходный код CS-BLAST

[csdis-1] Ангермюллер, К.; Бигерт, А.; Сёдинг, Дж. (декабрь 2012 г.). «Дискриминативное моделирование вероятностей замены аминокислот в зависимости от контекста» . Биоинформатика . 28 (24): 3240–7. doi : 10.1093/биоинформатика/bts622 . hdl : 11858/00-001M-0000-0015-8D22-F . ПМИД 23080114 .

[csgen-2] Бигерт, А.; Сёдинг, Дж. (март 2009 г.). «Профили контекстно-зависимых последовательностей для поиска гомологии» (PDF) . Proc Natl Acad Sci США . 106 (10): 3770–5. Бибкод : 2009PNAS..106.3770B . дои : 10.1073/pnas.0810767106 . ПМК 2645910 . ПМИД 19234132 .

[betterseqSD-3] «Разработаны более эффективные методы поиска последовательностей генов и белков» . ScienceDaily. 7 марта 2009 г. Проверено 14 августа 2009 г.

[4] Альтшул С.Ф., Гиш В., Миллер В., Майерс Э.В., Липман DJ (1990). «Базовый инструмент поиска локального выравнивания». Дж Мол Биол . 215 (3): 403–410. дои : 10.1016/S0022-2836(05)80360-2 . ПМИД 2231712 .

[5] Альтшул С.Ф.; Мэдден ТЛ; Шеффер А.А.; Чжан Дж; Чжан Цзы; Миллер В; Липман DJ. (1997). «Gapped BLAST и PSI-BLAST: новое поколение программ поиска по базам данных белков» . Нуклеиновые кислоты Рез . 25 (17): 3389–3402. дои : 10.1093/нар/25.17.3389 . ПМК 146917 . ПМИД 9254694 .

[1]

[2]

[3]

[4]

[5]