Матрица весов позиций

ШИМ часто изображаются графически в виде логотипов последовательностей .

Позиционно -весовая матрица (PWM) , также известная как позиционно-специфическая весовая матрица (PSWM) или позиционно-специфическая оценочная матрица (PSSM) , представляет собой обычно используемое представление мотивов (паттернов) в биологических последовательностях.

ШИМ часто получают из набора выровненных последовательностей, которые считаются функционально связанными и стали важной частью многих программных инструментов для обнаружения вычислительных мотивов.

Фон

Создание

Преобразование последовательности в матрицу вероятности положения

ШИМ имеет одну строку для каждого символа алфавита (4 строки для нуклеотидов в последовательностях ДНК или 20 строк для аминокислот в последовательностях белков ) и один столбец для каждой позиции в шаблоне. На первом этапе построения ШИМ создается базовая матрица частот позиций (PFM) путем подсчета вхождений каждого нуклеотида в каждую позицию. Теперь из PFM можно создать матрицу вероятности положения (PPM) путем деления прежнего количества нуклеотидов в каждой позиции на количество последовательностей, тем самым нормализуя значения. Формально, учитывая набор X из N выровненных последовательностей длины l элементы PPM M : , вычисляются

M_{k,j}={\frac {1}{N}}\sum _{i=1}^{N}I(X_{i,j}=k),

где я $\in$ (1,..., Н ), j $\in$ (1,..., l ), k — набор символов алфавита, а I(a=k) — индикаторная функция , где I(a=k) равна 1, если a=k, и 0 в противном случае.

Например, учитывая следующие последовательности ДНК:

ГАГГТАААК ТССГТААГТ ЦАГГТТГГА ACAGTCAGT ТАГГТКАТТ ТАГГТАКТГ АТГГТААКТ КАГГТАТАК ТГТГТГАГТ АГГТААГТ

Соответствующий PFM:

M={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}3&6&1&0&0&6&7&2&1\\2&2&1&0&0&2&1&1&2\\1&1&7&10&0&1&1&5&1\\4&1&1&0&10&1&1&2&6\end{bmatrix}}.

Таким образом, результирующая PPM равна: ^[1]

M={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0.1\\0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\0.4&0.1&0.1&0.0&1.0&0.1&0.1&0.2&0.6\end{bmatrix}}.

И PPM, и PWM предполагают статистическую независимость между позициями в модели, поскольку вероятности для каждой позиции рассчитываются независимо от других позиций. Из приведенного выше определения следует, что сумма значений для конкретной позиции (то есть суммирование по всем символам) равна 1. Таким образом, каждый столбец можно рассматривать как независимое полиномиальное распределение . Это позволяет легко вычислить вероятность последовательности с учетом PPM путем умножения соответствующих вероятностей в каждой позиции. Например, вероятность последовательности S = GAGGTAAAC, учитывая приведенное выше PPM M, можно рассчитать:

p(S\vert M)=0.1\times 0.6\times 0.7\times 1.0\times 1.0\times 0.6\times 0.7\times 0.2\times 0.2=0.0007056.

Псевдосчеты (или оценки Лапласа ) часто применяются при расчете PPM, если они основаны на небольшом наборе данных, чтобы избежать того, чтобы элементы матрицы имели значение 0. ^[2] Это эквивалентно умножению каждого столбца PPM на распределение Дирихле и позволяет рассчитать вероятность для новых последовательностей (то есть последовательностей, которые не были частью исходного набора данных). В приведенном выше примере без псевдосчетчиков любая последовательность, не имеющая G в 4-й позиции или T в 5-й позиции будет иметь вероятность 0, независимо от других позиций.

Преобразование матрицы вероятностей позиций в матрицу весов позиций

Чаще всего элементы в ШИМ рассчитываются как логарифмические коэффициенты. То есть элементы PPM преобразуются с использованием фоновой модели. $b$ так что:

M_{k,j}=\mathrm {log_{2}} \;(M_{k,j}/b_{k}).

описывает работу элемента ШИМ (слева) , $M_{k,j}$ , можно рассчитать. Простейшая фоновая модель предполагает, что каждая буква встречается в наборе данных одинаково часто. То есть значение $b_{k}=1/\vert k\vert$ для всех символов алфавита (0,25 для нуклеотидов и 0,05 для аминокислот). Применение этого преобразования к PPM M сверху (без добавления псевдосчетов) дает:

M={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.26&1.26&-1.32&-\infty &-\infty &1.26&1.49&-0.32&-1.32\\-0.32&-0.32&-1.32&-\infty &-\infty &-0.32&-1.32&-1.32&-0.32\\-1.32&-1.32&1.49&2.0&-\infty &-1.32&-1.32&1.0&-1.32\\0.68&-1.32&-1.32&-\infty &2.0&-1.32&-1.32&-0.32&1.26\end{bmatrix}}.

The $-\infty$ записи в матрице ясно показывают преимущество добавления псевдосчетчиков, особенно при использовании небольших наборов данных для построения M . Фоновая модель не обязательно должна иметь равные значения для каждого символа: например, при изучении организмов с высоким содержанием GC значения для С и G может быть увеличено с соответствующим уменьшением А и Т. значения

Когда элементы ШИМ рассчитываются с использованием логарифма правдоподобия, оценка последовательности может быть рассчитана путем сложения (а не умножения) соответствующих значений в каждой позиции в ШИМ. Оценка последовательности дает представление о том, насколько последовательность отличается от случайной последовательности. Оценка равна 0, если последовательность имеет одинаковую вероятность быть функциональным сайтом и быть случайным сайтом. Оценка больше 0, если это скорее функциональный сайт, чем случайный сайт, и меньше 0, если это скорее случайный сайт, чем функциональный сайт. ^[1] Оценка последовательности также может быть интерпретирована в физической структуре как энергия связи для этой последовательности.

Информационный контент

Информационное содержание (IC) ШИМ иногда представляет интерес, поскольку оно говорит о том, насколько данный ШИМ отличается от равномерного распределения .

Информацией о наблюдении конкретного символа в определенной позиции мотива является:

-\log(p_{i,j})

Тогда ожидаемая (средняя) собственная информация конкретного элемента ШИМ равна:

-p_{i,j}\cdot \log(p_{i,j})

Наконец, IC ШИМ представляет собой сумму ожидаемой собственной информации каждого элемента:

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j})

Часто более полезно рассчитывать информационное содержание с учетом фоновых частот букв изучаемых последовательностей, чем предполагать равные вероятности каждой буквы (например, содержание GC в ДНК термофильных бактерий варьируется от 65,3 до 70,8, ^[3] таким образом, мотив ATAT будет содержать гораздо больше информации, чем мотив CCGG). Таким образом, уравнение содержания информации становится

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j}/p_{j})

где $p_{j}$ фоновая частота буквы $j$ . Это соответствует расхождению Кульбака – Лейблера или относительной энтропии. Однако было показано, что при использовании PSSM для поиска геномных последовательностей (см. ниже) эта однородная коррекция может привести к переоценке важности разных оснований в мотиве из-за неравномерного распределения n-меров в реальных геномах, что приводит к к значительно большему количеству ложных срабатываний. ^[4]

Использование

Существуют различные алгоритмы последовательного поиска попаданий ШИМ. Одним из примеров является алгоритм MATCH. ^[5] который был реализован в ModuleMaster. ^[6] В программном обеспечении possumsearch реализованы более сложные алгоритмы для быстрого поиска в базе данных с использованием ШИМ/ПССМ нуклеотидов, а также аминокислот. ^[7]

Базовый PWM/PSSM не может обрабатывать вставки и удаления. PSSM с дополнительными вероятностями вставки и удаления в каждой позиции можно интерпретировать как скрытую марковскую модель . Именно такой подход использует Pfam . ^[8]^[9]

См. также

ScerTF

Ссылки

^ Jump up to: ^а ^б Гиго, Родерик. «Введение в матрицы подсчета очков для конкретной позиции» . bioinformatica.upf.edu . Проверено 12 ноября 2013 г.
^ Нисида, К.; Фрит, MC; Накаи, К. (23 декабря 2008 г.). «Псевдосчеты сайтов связывания транскрипционных факторов» . Исследования нуклеиновых кислот . 37 (3): 939–944. дои : 10.1093/нар/gkn1019 . ПМК 2647310 . ПМИД 19106141 .
^ Александрушкина Н.И., Егорова Л.А. (1978). «Нуклеотидный состав ДНК термофильных бактерий рода Thermus». Микробиология . 47 (2): 250–2. ПМИД 661633 .
^ Эрилл I, О'Нил MC (2009). «Пересмотр методов идентификации сайтов связывания ДНК, основанных на теории информации» . БМК Биоинформатика . 10:57 . дои : 10.1186/1471-2105-10-57 . ПМК 2680408 . ПМИД 19210776 .
^ Кел А.Е. и др. (2003). «MATCHTM: инструмент для поиска сайтов связывания транскрипционных факторов в последовательностях ДНК» . Исследования нуклеиновых кислот . 31 (13): 3576–3579. дои : 10.1093/nar/gkg585 . ПМК 169193 . ПМИД 12824369 .
^ Врзодек, Клеменс; Шредер, Адриан; Дрегер, Андреас; Ванке, Дирк; Берендзен, Кеннет В.; Кронфельд, Марсель; Хартер, Клаус; Целль, Андреас (9 октября 2009 г.). «ModuleMaster: новый инструмент для расшифровки сетей регуляции транскрипции». Биосистемы . 99 (1): 79–81. doi : 10.1016/j.biosystems.2009.09.005 . ISSN 0303-2647 . ПМИД 19819296 .
^ Бекштетт, М.; и др. (2006). «Быстрые алгоритмы и программное обеспечение на основе индексов для сопоставления матриц оценок для конкретных позиций» . БМК Биоинформатика . 7 : 389. дои : 10.1186/1471-2105-7-389 . ПМЦ 1635428 . ПМИД 16930469 .
^ Ким, Сеён; Чикина, Мария. «PSC103, весна 2016 г. / HMM и анализ биологических последовательностей» (PDF) . csb.pitt.edu . Проверено 14 декабря 2023 г.
^ «Что такое профильные скрытые марковские модели?» . Пфам .

Внешние ссылки

3PFDB - база данных профилей PSSM лучших представителей (BRP) белковых семейств, созданная с использованием нового подхода к интеллектуальному анализу данных.
UGENE – проектирование матриц PSS, интегрированный интерфейс к базам данных JASPAR, UniPROBE и SITECON.

[guigo-pssms-1] Jump up to: ^а ^б Гиго, Родерик. «Введение в матрицы подсчета очков для конкретной позиции» . bioinformatica.upf.edu . Проверено 12 ноября 2013 г.

[2] Нисида, К.; Фрит, MC; Накаи, К. (23 декабря 2008 г.). «Псевдосчеты сайтов связывания транскрипционных факторов» . Исследования нуклеиновых кислот . 37 (3): 939–944. дои : 10.1093/нар/gkn1019 . ПМК 2647310 . ПМИД 19106141 .

[Aleksandrushkina1978-3] Александрушкина Н.И., Егорова Л.А. (1978). «Нуклеотидный состав ДНК термофильных бактерий рода Thermus». Микробиология . 47 (2): 250–2. ПМИД 661633 .

[Erill2009-4] Эрилл I, О'Нил MC (2009). «Пересмотр методов идентификации сайтов связывания ДНК, основанных на теории информации» . БМК Биоинформатика . 10:57 . дои : 10.1186/1471-2105-10-57 . ПМК 2680408 . ПМИД 19210776 .

[Kel2003-5] Кел А.Е. и др. (2003). «MATCHTM: инструмент для поиска сайтов связывания транскрипционных факторов в последовательностях ДНК» . Исследования нуклеиновых кислот . 31 (13): 3576–3579. дои : 10.1093/nar/gkg585 . ПМК 169193 . ПМИД 12824369 .

[Wrzodek2010-6] Врзодек, Клеменс; Шредер, Адриан; Дрегер, Андреас; Ванке, Дирк; Берендзен, Кеннет В.; Кронфельд, Марсель; Хартер, Клаус; Целль, Андреас (9 октября 2009 г.). «ModuleMaster: новый инструмент для расшифровки сетей регуляции транскрипции». Биосистемы . 99 (1): 79–81. doi : 10.1016/j.biosystems.2009.09.005 . ISSN 0303-2647 . ПМИД 19819296 .

[Beckstette2006-7] Бекштетт, М.; и др. (2006). «Быстрые алгоритмы и программное обеспечение на основе индексов для сопоставления матриц оценок для конкретных позиций» . БМК Биоинформатика . 7 : 389. дои : 10.1186/1471-2105-7-389 . ПМЦ 1635428 . ПМИД 16930469 .

[8] Ким, Сеён; Чикина, Мария. «PSC103, весна 2016 г. / HMM и анализ биологических последовательностей» (PDF) . csb.pitt.edu . Проверено 14 декабря 2023 г.

[9] «Что такое профильные скрытые марковские модели?» . Пфам .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]