Jump to content

Матрица весов позиций

ШИМ часто изображаются графически в виде логотипов последовательностей .

Позиционно -весовая матрица (PWM) , также известная как позиционно-специфическая весовая матрица (PSWM) или позиционно-специфическая оценочная матрица (PSSM) , представляет собой обычно используемое представление мотивов (паттернов) в биологических последовательностях.

ШИМ часто получают из набора выровненных последовательностей, которые считаются функционально связанными и стали важной частью многих программных инструментов для обнаружения вычислительных мотивов.

Создание

[ редактировать ]

Преобразование последовательности в матрицу вероятности положения

[ редактировать ]

ШИМ имеет одну строку для каждого символа алфавита (4 строки для нуклеотидов в последовательностях ДНК или 20 строк для аминокислот в последовательностях белков ) и один столбец для каждой позиции в шаблоне. На первом этапе построения ШИМ создается базовая матрица частот позиций (PFM) путем подсчета вхождений каждого нуклеотида в каждую позицию. Теперь из PFM можно создать матрицу вероятности положения (PPM) путем деления прежнего количества нуклеотидов в каждой позиции на количество последовательностей, тем самым нормализуя значения. Формально, учитывая набор X из N выровненных последовательностей длины l элементы PPM M : , вычисляются

где я (1,..., Н ), j (1,..., l ), k — набор символов алфавита, а I(a=k) индикаторная функция , где I(a=k) равна 1, если a=k, и 0 в противном случае.

Например, учитывая следующие последовательности ДНК:

ГАГГТАААК
ТССГТААГТ
ЦАГГТТГГА
ACAGTCAGT
ТАГГТКАТТ
ТАГГТАКТГ
АТГГТААКТ
КАГГТАТАК
ТГТГТГАГТ
АГГТААГТ

Соответствующий PFM:

Таким образом, результирующая PPM равна: [1]

И PPM, и PWM предполагают статистическую независимость между позициями в модели, поскольку вероятности для каждой позиции рассчитываются независимо от других позиций. Из приведенного выше определения следует, что сумма значений для конкретной позиции (то есть суммирование по всем символам) равна 1. Таким образом, каждый столбец можно рассматривать как независимое полиномиальное распределение . Это позволяет легко вычислить вероятность последовательности с учетом PPM путем умножения соответствующих вероятностей в каждой позиции. Например, вероятность последовательности S = GAGGTAAAC, учитывая приведенное выше PPM M, можно рассчитать:

Псевдосчеты (или оценки Лапласа ) часто применяются при расчете PPM, если они основаны на небольшом наборе данных, чтобы избежать того, чтобы элементы матрицы имели значение 0. [2] Это эквивалентно умножению каждого столбца PPM на распределение Дирихле и позволяет рассчитать вероятность для новых последовательностей (то есть последовательностей, которые не были частью исходного набора данных). В приведенном выше примере без псевдосчетчиков любая последовательность, не имеющая G в 4-й позиции или T в 5-й позиции будет иметь вероятность 0, независимо от других позиций.

Преобразование матрицы вероятностей позиций в матрицу весов позиций

[ редактировать ]

Чаще всего элементы в ШИМ рассчитываются как логарифмические коэффициенты. То есть элементы PPM преобразуются с использованием фоновой модели. так что:

описывает работу элемента ШИМ (слева) , , можно рассчитать. Простейшая фоновая модель предполагает, что каждая буква встречается в наборе данных одинаково часто. То есть значение для всех символов алфавита (0,25 для нуклеотидов и 0,05 для аминокислот). Применение этого преобразования к PPM M сверху (без добавления псевдосчетов) дает:

The записи в матрице ясно показывают преимущество добавления псевдосчетчиков, особенно при использовании небольших наборов данных для построения M . Фоновая модель не обязательно должна иметь равные значения для каждого символа: например, при изучении организмов с высоким содержанием GC значения для С и G может быть увеличено с соответствующим уменьшением А и Т. значения

Когда элементы ШИМ рассчитываются с использованием логарифма правдоподобия, оценка последовательности может быть рассчитана путем сложения (а не умножения) соответствующих значений в каждой позиции в ШИМ. Оценка последовательности дает представление о том, насколько последовательность отличается от случайной последовательности. Оценка равна 0, если последовательность имеет одинаковую вероятность быть функциональным сайтом и быть случайным сайтом. Оценка больше 0, если это скорее функциональный сайт, чем случайный сайт, и меньше 0, если это скорее случайный сайт, чем функциональный сайт. [1] Оценка последовательности также может быть интерпретирована в физической структуре как энергия связи для этой последовательности.

Информационный контент

[ редактировать ]

Информационное содержание (IC) ШИМ иногда представляет интерес, поскольку оно говорит о том, насколько данный ШИМ отличается от равномерного распределения .

Информацией о наблюдении конкретного символа в определенной позиции мотива является:

Тогда ожидаемая (средняя) собственная информация конкретного элемента ШИМ равна:

Наконец, IC ШИМ представляет собой сумму ожидаемой собственной информации каждого элемента:

Часто более полезно рассчитывать информационное содержание с учетом фоновых частот букв изучаемых последовательностей, чем предполагать равные вероятности каждой буквы (например, содержание GC в ДНК термофильных бактерий варьируется от 65,3 до 70,8, [3] таким образом, мотив ATAT будет содержать гораздо больше информации, чем мотив CCGG). Таким образом, уравнение содержания информации становится

где фоновая частота буквы . Это соответствует расхождению Кульбака – Лейблера или относительной энтропии. Однако было показано, что при использовании PSSM для поиска геномных последовательностей (см. ниже) эта однородная коррекция может привести к переоценке важности разных оснований в мотиве из-за неравномерного распределения n-меров в реальных геномах, что приводит к к значительно большему количеству ложных срабатываний. [4]

Использование

[ редактировать ]

Существуют различные алгоритмы последовательного поиска попаданий ШИМ. Одним из примеров является алгоритм MATCH. [5] который был реализован в ModuleMaster. [6] В программном обеспечении possumsearch реализованы более сложные алгоритмы для быстрого поиска в базе данных с использованием ШИМ/ПССМ нуклеотидов, а также аминокислот. [7]

Базовый PWM/PSSM не может обрабатывать вставки и удаления. PSSM с дополнительными вероятностями вставки и удаления в каждой позиции можно интерпретировать как скрытую марковскую модель . Именно такой подход использует Pfam . [8] [9]

См. также

[ редактировать ]
  1. ^ Jump up to: а б Гиго, Родерик. «Введение в матрицы подсчета очков для конкретной позиции» . bioinformatica.upf.edu . Проверено 12 ноября 2013 г.
  2. ^ Нисида, К.; Фрит, MC; Накаи, К. (23 декабря 2008 г.). «Псевдосчеты сайтов связывания транскрипционных факторов» . Исследования нуклеиновых кислот . 37 (3): 939–944. дои : 10.1093/нар/gkn1019 . ПМК   2647310 . ПМИД   19106141 .
  3. ^ Александрушкина Н.И., Егорова Л.А. (1978). «Нуклеотидный состав ДНК термофильных бактерий рода Thermus». Микробиология . 47 (2): 250–2. ПМИД   661633 .
  4. ^ Эрилл I, О'Нил MC (2009). «Пересмотр методов идентификации сайтов связывания ДНК, основанных на теории информации» . БМК Биоинформатика . 10:57 . дои : 10.1186/1471-2105-10-57 . ПМК   2680408 . ПМИД   19210776 .
  5. ^ Кел А.Е. и др. (2003). «MATCHTM: инструмент для поиска сайтов связывания транскрипционных факторов в последовательностях ДНК» . Исследования нуклеиновых кислот . 31 (13): 3576–3579. дои : 10.1093/nar/gkg585 . ПМК   169193 . ПМИД   12824369 .
  6. ^ Врзодек, Клеменс; Шредер, Адриан; Дрегер, Андреас; Ванке, Дирк; Берендзен, Кеннет В.; Кронфельд, Марсель; Хартер, Клаус; Целль, Андреас (9 октября 2009 г.). «ModuleMaster: новый инструмент для расшифровки сетей регуляции транскрипции». Биосистемы . 99 (1): 79–81. doi : 10.1016/j.biosystems.2009.09.005 . ISSN   0303-2647 . ПМИД   19819296 .
  7. ^ Бекштетт, М.; и др. (2006). «Быстрые алгоритмы и программное обеспечение на основе индексов для сопоставления матриц оценок для конкретных позиций» . БМК Биоинформатика . 7 : 389. дои : 10.1186/1471-2105-7-389 . ПМЦ   1635428 . ПМИД   16930469 .
  8. ^ Ким, Сеён; Чикина, Мария. «PSC103, весна 2016 г. / HMM и анализ биологических последовательностей» (PDF) . csb.pitt.edu . Проверено 14 декабря 2023 г.
  9. ^ «Что такое профильные скрытые марковские модели?» . Пфам .
[ редактировать ]
  • 3PFDB - база данных профилей PSSM лучших представителей (BRP) белковых семейств, созданная с использованием нового подхода к интеллектуальному анализу данных.
  • UGENE – проектирование матриц PSS, интегрированный интерфейс к базам данных JASPAR, UniPROBE и SITECON.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 07b1d0fa485ee13113c73073312b68e8__1702664940
URL1:https://arc.ask3.ru/arc/aa/07/e8/07b1d0fa485ee13113c73073312b68e8.html
Заголовок, (Title) документа по адресу, URL1:
Position weight matrix - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)