Jump to content

Анализ прямой связи

Анализ прямого связывания или DCA — это общий термин, включающий несколько методов анализа данных о последовательностях в вычислительной биологии . [1] Общая идея этих методов заключается в использовании статистического моделирования для количественной оценки силы прямой связи между двумя позициями биологической последовательности , исключая эффекты из других позиций. Это контрастирует с обычными показателями корреляции , которые могут быть большими, даже если между позициями нет прямой связи (отсюда и название «анализ прямой связи»). Такой прямой связью может быть, например, эволюционное давление на две позиции для поддержания взаимной совместимости в биомолекулярной структуре последовательности, что приводит к молекулярной коэволюции между двумя позициями.

DCA использовался для вывода о контактах белковых остатков . [1] [2] [3] [4] [5] предсказание структуры РНК , [6] [7] вывод о сетях белок-белкового взаимодействия , [8] [9] [10] [11] [12] моделирование фитнес-ландшафтов , [13] [14] [15] создание новых функциональных белков, [16] и моделирование эволюции белков . [17] [18]

Математическая модель и вывод

[ редактировать ]

Математическая модель

[ редактировать ]

В основе DCA лежит статистическая модель изменчивости внутри набора филогенетически связанных биологических последовательностей . При приспособлении к множественному выравниванию последовательностей (MSA) последовательностей длины , модель определяет вероятность для всех возможных последовательностей одинаковой длины. [1] Эту вероятность можно интерпретировать как вероятность того, что рассматриваемая последовательность принадлежит к тому же классу последовательностей, что и последовательности в MSA, например, классу всех белковых последовательностей, принадлежащих определенному семейству белков .

Обозначим последовательность через , с являются категориальными переменными, представляющими мономеры последовательности (если последовательности представляют собой, например, выровненные аминокислотные последовательности белков семейства белков, принять в качестве значения любую из 20 стандартных аминокислот ). Тогда вероятность последовательности в модели определяется как

где

  • представляют собой наборы действительных чисел, представляющих параметры модели (подробнее ниже)
  • — константа нормализации (действительное число), обеспечивающая

Параметры зависеть от одной позиции и символ на этой позиции. Их обычно называют полями [1] и представляют склонность символа находиться в определенной позиции. Параметры зависят от пар позиций и символы на этих позициях. Их обычно называют муфтами. [1] и представляют взаимодействие, т.е. термин, количественно определяющий, насколько совместимы символы в обеих позициях друг с другом. Модель полностью связная , поэтому между всеми парами позиций есть взаимодействия. Модель можно рассматривать как обобщение модели Изинга , в которой спины принимают не только два значения, но и любое значение из заданного конечного алфавита. Фактически, когда размер алфавита равен 2, модель сводится к модели Изинга. Поскольку она также напоминает одноименную модель , ее часто называют моделью Поттса . [19]

Даже знание вероятностей всех последовательностей не определяет параметры однозначно. Например, простое преобразование параметров

для любого набора действительных чисел оставляет вероятности одинаковыми. Функция правдоподобия также инвариантна относительно таких преобразований, поэтому данные не могут использоваться для фиксации этих степеней свободы (хотя априорные значения параметров могут сделать это). [3] ).

Условное обозначение, часто встречающееся в литературе. [3] [20] состоит в том, чтобы зафиксировать эти степени свободы так, чтобы норма Фробениуса матрицы связи

минимизируется (независимо для каждой пары позиций и ).

Максимальный вывод энтропии

[ редактировать ]

Чтобы оправдать модель Поттса, часто отмечают, что ее можно вывести, следуя принципу максимальной энтропии : [21] Для данного набора выборочных ковариаций и частот модель Поттса представляет распределение с максимальной энтропией Шеннона среди всех распределений, воспроизводящих эти ковариации и частоты. Для множественного выравнивания последовательностей выборочные ковариации определяются как

,

где это частота нахождения символов и на позициях и в той же последовательности в MSA, и частота нахождения символа на позиции . Модель Поттса является тогда уникальным распределением который максимизирует функционал

Первый член функционала — это Шеннона энтропия распределения . являются множителями Лагранжа, обеспечивающими , с предельная вероятность найти символы на позициях . Множитель Лагранжа обеспечивает нормализацию. Максимизация этого функционала и выявление

приводит к модели Поттса, описанной выше. Эта процедура дает только функциональную форму модели Поттса, тогда как числовые значения множителей Лагранжа (отождествляемых с параметрами) еще необходимо определить путем подгонки модели к данным.

Прямые связи и косвенная корреляция

[ редактировать ]

Центральным моментом DCA является интерпретация (которое можно представить в виде матрица, если есть возможные символы) как прямые связи. Если две позиции находятся под совместным эволюционным давлением (например, для поддержания структурной связи), можно было бы ожидать, что эти связи будут большими, потому что только последовательности с подходящими парами символов должны иметь значительную вероятность. С другой стороны, большая корреляция между двумя позициями не обязательно означает, что связи велики, поскольку большие связи, например, между позициями и может привести к большой корреляции между позициями и , опосредованное положением . [1] Фактически, такие косвенные корреляции были вовлечены в высокий уровень ложноположительных результатов при выводе о контактах белковых остатков с использованием таких показателей корреляции, как взаимная информация . [22]

Вывод модели Поттса о множественном выравнивании последовательностей (MSA) с использованием оценки максимального правдоподобия обычно невыполним с вычислительной точки зрения, поскольку необходимо вычислить константу нормализации. , что соответствует длине последовательности и возможные символы - сумма (что означает, например, для небольшого семейства белковых доменов с 30 позициями условия). Поэтому были разработаны многочисленные приближения и альтернативы:

Все эти методы приводят к той или иной форме оценки набора параметров. максимизация вероятности MSA. Многие из них включают регуляризацию или предварительные термины, чтобы гарантировать правильность постановки задачи или способствовать разреженному решению.

Приложения

[ редактировать ]

Прогнозирование контакта с остатками белка

[ редактировать ]

Возможная интерпретация больших значений связей в модели, адаптированной к MSA семейства белков, заключается в существовании консервативных контактов между позициями (остатками) в семействе. Такой контакт может привести к молекулярной коэволюции , поскольку мутация в одном из двух остатков без компенсирующей мутации в другом остатке, скорее всего, нарушит структуру белка и отрицательно повлияет на приспособленность белка. Поэтому ожидается, что пары остатков, для которых существует сильное селективное давление для поддержания взаимной совместимости, будут мутировать вместе или не мутировать вообще. Эта идея (которая была известна в литературе задолго до появления концепции DCA) [25] ) использовался для прогнозирования карт контактов белков , например, для анализа взаимной информации между белковыми остатками.

В рамках DCA – оценка силы прямого взаимодействия между парой остатков. часто определяется [3] [20] используя норму Фробениуса соответствующей матрицы связи и применяя коррекцию среднего продукта (APC):

где было определено выше и

.

Этот корректирующий термин был впервые введен для взаимной информации. [26] и используется для устранения предвзятости определенных позиций для получения больших . Также использовались оценки, инвариантные относительно преобразований параметров, не влияющих на вероятности. [1] Сортировка всех пар остатков по этому баллу приводит к получению списка, в котором верхняя часть списка сильно обогащена контактами остатков по сравнению с картой контактов гомологичного белка. [4] Высококачественные предсказания контактов остатков ценны как априорная информация для предсказания структуры белка . [4]

Вывод о белок-белковом взаимодействии

[ редактировать ]

DCA можно использовать для обнаружения консервативного взаимодействия между семействами белков и для предсказания того, какие пары остатков образуют контакты в белковом комплексе . [8] [9] Подобные прогнозы могут быть использованы при построении структурных моделей этих комплексов. [27] или при выводе о сетях белок-белкового взаимодействия, состоящих из более чем двух белков. [9] [12]

Моделирование фитнес-ландшафтов

[ редактировать ]

DCA можно использовать для моделирования ландшафта приспособленности и для прогнозирования влияния мутации в аминокислотной последовательности белка на его приспособленность. [13] [14]

[ редактировать ]

Онлайн-сервисы:

Исходный код:

Полезные приложения:

  1. ^ Jump up to: а б с д и ж г час Моркос, Ф.; Паньяни, А.; Лант, Б.; Бертолино, А.; Маркс, Д.С.; Сандер, К.; Зекчина, Р.; Онучич, Дж. Н.; Хва, Т.; Вейгт, М. (21 ноября 2011 г.). «Анализ коэволюции остатков методом прямого связывания фиксирует нативные контакты во многих семействах белков» . Труды Национальной академии наук . 108 (49): Е1293–Е1301. arXiv : 1110.5223 . Бибкод : 2011PNAS..108E1293M . дои : 10.1073/pnas.1111471108 . ПМК   3241805 . ПМИД   22106262 .
  2. ^ Камисетти, Х.; Овчинников С.; Бейкер, Д. (5 сентября 2013 г.). «Оценка полезности предсказаний контакта остатков с остатками на основе коэволюции в эпоху богатых последовательностей и структур» . Труды Национальной академии наук . 110 (39): 15674–15679. Бибкод : 2013PNAS..11015674K . дои : 10.1073/pnas.1314045110 . ПМЦ   3785744 . ПМИД   24009338 .
  3. ^ Jump up to: а б с д и Экеберг, Магнус; Левквист, Сесилия; Лан, Юэн; Вейгт, Мартин; Аурел, Эрик (11 января 2013 г.). «Улучшенное предсказание контактов в белках: использование псевдоправдоподобия для вывода моделей Поттса». Физический обзор E . 87 (1): 012707. arXiv : 1211.1281 . Бибкод : 2013PhRvE..87a2707E . дои : 10.1103/PhysRevE.87.012707 . ПМИД   23410359 . S2CID   27772365 .
  4. ^ Jump up to: а б с Маркс, Дебора С.; Колвелл, Люси Дж.; Шеридан, Роберт; Хопф, Томас А.; Паньяни, Андреа; Зекчина, Риккардо; Сандер, Крис; Сали, Андрей (7 декабря 2011 г.). «Трехмерная структура белка, рассчитанная на основе вариаций эволюционной последовательности» . ПЛОС ОДИН . 6 (12): e28766. Бибкод : 2011PLoSO...628766M . дои : 10.1371/journal.pone.0028766 . ПМЦ   3233603 . ПМИД   22163331 .
  5. ^ Экеберг, Магнус; Хартонен, Туомо; Аурел, Эрик (1 ноября 2014 г.). «Быстрая максимизация псевдоправдоподобия для анализа структуры белка методом прямого связывания из многих гомологичных аминокислотных последовательностей» . Журнал вычислительной физики . 276 : 341–356. arXiv : 1401.4832 . Бибкод : 2014JCoPh.276..341E . дои : 10.1016/j.jcp.2014.07.024 . ISSN   0021-9991 . S2CID   15635703 .
  6. ^ Де Леонардис, Элеонора; Лутц, Бенджамин; Рац, Себастьян; Кокко, Симона; Монассон, Реми; Щуг, Александр; Вейгт, Мартин (29 сентября 2015 г.). «Анализ коэволюции нуклеотидов методом прямого связывания облегчает предсказание вторичной и третичной структуры РНК» . Исследования нуклеиновых кислот . 43 (21): 10444–55. arXiv : 1510.03351 . дои : 10.1093/нар/gkv932 . ПМЦ   4666395 . ПМИД   26420827 .
  7. ^ Вайнреб, Калеб; Риссельман, Адам Дж.; Ингрэм, Джон Б.; Гросс, Торстен; Сандер, Крис; Маркс, Дебора С. (май 2016 г.). «3D РНК и функциональные взаимодействия в результате эволюционных связей» . Клетка . 165 (4): 963–975. дои : 10.1016/j.cell.2016.03.030 . ПМК   5024353 . ПМИД   27087444 .
  8. ^ Jump up to: а б Овчинников Сергей; Камисетти, Хетунандан; Бейкер, Дэвид (1 мая 2014 г.). «Надежное и точное предсказание взаимодействий остаток-остаток через интерфейсы белков с использованием эволюционной информации» . электронная жизнь . 3 : e02030. doi : 10.7554/eLife.02030 . ПМК   4034769 . ПМИД   24842992 .
  9. ^ Jump up to: а б с Фейнауэр, Кристоф; Сзурмант, Хендрик; Вейгт, Мартин; Паньяни, Андреа; Кескин, Озлем (16 февраля 2016 г.). «Коэволюция межбелковых последовательностей предсказывает известные физические взаимодействия в бактериальных рибосомах и опероне Trp» . ПЛОС ОДИН . 11 (2): e0149166. arXiv : 1512.05420 . Бибкод : 2016PLoSO..1149166F . дои : 10.1371/journal.pone.0149166 . ПМЦ   4755613 . ПМИД   26882169 .
  10. ^ дос Сантос, штат Р.Н.; Моркос, Ф.; Яна, Б.; Андрикопуло, AD; Онучич, Ю.Н. (4 сентября 2015 г.). «Димерные взаимодействия и комплексообразование с использованием прямых коэволюционных связей» . Научные отчеты . 5 : 13652. Бибкод : 2015NatSR...513652D . дои : 10.1038/srep13652 . ПМЦ   4559900 . ПМИД   26338201 .
  11. ^ Угуццони, Гвидо; Джон Ловис, Шалини; Отери, Франческо; Щуг, Александр; Сзурмант, Хендрик; Вейгт, Мартин (28 марта 2017 г.). «Крупномасштабная идентификация сигналов коэволюции через интерфейсы гомо-олигомерных белков путем анализа прямого связывания» . Труды Национальной академии наук . 114 (13): E2662–E2671. arXiv : 1703.01246 . Бибкод : 2017PNAS..114E2662U . дои : 10.1073/pnas.1615068114 . ISSN   0027-8424 . ПМК   5380090 . ПМИД   28289198 .
  12. ^ Jump up to: а б Кроче, Джанкарло; Гедре, Томас; Куэвас, Мария Вирджиния Руис; Кейдель, Виктория; Фиглюцци, Маттео; Сзурмант, Хендрик; Вейгт, Мартин (21 октября 2019 г.). «Многомасштабный коэволюционный подход к прогнозированию взаимодействий между белковыми доменами» . PLOS Вычислительная биология . 15 (10): e1006891. Бибкод : 2019PLSCB..15E6891C . дои : 10.1371/journal.pcbi.1006891 . ISSN   1553-7358 . ПМК   6822775 . ПМИД   31634362 .
  13. ^ Jump up to: а б Фергюсон, Эндрю Л.; Манн, Жаклин К.; Омарджи, Салеха; Ндунгу, Тумби; Уокер, Брюс Д.; Чакраборти, Аруп К. (март 2013 г.). «Перевод последовательностей ВИЧ в количественные ландшафты пригодности позволяет прогнозировать уязвимости вирусов для рационального дизайна иммуногенов» . Иммунитет . 38 (3): 606–617. doi : 10.1016/j.immuni.2012.11.022 . ПМЦ   3728823 . ПМИД   23521886 .
  14. ^ Jump up to: а б Фиглюцци, Маттео; Жакье, Эрве; Щуг, Александр; Тенайлон, Оливер; Вейгт, Мартин (январь 2016 г.). «Коэволюционный ландшафтный вывод и контекстная зависимость мутаций бета-лактамазы TEM-1» . Молекулярная биология и эволюция . 33 (1): 268–280. дои : 10.1093/molbev/msv211 . ПМЦ   4693977 . ПМИД   26446903 .
  15. ^ Асти, Лоренцо; Угуццони, Гвидо; Маркатили, Паоло; Паньяни, Андреа; Офран, Янай (13 апреля 2016 г.). «Модели максимальной энтропии секвенированных иммунных репертуаров прогнозируют сродство антиген-антитело» . PLOS Вычислительная биология . 12 (4): e1004870. Бибкод : 2016PLSCB..12E4870A . дои : 10.1371/journal.pcbi.1004870 . ПМК   4830580 . ПМИД   27074145 .
  16. ^ Расс, Уильям П.; Фиглюцци, Маттео; Стокер, Кристиан; Барра-Шарле, Пьер; Соколич, Михаил; Каст, Питер; Хилверт, Дональд; Монассон, Реми; Кокко, Симона; Вейгт, Мартин; Ранганатан, Рама (24 июля 2020 г.). «Эволюционная модель создания ферментов хоризматмутазы» . Наука . 369 (6502): 440–445. Бибкод : 2020Sci...369..440R . дои : 10.1126/science.aba3304 . ISSN   0036-8075 . ПМИД   32703877 . S2CID   220714458 .
  17. ^ Родригес-Ривас, Хуан; Кроче, Джанкарло; Маскат, Морин; Вейгт, Мартин (25 января 2022 г.). «Эпистатические модели предсказывают мутабельные участки в белках и эпитопах SARS-CoV-2» . Труды Национальной академии наук . 119 (4). arXiv : 2112.10093 . Бибкод : 2022PNAS..11913118R . дои : 10.1073/pnas.2113118119 . ISSN   0027-8424 . ПМЦ   8795541 . ПМИД   35022216 .
  18. ^ Виге, Люсиль; Кроче, Джанкарло; Петижан, Мари; Руппе, Этьен; Тенайон, Оливье; Вейгт, Мартин (12 июля 2022 г.). «Расшифровка полиморфизма в 61 157 геномах Escherichia coli с помощью ландшафтов эпистатических последовательностей» . Природные коммуникации . 13 (1): 4030. Бибкод : 2022NatCo..13.4030V . дои : 10.1038/s41467-022-31643-3 . ISSN   2041-1723 . ПМЦ   9276797 . ПМИД   35821377 .
  19. ^ Фейнауэр, Кристоф; Скварк, Марцин Дж.; Паньяни, Андреа; Аурел, Эрик (9 октября 2014 г.). «Улучшение прогнозирования контактов в трех измерениях» . PLOS Вычислительная биология . 10 (10): e1003847. arXiv : 1403.0379 . Бибкод : 2014PLSCB..10E3847F . дои : 10.1371/journal.pcbi.1003847 . ПМК   4191875 . ПМИД   25299132 .
  20. ^ Jump up to: а б с Бальдасси, Карло; Зампаро, Марко; Фейнауэр, Кристоф; Прокаччини, Андреа; Зекчина, Риккардо; Вейгт, Мартин; Паньяни, Андреа (24 марта 2014 г.). «Быстрое и точное многомерное гауссовское моделирование белковых семейств: прогнозирование контактов остатков и партнеров по взаимодействию белков» . ПЛОС ОДИН . 9 (3): е92721. arXiv : 1404.1240 . Бибкод : 2014PLoSO...992721B . дои : 10.1371/journal.pone.0092721 . ПМЦ   3963956 . ПМИД   24663061 .
  21. ^ Стейн, Ричард Р.; Маркс, Дебора С.; Сандер, Крис; Чен, Ши-Цзе (30 июля 2015 г.). «Вывод о парных взаимодействиях на основе биологических данных с использованием моделей вероятности с максимальной энтропией» . PLOS Вычислительная биология . 11 (7): e1004182. Бибкод : 2015PLSCB..11E4182S . дои : 10.1371/journal.pcbi.1004182 . ПМК   4520494 . ПМИД   26225866 .
  22. ^ Бургер, Лукас; ван Нимвеген, Эрик; Борн, Филип Э. (1 января 2010 г.). «Отделение прямой от непрямой совместной эволюции остатков в белковых соединениях» . PLOS Вычислительная биология . 6 (1): e1000633. Бибкод : 2010PLSCB...6E0633B . дои : 10.1371/journal.pcbi.1000633 . ПМЦ   2793430 . ПМИД   20052271 .
  23. ^ Вейгт, М.; Уайт, РА; Сзурмант, Х.; Хох, Дж.А.; Хва, Т. (30 декабря 2008 г.). «Идентификация прямых контактов остатков при межбелковом взаимодействии путем передачи сообщений» . Труды Национальной академии наук . 106 (1): 67–72. arXiv : 0901.1248 . Бибкод : 2009PNAS..106...67W . дои : 10.1073/pnas.0805923106 . ПМК   2629192 . ПМИД   19116270 .
  24. ^ Бартон, JP; Де Леонардис, Э.; Кук, А.; Кокко, С. (21 июня 2016 г.). «ACE: адаптивное расширение кластера для вывода графической модели с максимальной энтропией» . Биоинформатика . 32 (20): 3089–3097. doi : 10.1093/биоинформатика/btw328 . ПМИД   27329863 .
  25. ^ Гебель, Ульрике; Сандер, Крис; Шнайдер, Рейнхард; Валенсия, Альфонсо (апрель 1994 г.). «Коррелированные мутации и контакты остатков в белках». Белки: структура, функции и генетика . 18 (4): 309–317. дои : 10.1002/прот.340180402 . ПМИД   8208723 . S2CID   14978727 .
  26. ^ Данн, SD; Валь, Л.М.; Глур, Великобритания (5 декабря 2007 г.). «Взаимная информация без влияния филогении или энтропии значительно улучшает прогнозирование контакта остатков» . Биоинформатика . 24 (3): 333–340. doi : 10.1093/биоинформатика/btm604 . ПМИД   18057019 .
  27. ^ Щуг, А.; Вейгт, М.; Онучич, Дж. Н.; Хва, Т.; Сзурмант, Х. (17 декабря 2009 г.). «Белковые комплексы высокого разрешения на основе интеграции геномной информации с помощью молекулярного моделирования» . Труды Национальной академии наук . 106 (52): 22124–22129. Бибкод : 2009PNAS..10622124S . дои : 10.1073/pnas.0912100106 . ПМЦ   2799721 . ПМИД   20018738 .
  28. ^ Ярмолинская, Александра И.; Чжоу, Цинь; Сулковска, Иоанна И.; Моркос, Фарук (11 января 2019 г.). «DCA-MOL: плагин PyMOL для анализа прямых эволюционных связей». Журнал химической информации и моделирования . 59 (2): 625–629. doi : 10.1021/acs.jcim.8b00690 . ПМИД   30632747 . S2CID   58634008 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ff8ae1fb8ab4eb0f9ca8fdccbb829be3__1712735100
URL1:https://arc.ask3.ru/arc/aa/ff/e3/ff8ae1fb8ab4eb0f9ca8fdccbb829be3.html
Заголовок, (Title) документа по адресу, URL1:
Direct coupling analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)