Статистический потенциал
При структуры белка прогнозировании статистические потенциалы или потенциалы, основанные на знаниях, представляют собой оценочные функции, полученные на основе анализа известных белковых структур в Банке данных белков (PDB).
Оригинальным методом получения таких потенциалов является квазихимическое приближение , предложенное Миядзавой и Джерниганом. [2] Позже за ним последовал потенциал средней силы (статистический PMF [Примечание 1] ), разработанный Sippl. [3] Хотя полученные оценки часто рассматриваются как аппроксимации свободной энергии , называемой псевдоэнергией , такая физическая интерпретация неверна. [4] [5] Тем не менее, во многих случаях они применяются с успехом, поскольку часто коррелируют с реальными различиями в свободной энергии Гиббса . [6]
Обзор
[ редактировать ]Возможные особенности, которым можно присвоить псевдоэнергию, включают:
- межатомные расстояния ,
- углы скручивания ,
- воздействие растворителя ,
- или геометрия водородной связи .
Однако классическое применение основано на парных контактах или расстояниях аминокислот , создавая таким образом статистические межатомные потенциалы . Для парных контактов аминокислот статистический потенциал формулируется как матрица взаимодействия , которая присваивает вес или энергетическое значение каждой возможной паре стандартных аминокислот . Тогда энергия конкретной структурной модели представляет собой совокупную энергию всех парных контактов (определяемых как две аминокислоты на определенном расстоянии друг от друга) в структуре. Энергии определяются с использованием статистики контактов аминокислот в базе данных известных белковых структур (полученной из PDB ).
История
[ редактировать ]Начальная разработка
[ редактировать ]Во многих учебниках представлены статистические PMF, предложенные Сипплом. [3] как простое следствие распределения Больцмана применительно к попарным расстояниям между аминокислотами. Это неверное, но полезное начало для внедрения построения потенциала на практике. Распределение Больцмана применяется к определенной паре аминокислот: дается:
где это расстояние, — постоянная Больцмана , является температура и является статистической суммой , при этом
Количество – свободная энергия, приписываемая парной системе. Простая перестановка приводит к обратной формуле Больцмана : который выражает свободную энергию как функция :
Затем для построения PMF вводится так называемое эталонное состояние с соответствующим распределением и функция разделения и вычисляет следующую разность свободной энергии:
Эталонное состояние обычно возникает в результате гипотетического система, в которой специфические взаимодействия между аминокислотами отсутствуют. Второй срок, включающий и можно игнорировать, так как это константа.
На практике, оценивается по базе данных известных белков структуры, в то время как обычно получается в результате расчетов или симуляции. Например, может быть условная вероятность найти атомы валина и серина при данном расстояние друг от друга, что приводит к разнице свободной энергии . Полная разница свободной энергии белка, , тогда утверждается, что это сумма всех попарных свободных энергий:
где сумма пробегает все пары аминокислот (с ) и - их соответствующее расстояние. Во многих исследованиях не зависит от аминокислотной последовательности . [7]
Концептуальные вопросы
[ редактировать ]Интуитивно понятно, что низкое значение указывает что набор расстояний в структуре более вероятен в белках, чем в в эталонном состоянии. Однако физический смысл этих статистических PMF широко обсуждались с момента их появления. [4] [5] [8] [9] Основные проблемы:
- Неправильная интерпретация этого «потенциала» как истинного, физически обоснованного потенциала средней силы ;
- Природа так называемого эталонного состояния и его оптимальная формулировка;
- Справедливость обобщений за пределами парных расстояний.
Спорная аналогия
[ редактировать ]В ответ на вопрос о физической достоверности первое обоснование статистических PMF было предпринято Сипплом. [10] В ее основе лежала аналогия со статистической физикой жидкостей. Для жидкостей потенциал средней силы связан с функцией радиального распределения , который определяется: [11]
где и соответствующие вероятности найти две частицы на расстоянии друг от друга в жидкости и в эталонном состоянии. Для жидкостей эталонное состояние четко определен; он соответствует идеальному газу, состоящему из невзаимодействующие частицы. Двухчастичный потенциал средней силы связано с к:
Согласно теореме об обратимой работе, двухчастичная потенциал средней силы обратимая работа, необходимая для перенести две частицы в жидкости из бесконечного расстояния на расстояние друг от друга. [11]
Сиппл оправдал использование статистических PMF – через несколько лет после того, как он представил их для использования в предсказании структуры белка - путем апеллируя к аналогии с теоремой об обратимой работе жидкости. Для жидкостей, можно экспериментально измерить использование малоуглового рассеяния рентгеновских лучей ; для белков, получается из набора известных белковых структур, как объяснено в предыдущем раздел. Однако, как написал Бен-Наим в публикации на эту тему: [5]
[...] величины, называемые «статистическими потенциалами», «структурой основанные потенциалы», или «парные потенциалы средней силы», полученные из банк данных белков (PDB), не являются ни «потенциалами», ни «потенциалами «средняя сила» в обычном смысле, используемом в литературе по жидкости и растворы.
Более того, эта аналогия не решает вопроса о том, как указать подходящее эталонное состояние для белков.
Машинное обучение
[ редактировать ]В середине 2000-х годов авторы начали объединять несколько статистических потенциалов, полученных на основе различных структурных особенностей, в составные показатели . [12] Для этой цели они использовали методы машинного обучения , такие как машины опорных векторов (SVM). Вероятностные нейронные сети (PNN) также применялись для тренировки статистического потенциала, зависящего от расстояния и зависящего от позиции. [13] В 2016 году исследовательская лаборатория искусственного интеллекта DeepMind начала применять методы глубокого обучения для разработки статистического потенциала, зависящего от торсиона и расстояния. [14] Полученный метод, получивший название AlphaFold , выиграл 13-ю критическую оценку методов прогнозирования структуры белка (CASP), правильно предсказав наиболее точную структуру для 25 из 43 свободных областей моделирования .
Объяснение
[ редактировать ]Байесовская вероятность
[ редактировать ]Бейкер и сотрудники [15] обоснованные статистические PMF от байесовской точки зрения и использовал эти идеи при построении крупнозернистая энергетическая функция ROSETTA . Согласно к байесовскому исчислению вероятностей, условная вероятность структуры , учитывая аминокислотную последовательность , может быть написано как:
пропорциональна произведению вероятность раз раньше . Предполагая, что вероятность может быть аппроксимирована как произведение парных вероятностей и применяя теорему Байеса , вероятность можно записать как:
где продукт пробегает все пары аминокислот (с ), и расстояние между аминокислотами и . Очевидно, отрицательный логарифм выражения имеет ту же функциональную форму, что и классический статистические PMF попарных расстояний, где знаменатель играет роль эталонное состояние. У этого объяснения есть два недостатка: оно основано на необоснованном предположении, что вероятность может быть выражена как произведение парных вероятностей, и оно носит чисто качественный характер .
Вероятностная кинематика
[ редактировать ]Хамелрик и сотрудники [6] позже дал количественное объяснение статистическим потенциалам, согласно которому они аппроксимируют форму вероятностных рассуждений Ричарда Джеффри и назвал вероятностную кинематику . Этот вариант байесовского мышления (иногда называемый « обусловлением Джеффри ») позволяет обновлять априорное распределение на основе новой информации о вероятностях элементов разбиения на основе априорного распределения. С этой точки зрения: (i) нет необходимости предполагать, что база данных белковых структур, используемая для построения потенциалов, соответствует распределению Больцмана, (ii) статистические потенциалы легко обобщаются за пределы парных различий, и (iii) эталон соотношение определяется априорным распределением.
Эталонное соотношение
[ редактировать ]Выражения, напоминающие статистические PMF, естественным образом возникают в результате применения теория вероятностей для решения фундаментальной проблемы, возникающей в белке предсказание структуры: как улучшить несовершенную вероятность распределение по первой переменной используя вероятность распределение над второй переменной , с . [6] Обычно и являются мелкозернистыми и крупнозернистыми переменными соответственно. Например, может касаться локальная структура белка, в то время как может касаться попарных расстояний между аминокислотами. В этом случае например, может быть вектором двугранных углов, который определяет положения всех атомов (при условии идеальных длин связей и углов). Чтобы объединить два распределения так, чтобы локальная структура была распределена в соответствии с , пока попарные расстояния будут распределяться согласно , необходимо следующее выражение:
где это распределение по подразумевается . Соотношение в выражении соответствует в ПМФ. Обычно вводится путем выборки (обычно из библиотеки фрагментов) и не оценивается явно; соотношение, которое, напротив, оценивается явно, соответствует PMF Сиппла. Это объяснение является количественным и позволяет обобщить статистические PMF от парных расстояний до произвольных крупнозернистых переменных. Это также дает строгое определение эталонного состояния, которое подразумевается . В традиционных приложениях статистических PMF попарных расстояний обычно не хватает двух необходимые функции, чтобы сделать их полностью строгими: использование правильного распределения вероятностей по парным расстояниям в белках и признание того, что эталонное состояние строго определяется .
Приложения
[ редактировать ]Статистические потенциалы используются в качестве энергетических функций при оценке ансамбля структурных моделей, полученных с помощью моделирования гомологии или белковых нитей . Было показано, что множество статистических потенциалов с различной параметризацией успешно идентифицируют структуру естественного состояния из ансамбля ложных или неродных структур. [16] Статистические потенциалы используются не только для предсказания структуры белка , но и для моделирования пути сворачивания белка . [17] [18]
См. также
[ редактировать ]- Функции оценки для стыковки
- Дискретная оптимизированная энергия белка
- КАСП
- КАМЕО3D
- Потенциал Леннарда-Джонса
- Потенциал заказа облигаций
Примечания
[ редактировать ]Ссылки
[ редактировать ]- ^ Постик, Гийом; Хамелрик, Томас; Шомилье, Жак; Стратманн, Дирк (2018). «MyPMF: простой инструмент для создания статистических возможностей для оценки структурных моделей белков». Биохимия . 151 : 37–41. дои : 10.1016/j.biochi.2018.05.013 . ISSN 0300-9084 . ПМИД 29857183 . S2CID 46923560 .
- ^ Миядзава С., Джерниган Р. (1985). «Оценка эффективных энергий контакта между остатками по кристаллическим структурам белков: квазихимическое приближение». Макромолекулы . 18 (3): 534–552. Бибкод : 1985МаМол..18..534М . CiteSeerX 10.1.1.206.715 . дои : 10.1021/ma00145a039 .
- ^ Jump up to: а б Сиппл М.Дж. (1990). «Расчет конформационных ансамблей на основе потенциалов средней силы. Подход к научно-обоснованному предсказанию локальных структур в глобулярных белках». Дж Мол Биол . 213 (4): 859–883. дои : 10.1016/s0022-2836(05)80269-4 . ПМИД 2359125 .
- ^ Jump up to: а б Томас П.Д., Дилл К.А. (1996). «Статистические потенциалы, извлеченные из белковых структур: насколько они точны?». Дж Мол Биол . 257 (2): 457–469. дои : 10.1006/jmbi.1996.0175 . ПМИД 8609636 .
- ^ Jump up to: а б с Бен-Наим А. (1997). «Статистические потенциалы, извлеченные из белковых структур: являются ли эти потенциалы значимыми?». J Chem Phys . 107 (9): 3698–3706. Бибкод : 1997JChPh.107.3698B . дои : 10.1063/1.474725 .
- ^ Jump up to: а б с Хамелрик Т., Борг М., Палушевски М. и др. (2010). Цветочный ДР (ред.). «Потенциал средней силы для предсказания структуры белка подтвержден, формализован и обобщен» . ПЛОС ОДИН . 5 (11): е13714. arXiv : 1008.4006 . Бибкод : 2010PLoSO...513714H . дои : 10.1371/journal.pone.0013714 . ПМК 2978081 . ПМИД 21103041 .
- ^ Руман М., Водак С. (1995). «Являются ли потенциалы, полученные из базы данных, действительными для оценки как прямого, так и обратного сворачивания белка?». Белок англ . 8 (9): 849–858. дои : 10.1093/протеин/8.9.849 . ПМИД 8746722 .
- ^ Коппенштайнер В.А., Сиппл М.Ю. (1998). «Потенциал, основанный на знаниях – назад к истокам». Биохимия Моск . 63 (3): 247–252. ПМИД 9526121 .
- ^ Шортл Д. (2003). «Склонности, вероятности и гипотеза Больцмана» . Белковая наука . 12 (6): 1298–1302. дои : 10.1110/ps.0306903 . ПМК 2323900 . ПМИД 12761401 .
- ^ Сиппл М.Дж., Ортнер М., Джаритц М., Лакнер П., Флокнер Х. (1996). «Свободные энергии Гельмгольца парных взаимодействий атомов в белках». Сложите Дес . 1 (4): 289–98. дои : 10.1016/s1359-0278(96)00042-9 . ПМИД 9079391 .
- ^ Jump up to: а б Чендлер Д. (1987) Введение в современную статистическую механику. Нью-Йорк: Издательство Оксфордского университета, США.
- ^ Эрамиан, Дэвид; Шен, Миньи; Девос, Дэмиен; Мело, Франциско; Сали, Андрей; Марти-Реном, Марк (2006). «Комплексная оценка ошибок прогнозирования в моделях структуры белков» . Белковая наука . 15 (7): 1653–1666. дои : 10.1110/ps.062095806 . ПМК 2242555 . ПМИД 16751606 .
- ^ Чжао, Фэн; Сюй, Цзиньбо (2012). «Статистический потенциал, зависящий от положения и расстояния, для структуры белка и функционального исследования» . Структура . 20 (6): 1118–1126. дои : 10.1016/j.str.2012.04.003 . ПМЦ 3372698 . ПМИД 22608968 .
- ^ Старший AW, Эванс Р., Джампер Дж. и др. (2020). «Улучшенное предсказание структуры белка с использованием потенциала глубокого обучения» (PDF) . Природа . 577 (7792): 706–710. Бибкод : 2020Natur.577..706S . дои : 10.1038/s41586-019-1923-7 . ПМИД 31942072 . S2CID 210221987 .
- ^ Саймонс К.Т., Куперберг С., Хуан Э., Бейкер Д. (1997). «Сборка третичных структур белка из фрагментов со схожими локальными последовательностями с использованием моделирования отжига и байесовских оценочных функций». Дж Мол Биол . 268 (1): 209–225. CiteSeerX 10.1.1.579.5647 . дои : 10.1006/jmbi.1997.0959 . ПМИД 9149153 .
- ^ Лам С.Д., Дас С., Силлито И., Оренго С. (2017). «Обзор сравнительного моделирования и ресурсов, посвященных крупномасштабному моделированию последовательностей генома» . Акта Кристаллогр Д. 73 (8): 628–640. дои : 10.1107/S2059798317008920 . ПМЦ 5571743 . ПМИД 28777078 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Кмиецик С. и Колински А. (2007). «Характеристика путей сворачивания белков путем моделирования в уменьшенном пространстве» . Учеб. Натл. акад. наук. США . 104 (30): 12330–12335. Бибкод : 2007PNAS..10412330K . дои : 10.1073/pnas.0702265104 . ЧВК 1941469 . ПМИД 17636132 .
- ^ Адхикари А.Н., Фрид К.Ф., Сосник Т.Р. (2012). «Предсказание de novo путей и структуры сворачивания белков с использованием принципа последовательной стабилизации» . Учеб. Натл. акад. наук. США . 109 (43): 17442–17447. Бибкод : 2012PNAS..10917442A . дои : 10.1073/pnas.1209000109 . ПМЦ 3491489 . ПМИД 23045636 .