Устранение тупика

Алгоритм устранения тупика ( DEE ) — метод минимизации функции переменных по дискретному набору независимых . Основная идея заключается в выявлении «тупиков», то есть комбинаций переменных, которые не являются необходимыми для определения глобального минимума , поскольку всегда существует способ заменить такую комбинацию лучшей или эквивалентной. Тогда мы можем воздержаться от дальнейшего поиска таких комбинаций. Следовательно, устранение тупиков является зеркальным отражением динамического программирования , в котором «хорошие» комбинации выявляются и исследуются дальше.

Хотя сам метод является общим, он был разработан и применен в основном для задач прогнозирования и проектирования структур белков . Это тесно связано с понятием доминирования в оптимизации, также известным как заменяемость в задаче удовлетворения ограничений . Исходное описание и доказательство теоремы об исключении тупика можно найти в ^[1].

Основные требования

Эффективная реализация DEE требует четырех частей информации:

Хорошо определенный конечный набор дискретных независимых переменных
Предварительно вычисленное числовое значение (считающееся «энергией»), связанное с каждым элементом набора переменных (и, возможно, с их парами, тройками и т. д.).
Критерий или критерии для определения того, когда элемент находится в «тупике», то есть когда он не может быть членом множества решений.
( Целевая функция называемая «энергетической функцией»), которую необходимо минимизировать.

Обратите внимание, что критерии можно легко поменять местами, чтобы определить максимум данной функции.

Приложения для предсказания структуры белка

Удаление тупиковых концов эффективно использовалось для прогнозирования структуры боковых цепей на заданной структуре основной цепи белка путем минимизации энергетической функции. $E$ . Пространство поиска двугранных углов боковых цепей ограничено дискретным набором ротамеров для каждого положения аминокислоты в белке (который, очевидно, имеет фиксированную длину). Исходное описание DEE включало критерии исключения одиночных ротамеров и пар ротамеров, хотя их можно расширить.

В дальнейшем обсуждении пусть $N$ — длина белка и пусть $r_{k}$ представляют собой ротамер $\mathrm {k^{th}}$ боковая цепь. Поскольку предполагается, что атомы в белках взаимодействуют только посредством потенциалов двух тел , энергию можно записать

E_{TOT}=\sum _{k}E_{k}(r_{k})+\sum _{k\neq l}E_{kl}(r_{k},r_{l})\,

Где $E_{k}(r_{k})$ представляет собой «собственную энергию» конкретного ротамера $r_{k}$ , и $E_{kl}(r_{k},r_{l})$ представляет собой «парную энергию» ротамеров $r_{k},r_{j}$ .

Также обратите внимание, что $E_{kk}(r_{k}^{A},r_{k}^{A})$ (то есть парная энергия между ротамером и самим собой) считается равной нулю и, следовательно, не влияет на суммирование. Эти обозначения упрощают описание парного критерия ниже.

Критерий исключения в одиночном разряде

Если конкретный ротамер $r_{k}^{A}$ или сайдчейн $k$ не может дать лучшую энергию, чем другой ротамер $r_{k}^{B}$ одной и той же боковой цепи, то ротамер А можно исключить из дальнейшего рассмотрения, что сокращает пространство поиска. Математически это условие выражается неравенством

E_{k}(r_{k}^{A})+\sum _{l=1}^{N}\min _{X}E_{kl}(r_{k}^{A},r_{l}^{X})>E_{k}(r_{k}^{B})+\sum _{l=1}^{N}\max _{X}E_{kl}(r_{k}^{B},r_{l}^{X})

где $\min _{X}E_{kl}(r_{k}^{A},r_{l}^{X})$ — минимальная (наилучшая) энергия, возможная между ротамером $r_{k}^{A}$ или сайдчейн $k$ и любой ротамер X боковой цепи $l$ . Сходным образом, $\max _{X}E_{kl}(r_{k}^{B},r_{l}^{X})$ - максимальная (худшая) энергия, возможная между ротамером $r_{k}^{B}$ или сайдчейн $k$ и любой ротамер X боковой цепи $l$ .

Критерий исключения пар

Парный критерий сложнее описать и реализовать, но он добавляет значительную исключающую способность. Для краткости мы определим сокращенную переменную $U_{kl}^{AB}$ это собственная энергия пары ротамеров $A$ и $B$ на позициях $k$ и $l$ , соответственно

U_{kl}^{AB}\ {\stackrel {\mathrm {def} }{=}}\ E_{k}(r_{k}^{A})+E_{l}(r_{l}^{B})+E_{kl}(r_{k}^{A},r_{l}^{B})

Данная пара ротамеров $A$ и $B$ на позициях $k$ и $l$ , соответственно, не могут оба находиться в конечном решении (хотя и то, и другое может быть), если существует другая пара $C$ и $D$ это всегда дает лучшую энергию. Выражаясь математически,

U_{kl}^{AB}+\sum _{i=1}^{N}\min _{X}\left(E_{ki}(r_{k}^{A},r_{i}^{X})+E_{lj}(r_{l}^{B},r_{j}^{X})\right)>U_{kl}^{CD}+\sum _{i=1}^{N}\max _{X}\left(E_{ki}(r_{k}^{C},r_{i}^{X})+E_{lj}(r_{l}^{D},r_{j}^{X})\right)

где $A\neq C$ , $B\neq D$ и $k\neq l$ .

Энергетические матрицы

Для больших $N$ Хранение матриц предварительно вычисленных энергий может оказаться дорогостоящим. Позволять $N$ будет числом аминокислотных позиций, как указано выше, и пусть $p$ — количество ротамеров в каждой позиции (обычно, но не обязательно, постоянно во всех позициях). Каждая матрица собственной энергии для данной позиции требует $p$ записей, поэтому общее количество собственной энергии, которую нужно сохранить, равно $Np$ . Матрица энергии каждой пары между двумя позициями $r_{k}$ и $r_{l}$ , для $p$ дискретные ротамеры в каждой позиции, требует $p\times p$ матрица. Это делает общее количество записей в нередуцированной парной матрице $N^{2}p^{2}$ . Это можно несколько сократить за счет дополнительной сложности реализации, поскольку парные энергии симметричны, а парная энергия между ротамером и самим собой равна нулю.

Внедрение и эффективность

Два вышеуказанных критерия обычно применяются итеративно до достижения сходимости, определяемой как точка, в которой больше невозможно исключить ротамеры или пары. Поскольку обычно это означает сокращение выборочного пространства на много порядков, простого перебора будет достаточно, чтобы определить минимум в этом урезанном наборе.

Учитывая эту модель, ясно, что алгоритм DEE гарантированно найдет оптимальное решение; то есть это глобальный процесс оптимизации . Поиск одного ротамера масштабируется квадратично по времени с общим количеством ротамеров. Поиск пар масштабируется кубически и является самой медленной частью алгоритма (не считая вычислений энергии). Это значительное улучшение по сравнению с перебором методом грубой силы, который масштабируется как $O(p^{N})$ .

Крупномасштабный тест DEE по сравнению с альтернативными методами прогнозирования и проектирования структуры белка показал, что DEE надежно сходится к оптимальному решению для длин белков, для которых он работает за разумный промежуток времени. ^[2]. Он значительно превосходит рассматриваемые альтернативы, в которых использовались методы, полученные из теории среднего поля , генетических алгоритмов и метода Монте-Карло . Однако другие алгоритмы значительно быстрее, чем DEE, и поэтому могут применяться для решения более крупных и сложных задач; их относительная точность может быть экстраполирована путем сравнения с решением DEE в пределах задач, доступных DEE.

Белковый дизайн

Предыдущее обсуждение неявно предполагало, что ротамеры $r_{k}$ все они имеют разную ориентацию одной и той же боковой цепи аминокислоты. То есть предполагалось, что последовательность белка фиксирована. Также возможно позволить нескольким сайдчейнам «конкурировать» за позицию. $k$ путем включения обоих типов боковых цепей в набор ротамеров для этой позиции. Это позволяет создать новую последовательность на заданном остове белка. короткая белковая складка «цинковых пальцев» . Таким образом была переработана ^[3]. Однако это значительно увеличивает количество ротамеров на позицию и по-прежнему требует фиксированной длины белка.

Обобщения

Были введены более мощные и более общие критерии, которые повышают как эффективность, так и исключающую способность метода как для приложений прогнозирования, так и для проектирования. Одним из примеров является уточнение критерия исключения одиночных игр, известного как критерий Гольдштейна. ^[4], который возникает в результате довольно простых алгебраических манипуляций перед применением минимизации:

E_{k}(r_{k}^{A})-E_{k}(r_{k}^{B})+\sum _{l=1}^{N}\min _{X}\left(E_{kl}(r_{k}^{A},r_{l}^{X})-E_{kl}(r_{k}^{B},r_{l}^{X})\right)>0

Таким образом, ротамер $r_{k}^{A}$ можно исключить, если какой-либо альтернативный ротамер из набора по адресу $r_{k}$ вносит меньший вклад в общую энергию, чем $r_{k}^{A}$ . Это улучшение по сравнению с исходным критерием, который требует сравнения наилучшего возможного (то есть наименьшего) энергетического вклада от $r_{k}^{A}$ с наихудшим вкладом альтернативного ротамера.

Подробное обсуждение сложных критериев DEE и контрольных показателей их относительной эффективности можно найти в ^[5].

Ссылки

^ Десмет Дж, де Майер М, Хейз Б, Ластерс И. (1992). Теорема устранения тупика и ее использование для позиционирования боковой цепи белка. Природа , 356 , 539–542. ПМИД 21488406 .
^ Фойгт Калифорния, Гордон Д.Б., Мэйо С.Л. (2000). Обмен точности на скорость: количественное сравнение алгоритмов поиска при проектировании последовательностей белков. J Мол Биол 299(3):789-803.
^ Дахият Б.И., Мэй С.Л. (1997). Дизайн белка de novo: полностью автоматизированный выбор последовательности. Наука 278(5335):82-7.
^ Гольдштейн РФ. (1994). Эффективное устранение ротамеров, применяемое к боковым цепям белков и связанным с ними спиновым стеклам. Биофиз J 66(5):1335-40.
^ Пирс Н.А., Сприт Дж.А., Десмет Дж., Мэйо С.Л. (2000). Конформационное расщепление: более мощный критерий устранения тупика. J Comput Chem 21: 999-1009.