Прогнозирование структуры белка
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2021 г. ) |
Предсказание структуры белка — это вывод о трехмерной структуре белка на основе его аминокислотной последовательности, то есть предсказание его вторичной и третичной структуры на основе первичной структуры . Предсказание структуры отличается от обратной задачи проектирования белка . Предсказание структуры белка — одна из наиболее важных целей, преследуемых вычислительной биологией ; это важно в медицине (например, при разработке лекарств ) и биотехнологии (например, при разработке новых ферментов ).
Начиная с 1994 года эффективность существующих методов оценивается два раза в год в эксперименте CASP (критическая оценка методов прогнозирования структуры белка). Непрерывную оценку веб-серверов предсказания структуры белков выполняет проект сообщества CAMEO3D .
и терминология Структура белка
Белки представляют собой цепочки аминокислот, соединенных между собой пептидными связями . Многие конформации этой цепочки возможны за счет вращения основной цепи вокруг двух торсионных углов φ и ψ у атома Cα (см. рисунок). Эта конформационная гибкость ответственна за различия в трехмерной структуре белков. Пептидные связи в цепи полярны, т.е. они имеют разделенные положительные и отрицательные заряды (частичные заряды) в карбонильной группе , которая может действовать как акцептор водородной связи, и в группе NH, которая может действовать как донор водородной связи. Таким образом, эти группы могут взаимодействовать в структуре белка. Белки состоят в основном из 20 различных типов L-α-аминокислот ( протеиногенных аминокислот ). Их можно классифицировать по химическому составу боковой цепи, которая также играет важную структурную роль. Глицин занимает особое положение, так как имеет самую маленькую боковую цепь, всего один атом водорода, и поэтому может повышать локальную гибкость структуры белка. цистеин С другой стороны, может вступать в реакцию с другим остатком цистеина с образованием одного цистина и тем самым образовывать поперечную связь, стабилизирующую всю структуру.
Структуру белка можно рассматривать как последовательность элементов вторичной структуры, таких как α-спирали и β-листы . В этих вторичных структурах между группами NH и CO основной цепи пространственно соседних аминокислот образуются регулярные Н-связи, причем аминокислоты имеют схожие Φ и ψ.углы . [1]
Образование этих вторичных структур эффективно удовлетворяет способность пептидных связей образовывать водородные связи. Вторичные структуры могут быть плотно упакованы в ядре белка в гидрофобной среде, но они также могут присутствовать на полярной поверхности белка. Каждая боковая цепь аминокислоты имеет ограниченный занимаемый объем и ограниченное количество возможных взаимодействий с другими соседними боковыми цепями, и эту ситуацию необходимо учитывать при молекулярном моделировании и выравнивании. [2]
α-спираль [ править ]
α-спираль — наиболее распространенный тип вторичной структуры белков. α-спираль содержит 3,6 аминокислот на виток, причем между каждым четвертым остатком образуется Н-связь; средняя длина составляет 10 аминокислот (3 витка) или 10 Å , но варьируется от 5 до 40 (1,5–11 витков). Выравнивание Н-связей создает дипольный момент спирали, в результате чего на аминоконце спирали возникает частичный положительный заряд. Поскольку эта область имеет свободные группы NH 2 , она будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Наиболее распространенное расположение α-спиралей — на поверхности белковых ядер, где они обеспечивают интерфейс с водной средой. Внутренняя сторона спирали обычно содержит гидрофобные аминокислоты, а внешняя сторона - гидрофильные аминокислоты. Таким образом, каждая треть из четырех аминокислот в цепи будет иметь тенденцию быть гидрофобной, и эту закономерность можно довольно легко обнаружить. В мотиве лейциновой молнии повторяющийся рисунок лейцинов на противоположных сторонах двух соседних спиралей с высокой степенью вероятности позволяет предсказать этот мотив. Чтобы показать этот повторяющийся паттерн, можно использовать график спирального колеса. Другие α-спирали, похороненные в ядре белка или в клеточных мембранах, имеют более высокое и регулярное распределение гидрофобных аминокислот и позволяют с высокой точностью прогнозировать такие структуры. Спирали, выступающие на поверхность, содержат меньшую долю гидрофобных аминокислот. Содержание аминокислот можно предсказать наличие α-спиральной области. Регионы, более богатые аланин (A), глутаминовая кислота (E), лейцин (L) и метионин (M), а также бедные пролином (P), глицином (G), тирозином (Y) и серином (S) имеют тенденцию образовывать α- спираль. Пролин дестабилизирует или разрывает α-спираль, но может присутствовать в более длинных спиралях, образуя изгиб.
β-лист [ править ]
β-листы образуются за счет Н-связей между в среднем 5–10 последовательными аминокислотами в одном участке цепи и еще 5–10 дальше по цепи. Взаимодействующие области могут быть соседними, с короткой петлей между ними, или далеко друг от друга, с другими структурами между ними. Каждая цепь может идти в одном направлении, образуя параллельный лист, каждая другая цепь может идти в обратном химическом направлении, образуя антипараллельный лист, или цепи могут быть параллельными и антипараллельными, образуя смешанный лист. Характер Н-связей различен в параллельной и антипараллельной конфигурациях. Каждая аминокислота во внутренних нитях листа образует две Н-связи с соседними аминокислотами, тогда как каждая аминокислота во внешних нитях образует только одну связь с внутренней цепью. Если смотреть на лист под прямым углом к прядям, более дальние пряди слегка поворачиваются против часовой стрелки, образуя левый поворот. Атомы Cα чередуются над и под листом в складчатой структуре, а боковые группы R аминокислот чередуются над и под складками. Углы Φ и Ψ аминокислот в листах значительно различаются в одной области Сюжет Рамачандрана . Расположение β-листов предсказать сложнее, чем α-спиралей. Ситуация несколько улучшается, если принять во внимание вариацию аминокислот при множественном выравнивании последовательностей.
Петли [ править ]
Некоторые части белка имеют фиксированную трехмерную структуру, но не образуют регулярных структур. Их не следует путать с неупорядоченными или развернутыми сегментами белков или случайным клубком , развернутой полипептидной цепью, лишенной какой-либо фиксированной трехмерной структуры. Эти части часто называют «петлями», поскольку они соединяют β-листы и α-спирали. Петли обычно расположены на поверхности белка, поэтому мутации их остатков переносятся легче. Наличие большего количества замен, вставок и делеций в определенной области выравнивания последовательности может указывать на наличие петли. Положения интронов в геномной ДНК могут коррелировать с расположением петель в кодируемом белке. [ нужна ссылка ] . Петли также обычно содержат заряженные и полярные аминокислоты и часто являются компонентами активных центров.
Классификация белков [ править ]
Белки можно классифицировать как по структурному, так и по последовательному сходству. Для структурной классификации размеры и пространственное расположение вторичных структур, описанных в предыдущем абзаце, сравниваются с известными трехмерными структурами. Классификация, основанная на сходстве последовательностей, исторически была первой, которая использовалась. Первоначально было выполнено сходство на основе выравнивания целых последовательностей. Позже белки были классифицированы на основе наличия консервативных аминокислотных паттернов. базы данных Доступны , которые классифицируют белки по одной или нескольким из этих схем.При рассмотрении схем классификации белков важно учитывать несколько наблюдений. Во-первых, две совершенно разные белковые последовательности разного эволюционного происхождения могут образовывать сходную структуру. И наоборот, последовательность древнего гена для данной структуры могла значительно различаться у разных видов, сохраняя в то же время одни и те же основные структурные особенности. Распознавание оставшегося сходства последовательностей в таких случаях может оказаться очень сложной задачей. Во-вторых, два белка, которые имеют значительную степень сходства последовательностей либо друг с другом, либо с третьей последовательностью, также имеют общее эволюционное происхождение и также должны иметь некоторые общие структурные особенности. Однако дупликация генов и генетические перестройки в ходе эволюции могут привести к появлению новых копий генов, которые затем могут эволюционировать в белки с новой функцией и структурой. [2]
белковых структур и используемые для классификации Термины , последовательностей
Ниже перечислены наиболее часто используемые термины для обозначения эволюционных и структурных взаимоотношений между белками. Многие дополнительные термины используются для обозначения различных структурных особенностей белков. Описания таких терминов можно найти на веб-сайте CATH, веб-сайте Структурной классификации белков (SCOP) и в учебном пособии Glaxo Wellcome на швейцарском веб-сайте биоинформатики Expasy.
- Активный сайт
- Локализованная комбинация боковых групп аминокислот внутри третичной (трехмерной) или четвертичной (субъединицы белка) структуры, которая может взаимодействовать с химически специфичным субстратом и придает белку биологическую активность. Белки с очень разными аминокислотными последовательностями могут образовывать структуру, образующую один и тот же активный центр.
- Архитектура
- - это относительная ориентация вторичных структур в трехмерной структуре независимо от того, имеют ли они аналогичную петлеобразную структуру.
- Сгиб (топология)
- тип архитектуры, который также имеет консервативную структуру цикла.
- Блоки
- представляет собой консервативный образец последовательности аминокислот в семействе белков. Шаблон включает в себя серию возможных совпадений в каждой позиции представленных последовательностей, но ни в шаблоне, ни в последовательностях нет вставленных или удаленных позиций. Напротив, профили последовательностей представляют собой тип матрицы оценки, которая представляет аналогичный набор шаблонов, включающий вставки и делеции.
- Сорт
- термин, используемый для классификации белковых доменов в соответствии с их вторичным структурным содержанием и организацией. Четыре класса были первоначально признаны Левиттом и Чотией (1976), а несколько других были добавлены в базу данных SCOP. В базе данных CATH представлены три класса: преимущественно-α, преимущественно-β и α-β, причем класс α-β включает как чередующиеся структуры α/β, так и α+β.
- Основной
- часть свернутой белковой молекулы, которая содержит гидрофобную внутреннюю часть α-спиралей и β-листов. Компактная структура объединяет боковые группы аминокислот достаточно близко, чтобы они могли взаимодействовать. При сравнении белковых структур, как в базе данных SCOP, ядро — это область, общая для большинства структур, имеющих общую складку или принадлежащих к одному суперсемейству. В предсказании структуры ядро иногда определяют как расположение вторичных структур, которые, вероятно, сохранятся в ходе эволюционных изменений.
- Домен (контекст последовательности)
- сегмент полипептидной цепи, который может складываться в трехмерную структуру независимо от присутствия других сегментов цепи. Отдельные домены данного белка могут широко взаимодействовать или могут быть соединены только длиной полипептидной цепи. Белок с несколькими доменами может использовать эти домены для функциональных взаимодействий с различными молекулами.
- Семья (контекст последовательности)
- группа белков со схожими биохимическими функциями, которые при выравнивании идентичны более чем на 50%. Это же ограничение до сих пор используется Информационным ресурсом о белках (PIR). Семейство белков включает белки с одинаковой функцией в разных организмах (ортологичные последовательности), но может также включать белки в одном и том же организме (паралогичные последовательности), полученные в результате дупликации и реаранжировки генов. Если множественное выравнивание последовательностей семейства белков выявляет общий уровень сходства по всей длине белков, PIR называет это семейство гомеоморфным семейством. Выровненный регион называется гомеоморфным доменом, и этот регион может включать несколько меньших доменов гомологии, которые являются общими с другими семействами. Семейства могут быть далее подразделены на подсемейства или сгруппированы в суперсемейства на основе соответствующих более высоких или более низких уровней сходства последовательностей. В базе данных SCOP зарегистрировано 1296 семейств, а в базе данных CATH (бета-версия 1.7) — 1846 семейств.
- Когда последовательности белков с одинаковой функцией исследуются более подробно, обнаруживается, что некоторые из них имеют высокое сходство последовательностей. По вышеуказанным критериям они, очевидно, являются членами одной семьи. Однако обнаруживаются и другие, которые имеют очень небольшое или даже незначительное сходство последовательностей с другими членами семейства. В таких случаях семейные отношения между двумя отдаленными членами семьи A и C часто можно продемонстрировать, найдя дополнительного члена семьи B, который имеет значительное сходство как с A, так и с C. Таким образом, B обеспечивает связующее звено между A и C. Другой подход заключается в изучении отдаленных совпадений на предмет высококонсервативных совпадений.
- При уровне идентичности 50% белки, вероятно, будут иметь одинаковую трехмерную структуру, и идентичные атомы в выравнивании последовательностей также будут накладываться друг на друга в пределах примерно 1 Å в структурной модели. Таким образом, если известна структура одного члена семьи, можно сделать надежный прогноз для второго члена семьи, и чем выше уровень идентичности, тем надежнее прогноз. Структурное моделирование белка можно выполнить, исследуя, насколько хорошо аминокислотные замены вписываются в ядро трехмерной структуры.
- Семья (структурный контекст)
- как используется в базе данных FSSP ( Семейства структурно сходных белков ) и на веб-сайте DALI/FSSP, это две структуры, которые имеют значительный уровень структурного сходства, но не обязательно значительное сходство последовательностей.
- Складывать
- сходный со структурным мотивом, включает более крупное сочетание вторичных структурных единиц в одной конфигурации. Таким образом, белки, имеющие одну и ту же укладку, имеют одинаковую комбинацию вторичных структур, соединенных одинаковыми петлями. Примером может служить складка Россмана, состоящая из нескольких чередующихся α-спиралей и параллельных β-нитей. В базах данных SCOP, CATH и FSSP известные белковые структуры классифицированы по иерархическим уровням структурной сложности, при этом складка является базовым уровнем классификации.
- Гомологический домен (контекст последовательности)
- расширенный образец последовательности, обычно обнаруживаемый с помощью методов выравнивания последовательностей, который указывает на общее эволюционное происхождение выровненных последовательностей. Домен гомологии обычно длиннее мотивов. Домен может включать всю данную белковую последовательность или только часть последовательности. Некоторые домены сложны и состоят из нескольких меньших доменов гомологии, которые в ходе эволюции объединились в более крупный. Домен, охватывающий всю последовательность, называется PIR ( информационный ресурс белка ) гомеоморфным доменом.
- Модуль
- область консервативных аминокислотных паттернов, содержащая один или несколько мотивов и считающаяся фундаментальной единицей структуры или функции. Наличие модуля также использовалось для классификации белков по семействам.
- Мотив (контекст последовательности)
- консервативный набор аминокислот, обнаруженный в двух или более белках. В каталоге Prosite мотив — это набор аминокислот, который встречается в группе белков со сходной биохимической активностью и часто находится рядом с активным центром белка. Примерами баз данных мотивов последовательностей являются каталог Prosite и Стэнфордская база данных мотивов. [3]
- Мотив (структурный контекст)
- сочетание нескольких вторичных структурных элементов, образующихся в результате сворачивания соседних участков полипептидной цепи в определенную трехмерную конфигурацию. Примером может служить мотив спираль-петля-спираль. Структурные мотивы также называют супервторичными структурами и складками.
- Матрица оценок для конкретной позиции (контекст последовательности, также известный как матрица весов или оценок)
- представляет собой консервативную область при множественном выравнивании последовательностей без пробелов. Каждый столбец матрицы представляет собой вариацию, обнаруженную в одном столбце множественного выравнивания последовательностей.
- Матрица оценок для конкретной должности — 3D (структурный контекст)
- представляет собой вариацию аминокислот, обнаруженную при выравнивании белков, относящихся к одному и тому же структурному классу. Столбцы матрицы представляют вариации аминокислот, обнаруженные в одном положении аминокислоты в выровненных структурах.
- Первичная структура
- линейная аминокислотная последовательность белка, которая химически представляет собой полипептидную цепь, состоящую из аминокислот, соединенных пептидными связями.
- Профиль (контекст последовательности)
- оценочная матрица, которая представляет собой множественное выравнивание последовательностей семейства белков. Профиль обычно получают из хорошо консервативной области при множественном выравнивании последовательностей. Профиль имеет форму матрицы, где каждый столбец представляет положение в выравнивании, а каждая строка — одну из аминокислот. Значения матрицы дают вероятность нахождения каждой аминокислоты в соответствующем положении выравнивания. Профиль перемещается вдоль целевой последовательности для обнаружения областей с лучшими оценками с помощью алгоритма динамического программирования. Пробелы допускаются во время сопоставления, и в этом случае штраф за пропуск включается как отрицательный балл, если ни одна аминокислота не сопоставлена. Профиль последовательности также может быть представлен скрытой моделью Маркова , называемой профилем HMM.
- Профиль (структурный контекст)
- оценочная матрица, которая показывает, какие аминокислоты должны хорошо подходить, а какие плохо подходят к последовательным положениям в известной структуре белка. Столбцы профиля представляют последовательные позиции в структуре, а строки профиля представляют 20 аминокислот. Как и в случае с профилем последовательности, структурный профиль перемещается вдоль целевой последовательности, чтобы найти максимально возможную оценку выравнивания с помощью алгоритма динамического программирования. Гэпы могут быть включены и получить штраф. Полученная оценка указывает на то, может ли целевой белок принять такую структуру.
- Четвертичная структура
- трехмерная конфигурация белковой молекулы, состоящая из нескольких независимых полипептидных цепей.
- Вторичная структура
- Взаимодействия, которые происходят между группами C, O и NH аминокислот в полипептидной цепи с образованием α-спиралей, β-листов, витков, петель и других форм и которые облегчают сворачивание в трехмерную структуру.
- Суперсемья
- группа семейств белков одинаковой или разной длины, связанных отдаленным, но обнаруживаемым сходством последовательностей. Таким образом, члены данного надсемейства имеют общее эволюционное происхождение. Первоначально Дэйхофф определил порог статуса суперсемейства как вероятность того, что последовательности не связаны между собой, равную 10 6 на основе показателя выравнивания (Dayhoff et al. 1978). Белки с небольшим количеством идентичностей в выравнивании последовательностей, но с убедительно общим числом структурных и функциональных особенностей отнесены к одному и тому же суперсемейству. На уровне трехмерной структуры белки суперсемейства будут иметь общие структурные особенности, такие как общая складка, но также могут быть различия в количестве и расположении вторичных структур. Ресурс PIR использует термин « гомеоморфные суперсемейства» для обозначения суперсемейств, которые состоят из последовательностей, которые могут быть выровнены от начала до конца, что представляет собой совместное использование одного домена гомологии последовательности, области сходства, которая распространяется на протяжении всего выравнивания. Этот домен также может содержать более мелкие домены гомологии, которые являются общими с другими семействами и суперсемействами белков. Хотя данная последовательность белка может содержать домены, обнаруженные в нескольких суперсемействах, что указывает на сложную эволюционную историю, последовательности будут отнесены только к одному гомеоморфному суперсемейству на основании наличия сходства при множественном выравнивании последовательностей. Выравнивание надсемейства может также включать области, которые не выравниваются ни внутри, ни на концах выравнивания. Напротив, последовательности в одном и том же семействе хорошо выравниваются на протяжении всего выравнивания.
- Супервторичная структура
- термин, имеющий сходное значение со структурным мотивом. Третичная структура — это трехмерная или глобулярная структура, образующаяся в результате упаковки или сворачивания вторичных структур полипептидной цепи. [2]
Вторичная структура [ править ]
Предсказание вторичной структуры — это набор методов биоинформатики , целью которых является предсказание локальных вторичных структур белков , основываясь только на знании их аминокислотной последовательности. Для белков прогнозирование состоит в определении областей аминокислотной последовательности как вероятных альфа-спиралей , бета-цепей (часто называемых «расширенными» конформациями) или поворотов . Успех предсказания определяется путем сравнения его с результатами алгоритма DSSP (или аналогичного, например STRIDE ), примененного к кристаллической структуре белка. Специализированные алгоритмы были разработаны для обнаружения конкретных четко определенных структур, таких как трансмембранные спирали и спиральные спирали в белках. [2]
Утверждается, что лучшие современные методы предсказания вторичной структуры белков достигают точности 80% после использования машинного обучения и выравнивания последовательностей ; [4] Эта высокая точность позволяет использовать предсказания в качестве функции, улучшающей распознавание складки и предсказание структуры белка ab initio , классификацию структурных мотивов и уточнение выравнивания последовательностей . Точность современных методов прогнозирования вторичной структуры белков оценивается с помощью еженедельных тестов, таких как LiveBench и EVA .
Предыстория [ править ]
Ранние методы прогнозирования вторичной структуры, появившиеся в 1960-х и начале 1970-х годов. [5] [6] [7] [8] [9] были сосредоточены на выявлении вероятных альфа-спиралей и основывались главным образом на моделях перехода спираль-клубок . [10] Значительно более точные прогнозы, включающие бета-листы, были введены в 1970-х годах и основывались на статистических оценках, основанных на вероятностных параметрах, полученных на основе известных решенных структур. Эти методы, применяемые к одной последовательности, обычно имеют точность не более 60–65% и часто недооценивают бета-листы. [2] С 1980-х годов искусственные нейронные сети применяются для предсказания белковых структур. [11] [12] Эволюционную , путем расчета чистой склонности к вторичной структуре выровненного консервативность вторичных структур можно использовать путем одновременной оценки множества гомологичных последовательностей при множественном выравнивании последовательностей столбца аминокислот. В сочетании с более крупными базами данных известных белковых структур и современными методами машинного обучения , такими как нейронные сети и машины опорных векторов , эти методы могут достичь общей точности до 80% в глобулярных белках . [13] Теоретический верхний предел точности составляет около 90%. [13] отчасти из-за особенностей назначения DSSP вблизи концов вторичных структур, где локальные конформации изменяются в естественных условиях, но могут быть вынуждены принять единственную конформацию в кристаллах из-за ограничений упаковки. Более того, типичные методы прогнозирования вторичной структуры не учитывают влияние третичной структуры на формирование вторичной структуры; например, последовательность, предсказанная как вероятная спираль, все же может принять конформацию бета-цепи, если она расположена внутри области бета-листа белка и ее боковые цепи хорошо упакованы со своими соседями. Драматические конформационные изменения, связанные с функцией белка или окружающей средой, также могут изменить локальную вторичную структуру.
Историческая перспектива [ править ]
На сегодняшний день разработано более 20 различных методов прогнозирования вторичной структуры. Одним из первых алгоритмов был метод Чоу-Фасмана , который преимущественно опирается на параметры вероятности, определяемые на основе относительных частот появления каждой аминокислоты в каждом типе вторичной структуры. [14] Исходные параметры Чоу-Фасмана, определенные на небольшой выборке структур, решенных в середине 1970-х годов, дают плохие результаты по сравнению с современными методами, хотя параметризация была обновлена с момента ее первой публикации. Точность метода Чоу-Фасмана в прогнозировании вторичных структур составляет примерно 50-60%. [2]
Следующей заметной программой стал метод GOR , основанный на теории информации . Он использует более мощный вероятностный метод байесовского вывода . [15] Метод GOR учитывает не только вероятность того, что каждая аминокислота будет иметь определенную вторичную структуру, но также условную вероятность того, что аминокислота примет каждую структуру с учетом вкладов ее соседей (он не предполагает, что соседи имеют одинаковую структуру). ). Этот подход одновременно более чувствителен и более точен, чем подход Чоу и Фасмана, поскольку структурные склонности аминокислот сильны только для небольшого числа аминокислот, таких как пролин и глицин . Слабый вклад каждого из многих соседей может привести к сильным эффектам в целом. Первоначальный метод GOR имел точность примерно 65% и значительно более успешен в предсказании альфа-спиралей, чем бета-листов, которые он часто неверно предсказал как петли или неорганизованные области. [2]
Еще одним большим шагом вперед стало использование машинного обучения методов . Впервые искусственных нейронных сетей были использованы методы . В качестве обучающих наборов они используют решенные структуры для выявления общих мотивов последовательностей, связанных с определенным расположением вторичных структур. Эти методы имеют точность более 70% в своих предсказаниях, хотя бета-цепи по-прежнему часто недооцениваются из-за отсутствия трехмерной структурной информации, которая позволила бы оценить структуру водородных связей , которая может способствовать образованию расширенной конформации, необходимой для присутствия полный бета-лист. [2] PSIPRED и JPRED — одни из наиболее известных программ на основе нейронных сетей для предсказания вторичной структуры белков. Далее, машины опорных векторов оказались особенно полезными для прогнозирования мест поворотов , которые трудно определить статистическими методами. [16] [17]
Расширения методов машинного обучения пытаются предсказать более детальные локальные свойства белков, такие как основной цепи двугранные углы в неназначенных областях. Обе SVM [18] и нейронные сети [19] были применены к этой проблеме. [16] Совсем недавно реальные значения углов скручивания могут быть точно предсказаны с помощью SPINE-X и успешно использованы для предсказания структуры ab initio. [20]
Другие улучшения [ править ]
Сообщается, что помимо последовательности белка формирование вторичной структуры зависит от других факторов. Например, сообщается, что тенденции вторичной структуры зависят также от местной среды, [21] доступность остатков растворителя, [22] структурный класс белка, [23] и даже организм, из которого получены белки. [24] На основании таких наблюдений некоторые исследования показали, что предсказание вторичной структуры можно улучшить, добавив информацию о структурном классе белка. [25] доступная площадь поверхности остатка [26] [27] а также контактную информацию. [28]
Третичная структура [ править ]
Практическая роль предсказания структуры белка сейчас важнее, чем когда-либо. [29] Огромные объемы данных о последовательностях белков производятся в результате современных крупномасштабных усилий по секвенированию ДНК , таких как Проект «Геном человека» . Несмотря на усилия всего сообщества в области структурной геномики , результаты экспериментально определенных белковых структур — обычно с помощью трудоемкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии — значительно отстают от результатов белковых последовательностей.
Предсказание структуры белка остается чрезвычайно сложной и нерешенной задачей. Двумя основными проблемами являются расчет свободной от белка энергии и поиск глобального минимума этой энергии. пространство возможных белковых структур Метод предсказания структуры белка должен исследовать астрономически большое . Эти проблемы можно частично обойти с помощью «сравнительного» или гомологического моделирования и методов распознавания складок , в которых пространство поиска сокращается за счет предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка de novo должны явно решать эти проблемы. Прогресс и проблемы в предсказании структуры белков были рассмотрены Чжаном. [30]
До моделирования [ править ]
Большинство методов моделирования третичной структуры, такие как Rosetta, оптимизированы для моделирования третичной структуры отдельных доменов белка. Шаг, называемый анализом домена или предсказанием границ домена , обычно выполняется сначала, чтобы разделить белок на потенциальные структурные домены. Как и в случае с остальной частью прогнозирования третичной структуры, это можно сделать путем сравнительного анализа известных структур. [31] или ab initio только с последовательностью (обычно с помощью машинного обучения с помощью ковариации). [32] Структуры отдельных доменов соединяются вместе в процессе, называемом сборкой доменов, для формирования окончательной третичной структуры. [33] [34]
ab белков initio Моделирование
на энергии и фрагментах основанные , Методы
Методы моделирования белков ab initio или de novo направлены на построение трехмерных моделей белков «с нуля», т. е. на основе физических принципов, а не (напрямую) на ранее решенных структурах. Существует множество возможных процедур, которые либо пытаются имитировать сворачивание белка , либо применяют тот или иной стохастический метод для поиска возможных решений (т. е. глобальную оптимизацию подходящей энергетической функции). Эти процедуры, как правило, требуют огромных вычислительных ресурсов и поэтому проводились только для крошечных белков. Чтобы предсказать структуру белка de novo для более крупных белков, потребуются более совершенные алгоритмы и более крупные вычислительные ресурсы, подобные тем, которые предоставляют либо мощные суперкомпьютеры (такие как Blue Gene или MDGRAPE-3 ), либо распределенные вычисления (такие как Folding@home , Human Proteome Folding Project и Розетта@Дома ). Хотя эти вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) делают предсказание структуры ab initio активной областью исследований. [30]
По состоянию на 2009 год белок, состоящий из 50 остатков, можно было моделировать атом за атомом на суперкомпьютере за 1 миллисекунду. [35] По состоянию на 2012 год сопоставимую выборку в стабильном состоянии можно было выполнять на стандартном настольном компьютере с новой видеокартой и более сложными алгоритмами. [36] Гораздо большие сроки моделирования могут быть достигнуты с помощью крупнозернистого моделирования . [37] [38]
Эволюционная ковариация для предсказания 3D - контактов
Поскольку в 1990-х годах секвенирование стало более распространенным явлением, несколько групп использовали выравнивание последовательностей белков для прогнозирования коррелирующих мутаций , и появилась надежда, что эти коэволюционировавшие остатки можно будет использовать для предсказания третичной структуры (используя аналогию с ограничениями расстояния из экспериментальных процедур, таких как ЯМР ). Предполагается, что когда мутации одного остатка слегка вредны, могут возникнуть компенсаторные мутации для рестабилизации взаимодействий остаток-остаток.В этой ранней работе использовались так называемые локальные методы для расчета коррелирующих мутаций на основе белковых последовательностей, но она страдала от косвенных ложных корреляций, возникающих в результате рассмотрения каждой пары остатков как независимой от всех других пар. [39] [40] [41]
В 2011 году другой, и на этот раз глобальный статистический подход, продемонстрировал, что предсказанных коэволюционирующих остатков достаточно для прогнозирования трехмерной складки белка при условии, что имеется достаточное количество доступных последовательностей (необходимо> 1000 гомологичных последовательностей). [42] Метод EVfold не использует моделирование гомологии, нарезку нитей или фрагменты трехмерной структуры и может быть запущен на стандартном персональном компьютере даже для белков с сотнями остатков. Точность контактов, предсказанных с помощью этого и связанных с ним подходов, теперь продемонстрирована на многих известных структурах и картах контактов. [43] [44] [45] включая предсказание экспериментально нерешенных трансмембранных белков. [46]
белков Сравнительное моделирование
Сравнительное моделирование белков использует ранее решенные структуры в качестве отправных точек или шаблонов. Это эффективно, поскольку оказывается, что, хотя число реальных белков огромно, существует ограниченный набор третичных структурных мотивов , к которым принадлежит большинство белков. Было высказано предположение, что в природе существует всего около 2000 различных белковых складок, хотя существуют многие миллионы различных белков. Сравнительное моделирование белков может сочетаться с эволюционной ковариацией при предсказании структуры. [47]
Эти методы также можно разделить на две группы: [30]
- Моделирование гомологии основано на разумном предположении, что два гомологичных белка имеют очень схожие структуры. Поскольку складка белка более консервативна в эволюционном отношении, чем его аминокислотная последовательность, целевую последовательность можно смоделировать с достаточной точностью на очень отдаленно родственной матрице при условии, что взаимосвязь между мишенью и матрицей можно определить путем выравнивания последовательностей . Было высказано предположение, что основное узкое место в сравнительном моделировании возникает из-за трудностей в выравнивании, а не из-за ошибок в предсказании структуры при заведомо хорошем выравнивании. [48] Неудивительно, что моделирование гомологии является наиболее точным, когда мишень и матрица имеют схожие последовательности.
- Белковая нить [49] сканирует аминокислотную последовательность неизвестной структуры по базе данных решенных структур. В каждом случае используется оценочная функция для оценки совместимости последовательности со структурой, что позволяет получить возможные трехмерные модели. Этот тип метода также известен как распознавание складки 3D-1D из-за его анализа совместимости между трехмерными структурами и линейными белковыми последовательностями. Этот метод также привел к появлению методов, выполняющих поиск обратной складки путем оценки совместимости данной структуры с большой базой данных последовательностей, тем самым предсказывая, какие последовательности потенциально могут создать данную складку.
конформаций боковой Моделирование цепи
аминокислот Точная упаковка боковых цепей представляет собой отдельную проблему предсказания структуры белка. Методы, которые конкретно решают проблему прогнозирования геометрии боковой цепи, включают устранение тупиков и методы самосогласованного среднего поля . Конформации боковой цепи с низкой энергией обычно определяются на жестком остове полипептида с использованием набора дискретных конформаций боковой цепи, известных как « ротамеры ». Методы пытаются идентифицировать набор ротамеров, которые минимизируют общую энергию модели.
В этих методах используются библиотеки ротамеров, которые представляют собой коллекции благоприятных конформаций для каждого типа остатков в белках. Библиотеки ротамеров могут содержать информацию о конформации, ее частоте и стандартных отклонениях средних двугранных углов, которые можно использовать при отборе проб. [50] Библиотеки ротамеров создаются на основе структурной биоинформатики или другого статистического анализа конформаций боковой цепи в известных экспериментальных структурах белков, например, путем кластеризации наблюдаемых конформаций тетраэдрических атомов углерода вблизи шахматных (60 °, 180 °, -60 °) значений.
Библиотеки ротамеров могут быть независимыми от основной цепи, зависимыми от вторичной структуры или зависимыми от основной цепи. Независимые от основной цепи библиотеки ротамеров не имеют отношения к конформации основной цепи и рассчитываются на основе всех доступных боковых цепей определенного типа (например, первый пример библиотеки ротамеров, выполненный Пондером и Ричардсом в Йельском университете в 1987 году). [51] Библиотеки, зависящие от вторичной структуры, представляют различные двугранные углы и/или частоты ротамеров для -спираль, -листовые, или рулонные вторичные структуры. [52] Зависимые от остова библиотеки ротамеров представляют конформации и/или частоты, зависящие от локальной конформации остова, определяемой двугранными углами остова. и независимо от вторичной структуры. [53]
Современные версии этих библиотек, используемые в большинстве программ, представлены как многомерные распределения вероятности или частоты, где пики соответствуют конформациям двугранного угла, рассматриваемым в списках как отдельные ротамеры. Некоторые версии основаны на тщательно отобранных данных и используются в первую очередь для проверки структуры. [54] в то время как другие подчеркивают относительные частоты в гораздо больших наборах данных и представляют собой форму, используемую в основном для предсказания структуры, например, библиотеки ротамеров Данбрека . [55]
ядра белка Методы упаковки боковых цепей наиболее полезны для анализа гидрофобного , где боковые цепи упакованы более плотно; им сложнее справиться с более слабыми ограничениями и более высокой гибкостью поверхностных остатков, которые часто занимают несколько конформаций ротамера, а не только одну. [56] [57]
Четвертичная структура [ править ]
В случае комплексов двух и более белков , когда структура белков известна или может быть предсказана с высокой точностью, белок-белкового докинга для предсказания структуры комплекса можно использовать методы . Информация о влиянии мутаций в конкретных сайтах на сродство комплекса помогает понять структуру комплекса и определить методы стыковки.
Программное обеспечение [ править ]
Существует большое количество программных инструментов для прогнозирования структуры белков. Подходы включают моделирование гомологии , создание белковых нитей , ab initio методы , предсказание вторичной структуры , а также предсказание трансмембранной спирали и сигнальных пептидов. В частности, глубокое обучение на основе долговременной кратковременной памяти используется для этой цели с 2007 года, когда оно было успешно применено для обнаружения гомологии белков. [58] и чтобыпредсказать субклеточную локализацию белков. [59] Некоторые недавние успешные методы, основанные на экспериментах CASP , включают I-TASSER , HHpred и AlphaFold . Сообщалось, что в 2021 году AlphaFold показала лучшую производительность. [60]
Знание структуры белка часто позволяет также сделать функциональный прогноз. Например, коллаген сворачивается в длинную волокнистую цепочку, что делает его волокнистым белком. Недавно было разработано несколько методов прогнозирования сворачивания белков и, следовательно, структуры белков, например Itasser и AlphaFold.
Методы ИИ [ править ]
AlphaFold был одним из первых ИИ, предсказывающих структуры белков. Он был представлен компанией DeepMind от Google на 13-м конкурсе CASP, который прошел в 2018 году. [60] AlphaFold опирается на подход нейронной сети , который напрямую предсказывает трехмерные координаты всех неводородных атомов для данного белка, используя аминокислотную последовательность и выровненные гомологичные последовательности . Сеть AlphaFold состоит из магистрали, которая обрабатывает входные данные через повторяющиеся слои, и структурного модуля, который вводит явную трехмерную структуру. [60] Ранее нейронные сети для предсказания структуры белков использовали LSTM . [58] [59]
Поскольку AlphaFold выводит координаты белка напрямую, AlphaFold производит прогнозы в минутах графического процессора (GPU) или часах GPU, в зависимости от длины последовательности белка. [60]
Современные методы искусственного интеллекта и базы данных белковых предсказанных структур
AlphaFold2 был представлен в CASP14 и способен предсказывать структуры белков с почти экспериментальной точностью. [61] За AlphaFold быстро последовала RoseTTAFold. [62] а позже OmegaFold и Метагеномный атлас ESM. [63] В недавнем исследовании Sommer et al. В 2022 году было продемонстрировано применение прогнозирования структуры белка при аннотации генома, в частности, при идентификации функциональных изоформ белка с использованием структур, предсказанных с помощью вычислений, доступных по адресу https://www.isoform.io . [64] Это исследование подчеркивает перспективность прогнозирования структуры белка как инструмента аннотации генома и представляет практический, структурно-ориентированный подход, который можно использовать для улучшения аннотации любого генома.
Европейский институт биоинформатики совместно с DeepMind создали базу данных AlphaFold - EBI. [65] для предсказанных белковых структур. [66]
Оценка серверов автоматического предсказания структуры
CASP , что означает критическая оценка методов прогнозирования структуры белка, представляет собой эксперимент всего сообщества по прогнозированию структуры белка, проводимый каждые два года, начиная с 1994 года. CASP предоставляет возможность оценить качество доступной человеческой неавтоматизированной методологии ( категория человека) и автоматические серверы для прогнозирования структуры белков (категория серверов, представленная в CASP7). [67]
Сервер непрерывной автоматизированной оценки моделей CAMEO3D оценивает автоматизированные серверы прогнозирования структуры белков еженедельно, используя слепые прогнозы для вновь выпускаемых белковых структур. CAMEO публикует результаты на своем сайте.
См. также [ править ]
- Белковый дизайн
- Прогнозирование функции белка
- Прогнозирование межбелкового взаимодействия
- Генное предсказание
- Программное обеспечение для прогнозирования структуры белка
- de novo Прогнозирование структуры белка
- Программное обеспечение для молекулярного дизайна
- Программное обеспечение для молекулярного моделирования
- Моделирование биологических систем
- Библиотеки фрагментов
- Решетчатые белки
- Статистический потенциал
- Структурный атлас генома человека
- Банк данных по круговому дихроизму белков
Ссылки [ править ]
- ^ Юпак-Юб Комм. По биохим. Номенклатура (1 сентября 1970 г.). «Комиссия IUPAC-IUB по биохимической номенклатуре. Сокращения и символы для описания конформации полипептидных цепей. Ориентировочные правила (1969)». Биохимия . 9 (18): 3471–3479. дои : 10.1021/bi00820a001 . ПМИД 5509841 . S2CID 196933 .
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г час Гора ДМ (2004). Биоинформатика: анализ последовательностей и генома . Том. 2. Лабораторный пресс Колд-Спринг-Харбор. ISBN 978-0-87969-712-9 .
- ^ Хуан Цзюй, Брутлаг DL (январь 2001 г.). «База данных EMOTIF» . Исследования нуклеиновых кислот . 29 (1): 202–4. дои : 10.1093/нар/29.1.202 . ПМК 29837 . ПМИД 11125091 .
- ^ Пировано В., Херинга Дж. (2010). «Прогнозирование вторичной структуры белка». Методы интеллектуального анализа данных для наук о жизни . Методы молекулярной биологии. Том. 609. стр. 327–48. дои : 10.1007/978-1-60327-241-4_19 . ISBN 978-1-60327-240-7 . ПМИД 20221928 .
- ^ Гуццо А.В. (ноябрь 1965 г.). «Влияние аминокислотной последовательности на структуру белка» . Биофизический журнал . 5 (6): 809–22. Бибкод : 1965BpJ.....5..809G . дои : 10.1016/S0006-3495(65)86753-4 . ПМЦ 1367904 . ПМИД 5884309 .
- ^ Протеро JW (май 1966 г.). «Корреляция между распределением аминокислот и альфа-спиралей» . Биофизический журнал . 6 (3): 367–70. Бибкод : 1966BpJ.....6..367P . дои : 10.1016/S0006-3495(66)86662-6 . ПМЦ 1367951 . ПМИД 5962284 .
- ^ Шиффер М., Эдмундсон А.Б. (март 1967 г.). «Использование спиральных колес для представления структур белков и идентификации сегментов со спиральным потенциалом» . Биофизический журнал . 7 (2): 121–35. Бибкод : 1967BpJ.....7..121S . дои : 10.1016/S0006-3495(67)86579-2 . ПМК 1368002 . ПМИД 6048867 .
- ^ Котельчук Д., Щерага Х.А. (январь 1969 г.). «Влияние короткодействующих взаимодействий на формирование белков. II. Модель предсказания альфа-спиральных областей белков» . Труды Национальной академии наук Соединенных Штатов Америки . 62 (1): 14–21. Бибкод : 1969ПНАС...62...14К . дои : 10.1073/pnas.62.1.14 . ПМК 285948 . ПМИД 5253650 .
- ^ Льюис ПН, Го Н, Го М, Котельчук Д, Шерага ХА (апрель 1970 г.). «Профили вероятности спирали денатурированных белков и их корреляция с нативными структурами» . Труды Национальной академии наук Соединенных Штатов Америки . 65 (4): 810–5. Бибкод : 1970PNAS...65..810L . дои : 10.1073/pnas.65.4.810 . ПМК 282987 . ПМИД 5266152 .
- ^ Фроимовиц М., Фасман Г.Д. (1974). «Прогнозирование вторичной структуры белков с использованием теории перехода спираль-клубок». Макромолекулы . 7 (5): 583–9. Бибкод : 1974МаМол...7..583F . дои : 10.1021/ma60041a009 . ПМИД 4371089 .
- ^ Цянь, Нин; Сейновский, Терри Дж. (1988). «Прогнозирование вторичной структуры глобулярных белков с использованием моделей нейронных сетей» (PDF) . Журнал молекулярной биологии . 202 (4): 865–884. дои : 10.1016/0022-2836(88)90564-5 . ПМИД 3172241 . Цянь1988.
- ^ Рост, Буркхард ; Сандер, Крис (1993). «Прогнозирование вторичной структуры белка с точностью более 70%» (PDF) . Журнал молекулярной биологии . 232 (2): 584–599. дои : 10.1006/jmbi.1993.1413 . ПМИД 8345525 . Рост1993.
- ↑ Перейти обратно: Перейти обратно: а б Дор О, Чжоу Ю (март 2007 г.). «Достижение 80% десятикратной перекрестной проверки точности прогнозирования вторичной структуры посредством крупномасштабного обучения». Белки . 66 (4): 838–45. дои : 10.1002/прот.21298 . ПМИД 17177203 . S2CID 14759081 .
- ^ Чоу П.Ю., Фасман Г.Д. (январь 1974 г.). «Прогнозирование конформации белка». Биохимия . 13 (2): 222–45. дои : 10.1021/bi00699a002 . ПМИД 4358940 .
- ^ Гарнье Дж., Диджей Осгуторп, Робсон Б. (март 1978 г.). «Анализ точности и применения простых методов предсказания вторичной структуры глобулярных белков». Журнал молекулярной биологии . 120 (1): 97–120. дои : 10.1016/0022-2836(78)90297-8 . ПМИД 642007 .
- ↑ Перейти обратно: Перейти обратно: а б Фам Т.Х., Сатоу К., Хо ТБ (апрель 2005 г.). «Машины опорных векторов для прогнозирования и анализа бета- и гамма-поворотов в белках». Журнал биоинформатики и вычислительной биологии . 3 (2): 343–58. дои : 10.1142/S0219720005001089 . ПМИД 15852509 .
- ^ Чжан Кью, Юн С., Уэльс WJ (май 2005 г.). «Улучшенный метод прогнозирования бета-поворота с использованием машины опорных векторов». Биоинформатика . 21 (10): 2370–4. doi : 10.1093/биоинформатика/bti358 . ПМИД 15797917 .
- ^ Циммерманн О, Хансманн У.Х. (декабрь 2006 г.). «Машины опорных векторов для прогнозирования областей двугранных углов». Биоинформатика . 22 (24): 3009–15. doi : 10.1093/биоинформатика/btl489 . ПМИД 17005536 .
- ^ Куанг Р., Лесли К.С., Ян А.С. (июль 2004 г.). «Прогнозирование угла остова белка с помощью подходов машинного обучения» . Биоинформатика . 20 (10): 1612–21. doi : 10.1093/биоинформатика/bth136 . ПМИД 14988121 .
- ^ Фарагги Э., Ян Ю., Чжан С., Чжоу Ю. (ноябрь 2009 г.). «Прогнозирование непрерывной локальной структуры и эффект ее замены на вторичную структуру при предсказании структуры белка без фрагментов» . Структура . 17 (11): 1515–27. doi : 10.1016/j.str.2009.09.006 . ПМЦ 2778607 . ПМИД 19913486 .
- ^ Чжун Л., Джонсон WC (май 1992 г.). «Окружающая среда влияет на предпочтение аминокислот вторичной структуры» . Труды Национальной академии наук Соединенных Штатов Америки . 89 (10): 4462–5. Бибкод : 1992PNAS...89.4462Z . дои : 10.1073/pnas.89.10.4462 . ПМЦ 49102 . ПМИД 1584778 .
- ^ Макдональд-младший, Джонсон WC (июнь 2001 г.). «Особенности окружающей среды важны для определения вторичной структуры белка» . Белковая наука . 10 (6): 1172–7. дои : 10.1110/ps.420101 . ПМК 2374018 . ПМИД 11369855 .
- ^ Костантини С., Колонна Дж., Факкиано А.М. (апрель 2006 г.). «Склонность аминокислот к вторичным структурам зависит от структурного класса белка». Связь с биохимическими и биофизическими исследованиями . 342 (2): 441–51. дои : 10.1016/j.bbrc.2006.01.159 . ПМИД 16487481 .
- ^ Мараши С.А., Бехрузи Р., Пезешк Х. (январь 2007 г.). «Адаптация белков к разным средам: сравнение структурных свойств протеома Bacillus subtilis и Escherichia coli». Журнал теоретической биологии . 244 (1): 127–32. Бибкод : 2007JThBi.244..127M . дои : 10.1016/j.jtbi.2006.07.021 . ПМИД 16945389 .
- ^ Костантини С., Колонна Дж., Факкиано А.М. (октябрь 2007 г.). «PreSSAPro: программное обеспечение для прогнозирования вторичной структуры по свойствам аминокислот». Вычислительная биология и химия . 31 (5–6): 389–92. doi : 10.1016/j.compbiolchem.2007.08.010 . ПМИД 17888742 .
- ^ Момен-Рокнабади А., Садеги М., Пезешк Х., Мараши С.А. (август 2008 г.). «Влияние площади доступной поверхности остатков на прогнозирование вторичных структур белка» . БМК Биоинформатика . 9 : 357. дои : 10.1186/1471-2105-9-357 . ПМЦ 2553345 . ПМИД 18759992 .
- ^ Адамчак Р., Поролло А., Меллер Дж. (май 2005 г.). «Сочетание предсказания вторичной структуры и доступности растворителей в белках». Белки . 59 (3): 467–75. дои : 10.1002/прот.20441 . ПМИД 15768403 . S2CID 13267624 .
- ^ Лакизаде А, Мараши С.А. (2009). «Добавление информации о контактном номере может улучшить прогнозирование вторичной структуры белка с помощью нейронных сетей» (PDF) . Экскли Дж . 8 : 66–73.
- ^ Дорн, Марсио; э Сильва, Мариэль Барбачан; Буриол, Лусиана С.; Лэмб, Луис К. (01 декабря 2014 г.). «Трёхмерное предсказание структуры белка: методы и вычислительные стратегии» . Вычислительная биология и химия . 53 : 251–276. doi : 10.1016/j.compbiolchem.2014.10.001 . ISSN 1476-9271 . ПМИД 25462334 .
- ↑ Перейти обратно: Перейти обратно: а б с Чжан Ю (июнь 2008 г.). «Прогресс и проблемы в предсказании структуры белков» . Современное мнение в области структурной биологии . 18 (3): 342–8. дои : 10.1016/j.sbi.2008.02.004 . ПМК 2680823 . ПМИД 18436442 .
- ^ Овчинников С., Ким Д.Е., Ван Р.Ю., Лю Ю., ДиМайо Ф., Бейкер Д. (сентябрь 2016 г.). «Улучшено предсказание структуры de novo в CASP11 за счет включения информации о коэволюции в Rosetta» . Белки . 84 (Приложение 1): 67–75. дои : 10.1002/прот.24974 . ПМЦ 5490371 . ПМИД 26677056 .
- ^ Хон Ш., Джу К., Ли Дж. (ноябрь 2018 г.). «ConDo: предсказание границ белковых доменов с использованием коэволюционной информации». Биоинформатика . 35 (14): 2411–2417. doi : 10.1093/биоинформатика/bty973 . ПМИД 30500873 .
- ^ Воллакотт А.М., Зангеллини А., Мерфи П., Бейкер Д. (февраль 2007 г.). «Прогнозирование структур многодоменных белков по структурам отдельных доменов» . Белковая наука . 16 (2): 165–75. дои : 10.1110/ps.062270707 . ПМК 2203296 . ПМИД 17189483 .
- ^ Сюй Д., Ярошевский Л., Ли З., Годзик А. (июль 2015 г.). «AIDA: сборка доменов ab initio для автоматического прогнозирования многодоменной структуры белка и прогнозирования взаимодействия доменов» . Биоинформатика . 31 (13): 2098–105. doi : 10.1093/биоинформатика/btv092 . ПМЦ 4481839 . ПМИД 25701568 .
- ^ Шоу Д.Е., Дрор Р.О., Салмон Дж.К., Гроссман Дж.П., Маккензи К.М., Бэнк Дж.А., Янг С., Денерофф М.М., Бэтсон Б., Бауэрс К.Дж., Чоу Э (2009). Моделирование молекулярной динамики в миллисекундном масштабе на Антоне . Материалы конференции по высокопроизводительным вычислительным сетям, хранению и анализу - SC '09. п. 1. дои : 10.1145/1654059.1654126 . ISBN 9781605587448 .
- ^ Пирс Л.К., Саломон-Феррер Р., де Оливейра К.А., Маккаммон Дж.А., Уокер Р.С. (сентябрь 2012 г.). «Регулярный доступ к событиям в миллисекундном масштабе времени с помощью ускоренной молекулярной динамики» . Журнал химической теории и вычислений . 8 (9): 2997–3002. дои : 10.1021/ct300284c . ПМЦ 3438784 . ПМИД 22984356 .
- ^ Кмиецик С., Гронт Д., Колински М., Витеска Л., Давид А.Е., Колински А. (июль 2016 г.). «Крупнозернистые белковые модели и их применение» . Химические обзоры . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ПМИД 27333362 .
- ^ Чунг, Нью-Джерси, Ю В (ноябрь 2018 г.). «Предсказание структуры белка de novo с использованием сверхбыстрого молекулярно-динамического моделирования» . ПЛОС ОДИН . 13 (11): e0205819. Бибкод : 2018PLoSO..1305819C . дои : 10.1371/journal.pone.0205819 . ПМК 6245515 . ПМИД 30458007 .
- ^ Гёбель Ю, Сандер К, Шнайдер Р, Валенсия А (апрель 1994 г.). «Коррелированные мутации и контакты остатков в белках». Белки . 18 (4): 309–17. дои : 10.1002/прот.340180402 . ПМИД 8208723 . S2CID 14978727 .
- ^ Тейлор В.Р., Хатрик К. (март 1994 г.). «Компенсирующие изменения в выравнивании множественных последовательностей белков». Белковая инженерия . 7 (3): 341–8. дои : 10.1093/протеин/7.3.341 . ПМИД 8177883 .
- ^ Неер Э. (январь 1994 г.). «Насколько часто происходят коррелированные изменения в семействах белковых последовательностей?» . Труды Национальной академии наук Соединенных Штатов Америки . 91 (1): 98–102. Бибкод : 1994ПНАС...91...98Н . дои : 10.1073/pnas.91.1.98 . ПМК 42893 . ПМИД 8278414 .
- ^ Маркс Д.С., Колвелл Л.Дж., Шеридан Р., Хопф Т.А., Паньяни А., Зекчина Р., Сандер С (2011). «Трехмерная структура белка, рассчитанная на основе вариаций эволюционной последовательности» . ПЛОС ОДИН . 6 (12): e28766. Бибкод : 2011PLoSO...628766M . дои : 10.1371/journal.pone.0028766 . ПМЦ 3233603 . ПМИД 22163331 .
- ^ Бургер Л., ван Нимвеген Э (январь 2010 г.). «Распутывание прямой и непрямой совместной эволюции остатков в выравнивании белков» . PLOS Вычислительная биология . 6 (1): e1000633. Бибкод : 2010PLSCB...6E0633B . дои : 10.1371/journal.pcbi.1000633 . ПМЦ 2793430 . ПМИД 20052271 .
- ^ Моркос Ф., Паньяни А., Лунт Б., Бертолино А., Маркс Д.С., Сандер С., Зекчина Р., Онучич Дж.Н., Хва Т., Вейгт М. (декабрь 2011 г.). «Анализ коэволюции остатков методом прямого связывания фиксирует нативные контакты во многих семействах белков» . Труды Национальной академии наук Соединенных Штатов Америки . 108 (49): E1293-301. arXiv : 1110.5223 . Бибкод : 2011PNAS..108E1293M . дои : 10.1073/pnas.1111471108 . ПМК 3241805 . ПМИД 22106262 .
- ^ Ньюджент Т., Джонс Д.Т. (июнь 2012 г.). «Точное предсказание структуры de novo крупных трансмембранных белковых доменов с использованием сборки фрагментов и анализа коррелирующих мутаций» . Труды Национальной академии наук Соединенных Штатов Америки . 109 (24): Е1540-7. Бибкод : 2012PNAS..109E1540N . дои : 10.1073/pnas.1120036109 . ПМК 3386101 . ПМИД 22645369 .
- ^ Хопф Т.А., Колвелл Л.Дж., Шеридан Р., Рост Б., Сандер С., Маркс Д.С. (июнь 2012 г.). «Трехмерные структуры мембранных белков по данным геномного секвенирования» . Клетка . 149 (7): 1607–21. дои : 10.1016/j.cell.2012.04.012 . ПМЦ 3641781 . ПМИД 22579045 .
- ^ Джин, Шикай; Чен, Минчен; Чен, Сюнь; Буэно, Карлос; Лу, Вэй; Шафер, Николас П.; Линь, Синчэн; Онучич, Хосе Н.; Волинс, Питер Г. (9 июня 2020 г.). «Прогнозирование структуры белка в CASP13 с использованием пакета AWSEM». Журнал химической теории и вычислений . 16 (6): 3977–3988. doi : 10.1021/acs.jctc.0c00188 . ПМИД 32396727 . S2CID 218618842 .
- ^ Чжан Ю, Сколник Дж (январь 2005 г.). «Проблема предсказания структуры белка может быть решена с использованием текущей библиотеки PDB» . Труды Национальной академии наук Соединенных Штатов Америки . 102 (4): 1029–34. Бибкод : 2005PNAS..102.1029Z . дои : 10.1073/pnas.0407152101 . ПМЦ 545829 . ПМИД 15653774 .
- ^ Боуи Дж., Люти Р., Айзенберг Д. (июль 1991 г.). «Метод идентификации белковых последовательностей, которые складываются в известную трехмерную структуру». Наука . 253 (5016): 164–70. Бибкод : 1991Sci...253..164B . дои : 10.1126/science.1853201 . ПМИД 1853201 .
- ^ Данбрек Р.Л. (август 2002 г.). «Ротамерные библиотеки в XXI веке». Современное мнение в области структурной биологии . 12 (4): 431–40. дои : 10.1016/S0959-440X(02)00344-5 . ПМИД 12163064 .
- ^ Подумайте JW, Ричардс FM (февраль 1987 г.). «Третичные матрицы для белков. Использование критериев упаковки при перечислении разрешенных последовательностей для разных структурных классов». Журнал молекулярной биологии . 193 (4): 775–91. дои : 10.1016/0022-2836(87)90358-5 . ПМИД 2441069 .
- ^ Ловелл С.С., Уорд Дж.М., Ричардсон Дж.С., Ричардсон, округ Колумбия (август 2000 г.). «Предпоследняя библиотека ротамеров». Белки . 40 (3): 389–408. doi : 10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2 . ПМИД 10861930 . S2CID 3055173 .
- ^ Шаповалов М.В., Данбрэк Р.Л. (июнь 2011 г.). «Сглаженная библиотека ротамеров, зависящая от основной цепи, для белков, полученная на основе адаптивных оценок плотности ядра и регрессий» . Структура . 19 (6): 844–58. дои : 10.1016/j.str.2011.03.019 . ПМК 3118414 . ПМИД 21645855 .
- ^ Чен В.Б., Арендал В.Б., Хедд Дж.Дж., Киди Д.А., Иммормино Р.М., Капрал Дж.Дж., Мюррей Л.В., Ричардсон Дж.С., Ричардсон Д.С. (январь 2010 г.). «MolProbity: проверка полноатомной структуры для макромолекулярной кристаллографии» . Акта Кристаллографика. Раздел D. Биологическая кристаллография . 66 (Часть 1): 12–21. дои : 10.1107/S0907444909042073 . ПМК 2803126 . ПМИД 20057044 .
- ^ Бауэр М.Дж., Коэн Ф.Е., Данбрек Р.Л. (апрель 1997 г.). «Прогнозирование ротамеров боковой цепи белка из библиотеки ротамеров, зависящей от основной цепи: новый инструмент моделирования гомологии». Журнал молекулярной биологии . 267 (5): 1268–82. дои : 10.1006/jmbi.1997.0926 . ПМИД 9150411 .
- ^ Фойгт К.А., Гордон Д.Б., Мэйо С.Л. (июнь 2000 г.). «Точность в обмен на скорость: количественное сравнение алгоритмов поиска при проектировании последовательностей белков». Журнал молекулярной биологии . 299 (3): 789–803. CiteSeerX 10.1.1.138.2023 . дои : 10.1006/jmbi.2000.3758 . ПМИД 10835284 .
- ^ Кривов Г.Г., Шаповалов М.В., Данбрек Р.Л. (декабрь 2009 г.). «Улучшенное предсказание конформаций боковой цепи белка с помощью SCWRL4» . Белки . 77 (4): 778–95. дои : 10.1002/прот.22488 . ПМЦ 2885146 . ПМИД 19603484 .
- ↑ Перейти обратно: Перейти обратно: а б Хохрейтер, С.; Хойзель, М.; Обермайер, К. (2007). «Быстрое обнаружение гомологии белков на основе моделей без выравнивания» . Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/биоинформатика/btm247 . ПМИД 17488755 .
- ↑ Перейти обратно: Перейти обратно: а б Тиреу, Т.; Речко, М. (2007). «Двунаправленные сети долговременной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. дои : 10.1109/tcbb.2007.1015 . ПМИД 17666763 . S2CID 11787259 .
- ↑ Перейти обратно: Перейти обратно: а б с д Джампер, Джон; Эванс, Ричард; Притцель, Александр; Грин, Тим; Фигурнов Михаил; Роннебергер, Олаф; Туньясувунакул, Кэтрин; Бейтс, Расс; Жидек, Августин; Потапенко, Анна; Бриджланд, Алекс (август 2021 г.). «Высокоточное предсказание структуры белка с помощью AlphaFold» . Природа . 596 (7873): 583–589. Бибкод : 2021Natur.596..583J . дои : 10.1038/s41586-021-03819-2 . ISSN 1476-4687 . ПМЦ 8371605 . PMID 34265844 .
- ^ Джампер Дж., Эванс Р., Притцель А., Грин Т., Фигурнов М., Роннебергер О. и др. (август 2021 г.). «Высокоточное предсказание структуры белка с помощью AlphaFold» . Природа . 596 (7873): 583–589. дои : 10.1038/s41586-021-03819-2 . ПМЦ 8371605 . PMID 34265844 .
- ^ Бэк М., ДиМайо Ф., Анищенко И., Даупарас Дж., Овчинников С., Ли Г.Р. и др. (август 2021 г.). «Точное предсказание белковых структур и взаимодействий с помощью трехдорожечной нейронной сети» . Наука . 373 (6557): 871–876. дои : 10.1126/science.abj8754 . ПМЦ 7612213 . ПМИД 34282049 .
- ^ Каллауэй Э (ноябрь 2022 г.). «Новый конкурент AlphaFold? Meta AI предсказывает форму 600 миллионов белков». Природа . 611 (7935): 211–212. дои : 10.1038/d41586-022-03539-1 . ПМИД 36319775 . S2CID 253257926 .
- ^ Соммер, Маркус Дж.; Ча, Суён; Варабьев, Алесь; Ринкон, Наталья; Парк, Сукхван; Минкин, Илья; Пертеа, Михаэла; Штайнеггер, Мартин; Зальцберг, Стивен Л. (15 декабря 2022 г.). «Идентификация изоформ транскриптома человека на основе структуры» . электронная жизнь . 11 : е82556. doi : 10.7554/eLife.82556 . ПМЦ 9812405 . ПМИД 36519529 .
- ^ «База данных структуры белков AlphaFold» . ЭМБЛ-ЭБИ . Проверено 30 ноября 2022 г.
- ^ Варади М., Аньянго С., Дешпанде М., Наир С., Натассия С., Йорданова Г. и др. (январь 2022 г.). «База данных структуры белков AlphaFold: массовое расширение структурного охвата пространства белковых последовательностей с помощью моделей высокой точности» . Нуклеиновые кислоты Рез . 50 (Д1): Д439–Д444. дои : 10.1093/nar/gkab1061 . ПМЦ 8728224 . ПМИД 34791371 .
- ^ Бэтти Дж.Н., Копп Дж., Бордоли Л., Рид Р.Дж., Кларк Н.Д., Шведе Т. (2007). «Автоматические прогнозы серверов в CASP7» . Белки . 69 (Приложение 8): 68–82. дои : 10.1002/прот.21761 . ПМИД 17894354 . S2CID 29879391 .
Дальнейшее чтение [ править ]
- Майорек К., Козловский Л., Якальски М., Буйницкий Ю.М. (18 декабря 2008 г.). «Глава 2: Первые шаги прогнозирования структуры белка» (PDF) . В Буйницки Дж. (ред.). Прогнозирование белковых структур, функций и взаимодействий . John Wiley & Sons, Ltd., стр. 39–62. дои : 10.1002/9780470741894.ch2 . ISBN 9780470517673 .
- Бейкер Д., Сали А. (октябрь 2001 г.). «Предсказание структуры белка и структурная геномика». Наука . 294 (5540): 93–6. Бибкод : 2001Sci...294...93B . дои : 10.1126/science.1065659 . ПМИД 11588250 . S2CID 7193705 .
- Келли Л.А., Штернберг М.Дж. (2009). «Прогнозирование структуры белка в Интернете: пример использования сервера Phyre» (PDF) . Протоколы природы . 4 (3): 363–71. дои : 10.1038/nprot.2009.2 . hdl : 10044/1/18157 . ПМИД 19247286 . S2CID 12497300 .
- Крыштафович А, Фиделис К (апрель 2009 г.). «Предсказание структуры белка и оценка качества модели» . Открытие наркотиков сегодня . 14 (7–8): 386–93. дои : 10.1016/j.drudis.2008.11.010 . ПМК 2808711 . ПМИД 19100336 .
- Цюй Икс, Суонсон Р., Дэй Р., Цай Дж. (июнь 2009 г.). «Руководство по прогнозированию структуры на основе шаблонов». Современная наука о белках и пептидах . 10 (3): 270–85. дои : 10.2174/138920309788452182 . ПМИД 19519455 .
- Дага П.Р., Патель Р.Ю., Дорксен Р.Дж. (2010). «Моделирование белков на основе шаблонов: последние методологические достижения» . Актуальные темы медицинской химии . 10 (1): 84–94. дои : 10.2174/156802610790232314 . ПМЦ 5943704 . ПМИД 19929829 .
- Физер, А. (2010). «Моделирование структуры белка на основе шаблонов». Вычислительная биология . Методы молекулярной биологии. Том. 673. стр. 73–94. дои : 10.1007/978-1-60761-842-3_6 . ISBN 978-1-60761-841-6 . ПМК 4108304 . ПМИД 20835794 .
- Коццетто Д., Трамонтано А. (декабрь 2008 г.). «Достижения и ошибки в предсказании структуры белка». Современная наука о белках и пептидах . 9 (6): 567–77. дои : 10.2174/138920308786733958 . ПМИД 19075747 .
- Наим А., Ситкофф Д., Кристек С. (апрель 2006 г.). «Сравнительное исследование доступного программного обеспечения для высокоточного моделирования гомологии: от выравнивания последовательностей до структурных моделей» . Белковая наука . 15 (4): 808–24. дои : 10.1110/ps.051892906 . ПМК 2242473 . ПМИД 16600967 .
Внешние ссылки [ править ]
- Домашняя страница экспериментов CASP
- Инструменты ExPASy Proteomics — список инструментов и серверов прогнозирования