Прогнозирование структуры белка de novo
В вычислительной биологии предсказание de novo структуры белка относится к алгоритмическому процессу, с помощью которого третичная структура белка предсказывается на основе его первичной аминокислотной последовательности . Сама проблема занимала ведущих ученых на протяжении десятилетий, оставаясь при этом нерешенной. По данным журнала Science , эта проблема остается одной из 125 нерешенных проблем современной науки. [ 1 ] В настоящее время некоторые из наиболее успешных методов имеют разумную вероятность предсказать складки небольших однодоменных белков в пределах 1,5 ангстрем по всей структуре. [ 2 ]
Методы de novo , как правило, требуют огромных вычислительных ресурсов и поэтому применяются только для относительно небольших белков. Моделирование структуры белка de novo отличается от моделирования на основе шаблонов (TBM) тем, что не используется решенный гомолог интересующего белка, что делает попытки предсказать структуру белка по аминокислотной последовательности чрезвычайно трудными. Прогнозирование структуры белка de novo для более крупных белков потребует более совершенных алгоритмов и более крупных вычислительных ресурсов, таких как те, которые предоставляют либо мощные суперкомпьютеры (такие как Blue Gene или MDGRAPE-3), либо проекты распределенных вычислений (такие как Folding@home , Rosetta@home , Проект складывания протеома человека , или Питательный рис для мира ). Хотя вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) для таких областей, как медицина и разработка лекарств, делают предсказание структуры de novo активной областью исследований.
Фон
[ редактировать ]В настоящее время разрыв между известными белковыми последовательностями и подтвержденными белковыми структурами огромен. В начале 2008 года только около 1% последовательностей, перечисленных в базе данных UniProtKB, соответствовали структурам в банке данных белков (PDB), в результате чего разрыв между последовательностью и структурой составлял примерно пять миллионов. [ 3 ] Экспериментальные методы определения третичной структуры столкнулись с серьезными узкими местами в их способности определять структуры конкретных белков. Например, в то время как рентгеновская кристаллография добилась успеха в кристаллизации примерно 80 000 цитозольных белков, она оказалась гораздо менее успешной в кристаллизации мембранных белков – примерно 280. [ 4 ] В свете экспериментальных ограничений разработка эффективных компьютерных программ, позволяющих устранить разрыв между известной последовательностью и структурой, считается единственным возможным вариантом. [ 4 ]
Методы прогнозирования структуры белка de novo пытаются предсказать третичные структуры на основе последовательностей на основе общих принципов, которые управляют энергетикой сворачивания белка и/или статистическими тенденциями конформационных особенностей, которые приобретают нативные структуры, без использования явных шаблонов . Исследования в области предсказания структуры de novo в основном сосредоточены на трех областях: альтернативные представления белков с более низким разрешением, точные энергетические функции и эффективные методы отбора проб.
Общая парадигма прогнозирования de novo включает в себя выборку конформационного пространства , руководствуясь оценочными функциями и другими зависящими от последовательности предвзятостью, так что генерируется большой набор структур-кандидатов («ловушек»). Затем из этих ложных структур выбираются нативные конформации с использованием оценки. функции, а также кластеризацию конформеров. Уточнение с высоким разрешением иногда используется в качестве последнего шага для точной настройки нативных структур. Существует два основных класса оценочных функций, основанных на математических моделях, описывающих аспекты известных. физика молекулярное взаимодействие. Функции, основанные на знаниях, формируются с помощью статистических моделей, отражающих аспекты свойств конформаций нативного белка. [ 5 ]
Последовательность аминокислот определяет третичную структуру белка
[ редактировать ]Было представлено несколько доказательств в пользу идеи о том, что первичная последовательность белка содержит всю информацию, необходимую для общей трехмерной структуры белка, что делает возможным предсказание белка de novo. Во-первых, белки с разными функциями обычно имеют разные аминокислотные последовательности. Во-вторых, несколько различных заболеваний человека, таких как мышечная дистрофия Дюшенна , могут быть связаны с потерей функции белка в результате изменения всего лишь одной аминокислоты в первичной последовательности. В-третьих, белки со схожими функциями у разных видов часто имеют схожие аминокислотные последовательности. Например, убиквитин — это белок, участвующий в регуляции деградации других белков; его аминокислотная последовательность почти идентична у столь далеких друг от друга видов, как Drosophila melanogaster и Homo sapiens . В-четвертых, с помощью мысленного эксперимента можно сделать вывод, что сворачивание белка не должно быть полностью случайным процессом и что информация, необходимая для сворачивания, должна быть закодирована в первичной структуре. Например, если предположить, что каждый из 100 аминокислотных остатков в небольшом полипептиде может принимать в среднем 10 различных конформаций, что дает 10^100 различных конформаций полипептида. Если бы одна возможная конформация проверялась каждые 10^-13 секунд, то для выборки всех возможных конформаций потребовалось бы около 10^77 лет. Однако белки постоянно правильно сворачиваются в организме в короткие сроки, а это означает, что этот процесс не может быть случайным и, следовательно, потенциально может быть смоделирован.
Одно из наиболее убедительных доказательств предположения о том, что вся соответствующая информация, необходимая для кодирования третичной структуры белка, находится в первичной последовательности, было продемонстрировано в 1950-х годах Кристианом Анфинсеном . В классическом эксперименте он показал, что рибонуклеазу А можно полностью денатурировать, погрузив ее в раствор мочевины (для разрушения стабилизирующих гидрофобных связей) в присутствии восстановителя (для расщепления стабилизирующих дисульфидных связей). После удаления белка из этой среды денатурированный и нефункциональный белок рибонуклеаза спонтанно отступил и восстановил функцию, демонстрируя, что третичная структура белка кодируется в первичной аминокислотной последовательности. Если бы белок реформировался случайным образом, могло бы образоваться более ста различных комбинаций четырех дисульфидных связей. Однако в большинстве случаев для правильного сворачивания белков требуется присутствие молекулярных шаперонов внутри клетки. Общая форма белка может быть закодирована в его аминокислотной структуре, но его сворачивание может зависеть от шаперонов, помогающих сворачивать. [ 6 ]
- От первичного до третичного
-
Первичная структура артемина человека (изоформа 1 [UniParc])
-
Третичная структура человеческого артемина (PDB: 2GYR), визуализированная с использованием PyMOL (Delano Scientific Freeware)
к успешному моделированию de novo Требования
[ редактировать ]Предикторы конформаций de novo обычно действуют путем создания конформаций-кандидатов (приманок), а затем выбора среди них на основе их термодинамической стабильности и энергетического состояния. Наиболее успешные предсказатели будут иметь следующие три общих фактора:
1) Точная энергетическая функция, которая соответствует наиболее термодинамически стабильному состоянию нативной структуры белка.
2) Эффективный метод поиска, способный быстро идентифицировать низкоэнергетические состояния посредством конформационного поиска.
3) Возможность выбора нативных моделей из коллекции структур-ловушек. [ 3 ]
Программы de novo будут искать трехмерное пространство и в процессе создавать возможные конформации белка. По мере того, как белок приближается к своему правильно свернутому, нативному состоянию, энтропия и свободная энергия будут уменьшаться. Используя эту информацию, предсказатели de novo могут различать приманки. В частности, программы de novo будут выбирать возможные конформации с более низкой свободной энергией, которые с большей вероятностью будут правильными, чем структуры с более высокой свободной энергией. [ 2 ] [ 6 ] [ 7 ] Как заявил Дэвид А. Бейкер относительно того, как работает его предиктор de novo Rosetta, «во время сворачивания каждый локальный сегмент цепи мерцает между различным подмножеством локальных конформаций… сворачивание в нативную структуру происходит, когда конформации, принятые локальной структурой, сегменты и их относительная ориентация допускают… низкоэнергетические свойства нативных белковых структур. В алгоритме Rosetta… программа затем ищет комбинацию этих локальных конформаций, которая имеет наименьшую общую энергию». [ 8 ]
Однако некоторые методы de novo работают путем сначала перебора всего конформационного пространства с использованием упрощенного представления структуры белка, а затем выбора тех, которые с наибольшей вероятностью будут нативными. Примером этого подхода является подход, основанный на представлении белковых складок с использованием тетраэдрических решеток и построении всех моделей атомов поверх всех возможных конформаций, полученных с использованием тетраэдрического представления. Этот подход был успешно использован в CASP3 для предсказания складки белка, топология которой ранее не наблюдалась командой Майкла Левитта. [ 9 ]
Разработав программу QUARK, Сюй и Чжан показали, что структура некоторых белков ab initio может быть успешно построена с помощью силового поля, основанного на знаниях. . [ 10 ] [ 11 ]

Стратегии прогнозирования
[ редактировать ]Если белок известной третичной структуры разделяет по крайней мере 30% своей последовательности с потенциальным гомологом неопределенной структуры, сравнительные методы, которые накладывают друг на друга предполагаемую неизвестную структуру с известной, могут быть использованы для предсказания вероятной структуры неизвестного. Однако ниже этого порога для определения возможной структуры на основе исходной модели используются три других класса стратегий: предсказание белка ab initio, распознавание складки и резьба.
- Методы Ab Initio. В методах ab initio первоначальная попытка выявить вторичные структуры (альфа-спираль, бета-лист, бета-поворот и т. д.) из первичной структуры предпринимается путем использования физико-химических параметров и алгоритмов нейронных сетей. С этого момента алгоритмы предсказывают третичное сворачивание. Одним из недостатков этой стратегии является то, что она еще не способна учитывать расположение и ориентацию боковых цепей аминокислот.
- Прогнозирование складок: в стратегиях распознавания складок сначала делается прогноз вторичной структуры, а затем сравнивается либо с библиотекой известных складок белка, такой как CATH или SCOP, либо с так называемой «таблицей Менделеева» возможных форм вторичной структуры. Затем вероятным совпадениям присваивается оценка достоверности.
- Обработка нитей: в стратегиях многопоточности метод распознавания складок расширяется еще больше. В этом процессе эмпирически обоснованные энергетические функции взаимодействия пар остатков используются для размещения неизвестного белка на предполагаемой основной цепи как наиболее подходящей, с учетом пробелов, где это необходимо. Затем подчеркиваются лучшие взаимодействия, чтобы отличить потенциальные приманки и предсказать наиболее вероятную конформацию.
Цель как стратегии складки, так и стратегии создания нитей — выяснить, похожа ли складка в неизвестном белке на домен в известном белке, хранящемся в базе данных, такой как банк данных белков (PDB). В этом отличие от методов de novo (ab initio), где структура определяется с использованием подхода, основанного на физике, а не сравнения складок в белке со структурами в базе данных. [ 12 ]
Ограничения de novo методов прогнозирования
[ редактировать ]Основным ограничением методов прогнозирования белков de novo является огромное количество компьютерного времени, необходимое для успешного определения нативной конформации белка. Распределенные методы, такие как Rosetta@home, попытались улучшить эту ситуацию, наняв людей, которые затем добровольно проводили свободное время на домашнем компьютере для обработки данных. Однако даже эти методы сталкиваются с проблемами. Например, распределенный метод был использован группой исследователей из Вашингтонского университета и Медицинского института Говарда Хьюза для предсказания третичной структуры белка T0283 по его аминокислотной последовательности. В слепом тесте, сравнивающем точность этого распределенного метода с экспериментально подтвержденной структурой, хранящейся в банке данных белков (PDB), предиктор показал превосходное согласие с депонированной структурой. Однако время и количество компьютеров, необходимые для этого подвига, были огромными – почти два года и примерно 70 000 домашних компьютеров соответственно. [ 13 ]
Один из методов, предложенных для преодоления таких ограничений, включает использование моделей Маркова (см. Цепь Маркова Монте-Карло ). Одна из возможностей заключается в том, что такие модели могут быть построены, чтобы помочь в расчетах свободной энергии и прогнозировании структуры белка, возможно, путем уточнения компьютерного моделирования. [ 14 ] Другой способ обойти ограничения вычислительной мощности — использование крупнозернистого моделирования . Грубозернистые модели белков позволяют прогнозировать структуру de novo небольших белков или крупных фрагментов белков за короткое время вычислений. [ 15 ]
Прогнозирование структуры de novo белков
[ редактировать ]Другое ограничение программного обеспечения для прогнозирования структуры белков касается определенного класса белков, а именно белков de novo . Программное обеспечение для прогнозирования структуры, такое как AlphaFold, опирается на коэволюционные данные, полученные в результате множественного выравнивания последовательностей (MSA) и гомологичных белковых последовательностей, для прогнозирования структур белков. Однако, по определению, белкам de novo не хватает гомологичных последовательностей, поскольку они являются эволюционно новыми. [ 16 ] Таким образом, можно ожидать, что программное обеспечение для прогнозирования структуры, которое основано на такой гомологии, будет плохо работать при прогнозировании структур белков de novo . [ 17 ] Для повышения точности предсказания структуры белков de novo было разработано новое программное обеспечение. А именно, ESMFold — это недавно разработанная модель большого языка (LLM) для предсказания структур белков, основанная исключительно на их аминокислотных последовательностях. Он может предсказать трехмерную структуру белка с разрешением на атомном уровне, введя одну аминокислотную последовательность. [ 18 ]

Критическая оценка предсказания структуры белка
[ редактировать ]«Прогресс всех вариантов вычислительных методов прогнозирования структуры белка оценивается в проводимых раз в два года экспериментах сообщества по критической оценке прогнозирования структуры белка ( CASP ). В экспериментах CASP исследовательским группам предлагается применить свои методы прогнозирования к аминокислотным последовательностям, нативная структура которых неизвестна, но должна быть определена и вскоре опубликована. Несмотря на то, что количество аминокислотных последовательностей, полученных в ходе экспериментов CASP, невелико, эти соревнования обеспечивают хорошую меру для оценки методов и прогресса в этой области, возможно, беспристрастно». [ 19 ]
Примечания
[ редактировать ]- Самудрала, Р., Ся, Ю, Хуанг, Э.С., Левитт, М. Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода. (1999). Белки, Приложение 3: 194-198.
- Брэдли, П.; Мальмстрем, Л.; Цянь, Б.; Шенбрун, Дж.; Чивиан, Д.; Ким, Делавэр; Мейлер, Дж.; Мисура, КМ; Бейкер, Д. (2005). «Бесплатное моделирование с Rosetta в CASP6». Белки . 61 (Приложение 7): 128–34. дои : 10.1002/прот.20729 . ПМИД 16187354 . S2CID 36366681 .
- Бонно ; Бейкер, Д. (2001). «Прогнозирование структуры белка Ab Initio: прогресс и перспективы». Анну. Преподобный Биофиз. Биомол. Структурировать . 30 : 173–89. doi : 10.1146/annurev.biophys.30.1.173 . ПМИД 11340057 .
- Дж. Сколник, Ю. Чжан и А. Колински. Моделирование Ab Initio. Структурная геномика и высокопроизводительная структурная биология. М. Сундсром, М. Норин и А. Эдвардс, ред. 2006: 137–162.
- Дж. Ли, С. Ву, И. Чжан. Ab initio предсказание структуры белка. От структуры белка к функции с помощью биоинформатики, глава 1, под редакцией DJ Rigden (Springer-London, 2009), стр. 1-26.
См. также
[ редактировать ]- Прогнозирование структуры белка
- Программное обеспечение для прогнозирования структуры белка
- Белковый дизайн
Ссылки
[ редактировать ]- ^ «Редакционная статья: Еще многое предстоит узнать» . Наука . 309 (5731): 78–102. 2005. doi : 10.1126/science.309.5731.78b . ПМИД 15994524 .
- ^ Перейти обратно: а б Дилл, Кен А .; и др. (2007). «Проблема сворачивания белка: когда она будет решена?». Современное мнение в области структурной биологии . 17 (3): 342–346. дои : 10.1016/j.sbi.2007.06.001 . ПМИД 17572080 .
- ^ Перейти обратно: а б Ригден, Дэниел Дж. От структуры белка к функции с помощью биоинформатики. Спрингер Наука. 2009. ISBN 978-1-4020-9057-8 .
- ^ Перейти обратно: а б Йонат, Ада. Рентгеновская кристаллография в центре науки о жизни. Современное мнение в структурной биологии. Том 21, выпуск 5, октябрь 2011 г., страницы 622–626.
- ^ Самудрала, Р; Моулт, Дж (1998). «Дискриминационная функция условной вероятности для предсказания структуры белка, зависящая от расстояния всех атомов». Журнал молекулярной биологии . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . дои : 10.1006/jmbi.1997.1479 . ПМИД 9480776 .
- ^ Перейти обратно: а б Нельсон, Дэвид Л. и Кокс, Майкл. Ленингерские принципы биохимии, 5-е издание. МВХ Фриман; 15 июня 2008 г. ISBN 1429224169 .
- ^ «Лаборатория Бейкера» . Архивировано из оригинала 13 ноября 2012 г.
- ^ «Статья новостей Розетты» .
- ^ Самудрала, Р; Ся, Ю; Хуанг, ES; Левитт, М. (1999). « Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода». Белки: структура, функции и генетика . С3 (С3): 194–198. doi : 10.1002/(SICI)1097-0134(1999)37:3+<194::AID-PROT24>3.0.CO;2-F . S2CID 1566472 .
- ^ Сюй Д, Чжан Ю (июль 2012 г.). «Сборка структуры белка ab initio с использованием непрерывных фрагментов структуры и оптимизированного силового поля, основанного на знаниях» . Белки . 80 (7): 1715–35. дои : 10.1002/прот.24065 . ПМК 3370074 . ПМИД 22411565 .
- ^ Сюй Д., Чжан Дж., Рой А., Чжан Ю. (август 2011 г.). «Автоматическое моделирование структуры белка в CASP9 с помощью конвейера I-TASSER в сочетании с ab initio сворачиванием на основе QUARK и уточнением структуры на основе FG-MD» . Белки . 79 (Приложение 10): 147–60. дои : 10.1002/прот.23111 . ПМЦ 3228277 . ПМИД 22069036 .
- ^ Гибсон, Грег и Муза, Спенсер В. Учебник по геномной науке, 3-е издание. Синауэр Ассошиэйтс, Инк. 2009. ISBN 978-0-87893-236-8 .
- ^ Цянь и др. Предсказание структуры высокого разрешения и проблема кристаллографической фазы. (2007). Природа. Том 450.
- ^ Джаячандран, Гуха и др. (2006). Использование массово-параллельного моделирования и марковских моделей для изучения сворачивания белка: изучение динамики головного убора злодея. Опубликовано в Интернете.
- ^ Кмичик, Себастьян; Гронт, Доминик; Колински, Михал; Витеска, Лукаш; Давид, Александра Эльжбета; Колинский, Анджей (22 июня 2016 г.). «Крупнозернистые белковые модели и их применение» . Химические обзоры . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ISSN 0009-2665 . ПМИД 27333362 .
- ^ Шмитц, Джонатан Ф; Борнберг-Бауэр, Эрих (19 января 2017 г.). «Факт или вымысел: обновленная информация о том, как гены, кодирующие белки, могут возникнуть de novo из ранее некодирующей ДНК» . F1000Исследования . 6 : 57. doi : 10.12688/f1000research.10079.1 . ISSN 2046-1402 . ПМК 5247788 . ПМИД 28163910 .
- ^ Миддендорф, Лассе; Эйхольт, Ларс А. (июнь 2024 г.). «Случайные, de novo и консервативные белки: как предсказатели структуры и нарушений работают по-разному» . Белки: структура, функции и биоинформатика . 92 (6): 757–767. дои : 10.1002/прот.26652 . ISSN 0887-3585 . ПМИД 38226524 .
- ^ Линь, Земинг; Акин, Халил; Рао, Рошан; Привет, Брайан; Чжу, Чжункай; Лу, Вентинг; дос Сантос Коста, Аллан; Фазель-Заранди, Марьям; Серку, Том; Кандидо, Сал; Ривс, Александр (21 июля 2022 г.). «Языковые модели белковых последовательностей в масштабе эволюции позволяют точно предсказать структуру» (PDF) . биоRxiv . дои : 10.1101/2022.07.20.500902 .
- ^ CA Fludas et al. Достижения в предсказании структуры белков и дизайне белков de novo: обзор. Химическая инженерия 61 (2006) 966–988.
Внешние ссылки
[ редактировать ]- КАСП
- Folding@Home. Архивировано 8 сентября 2012 г. в Wayback Machine.
- проект HPF
- Foldit. Архивировано 4 апреля 2011 г. в Wayback Machine.
- УниПротКБ
- Банк данных белков (PDB)
- Экспертная система анализа белков — ссылки на инструменты прогнозирования белков