Нить (последовательность белков)
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2016 г. ) |
В молекулярной биологии белковая нить , также известная как распознавание складки , представляет собой метод моделирования белков , который используется для моделирования тех белков , которые имеют ту же складку , что и белки известных структур , но не имеют гомологичных белков с известной структурой. Он отличается от метода прогнозирования структуры с помощью моделирования гомологии , поскольку он (протеиновая нить) используется для белков, гомологичные белковые структуры которых не хранятся в Банке данных белков (PDB), тогда как моделирование гомологии используется для тех белков, у которых они есть. Threading работает с использованием статистических знаний о взаимосвязи между структурами, хранящимися в PDB, и последовательностью белка, который необходимо смоделировать.
Прогноз делается путем «нарезки» (т.е. размещения, выравнивания) каждой аминокислоты в целевой последовательности в положение в структуре матрицы и оценки того, насколько хорошо мишень соответствует матрице. После выбора наиболее подходящего шаблона структурная модель последовательности строится на основе соответствия выбранному шаблону. Заплетение белков основано на двух основных наблюдениях: количество различных складок в природе довольно мало (около 1300); и что 90% новых структур, представленных в PDB за последние три года, имеют структурные складки, аналогичные тем, которые уже находятся в PDB.
Классификация структуры белка
[ редактировать ]База данных Структурной классификации белков (SCOP) предоставляет подробное и всестороннее описание структурных и эволюционных связей известной структуры. Белки классифицируются с учетом как структурного, так и эволюционного родства. В иерархии существует множество уровней, но основными уровнями являются семья , суперсемейство и складчатость:
- Семья (четкая эволюционная связь). Белки, сгруппированные в семьи, явно эволюционно связаны. Обычно это означает, что идентичность парных остатков между белками составляет 30% и более. Однако в некоторых случаях сходные функции и структуры предоставляют убедительные доказательства общего происхождения при отсутствии высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя идентичность последовательностей некоторых членов составляет всего 15%.
- Суперсемейство (вероятное общее эволюционное происхождение): белки, которые имеют низкую идентичность последовательностей, но структурные и функциональные особенности которых предполагают, что общее эволюционное происхождение вероятно, объединяются в суперсемейства. Например, актин , АТФазный домен белка теплового шока и гексокиназа вместе образуют суперсемейство.
- Складка (основное структурное сходство). Белки определяются как имеющие общую складку, если они имеют одинаковые основные вторичные структуры в одинаковом расположении и с одинаковыми топологическими связями. Разные белки с одной и той же укладкой часто имеют периферические элементы вторичной структуры и участки поворотов, различающиеся по размеру и конформации. В некоторых случаях эти различные периферийные области могут составлять половину структуры. Белки, помещенные в одну и ту же категорию складок, могут не иметь общего эволюционного происхождения: структурные сходства могут возникать только из-за физики и химии белков, предпочитающих определенные механизмы упаковки и топологии цепей.
Метод
[ редактировать ]Общая парадигма создания белковых нитей состоит из следующих четырех этапов:
- Создание базы данных шаблонов структур: выберите структуры белков из баз данных структур белков в качестве структурных шаблонов. Обычно это включает в себя выбор белковых структур из таких баз данных, как PDB , FSSP , SCOP или CATH , после удаления белковых структур с высоким сходством последовательностей.
- Разработка оценочной функции: Разработайте хорошую оценочную функцию для измерения соответствия между целевыми последовательностями и шаблонами на основе знания известных взаимосвязей между структурами и последовательностями. Хорошая оценочная функция должна содержать потенциал мутации, потенциал приспособленности к среде, парный потенциал, совместимость вторичных структур и штрафы за пробелы. Качество энергетической функции тесно связано с точностью прогноза, особенно с точностью выравнивания.
- Выравнивание потоков: согласуйте целевую последовательность с каждым из шаблонов структуры путем оптимизации разработанной функции оценки. Этот шаг является одной из основных задач всех программ прогнозирования структуры на основе потоков, которые учитывают парный контактный потенциал; в противном случае это может выполнить алгоритм динамического программирования.
- Прогнозирование резьбы: выберите выравнивание резьбы, которое статистически наиболее вероятно в качестве прогноза резьбы. Затем создайте структурную модель мишени, разместив атомы основной цепи целевой последовательности в выровненных положениях основной цепи выбранного структурного шаблона.
Сравнение с моделированием гомологии
[ редактировать ]Моделирование гомологии и нарезка белков являются методами, основанными на шаблонах, и между ними нет строгой границы с точки зрения методов прогнозирования. Но белковые структуры их мишеней различны. Моделирование гомологии предназначено для тех мишеней, которые имеют гомологичные белки с известной структурой (обычно/возможно, одного и того же семейства), тогда как формирование нитей белка предназначено для тех мишеней, у которых обнаружена только гомология на уровне складки. Другими словами, моделирование гомологии предназначено для «более простых» целей, а соединение белков — для «более сложных» целей.
При моделировании гомологии матрица при выравнивании рассматривается как последовательность, и для прогнозирования используется только гомология последовательности. При построении белковых нитей шаблон при выравнивании рассматривается как структура, и для прогнозирования используется информация как о последовательности, так и о структуре, извлеченная из выравнивания. Когда не обнаружено значительной гомологии, разделение белков может сделать прогноз на основе информации о структуре. Это также объясняет, почему во многих случаях объединение белков в нити может оказаться более эффективным, чем моделирование гомологии.
На практике, когда идентичность последовательностей при выравнивании последовательностей низкая (т.е. <25%), моделирование гомологии может не дать достоверного прогноза. В этом случае, если для мишени обнаружена отдаленная гомология, соединение белков может дать хороший прогноз.
Подробнее о резьбе
[ редактировать ]Методы распознавания складок можно в общих чертах разделить на два типа: те, которые создают одномерный профиль для каждой структуры в библиотеке складок и выравнивают целевую последовательность с этими профилями; и те, которые рассматривают полную трехмерную структуру белковой матрицы. Простым примером представления профиля было бы взять каждую аминокислоту в структуре и просто пометить ее в зависимости от того, скрыта ли она в ядре белка или открыта на поверхности. Более сложные профили могут учитывать локальную вторичную структуру (например, является ли аминокислота частью альфа-спирали ) или даже эволюционную информацию (насколько консервативна аминокислота). В трехмерном представлении структура моделируется как набор межатомных расстояний, т.е. расстояния рассчитываются между некоторыми или всеми парами атомов в структуре. Это гораздо более богатое и гибкое описание структуры, но его гораздо сложнее использовать при расчете выравнивания. Подход к распознаванию складок на основе профиля был впервые описан Боуи, Люти и Дэвид Айзенберг в 1991 году. [1] Термин «потоки» впервые был придуман Дэвидом Джонсом , Уильямом Р. Тейлором и Джанет Торнтон в 1992 году. [2] и первоначально относилось конкретно к использованию полного атомного представления трехмерной структуры белковой матрицы при распознавании складок. Сегодня термины «нарезание нитей» и «распознавание складок» часто (хотя и несколько неправильно) используются как синонимы.
Методы распознавания складок широко используются и эффективны, поскольку считается, что в природе существует строго ограниченное количество различных складок белка, главным образом в результате эволюции, но также из-за ограничений, налагаемых основами физики и химии полипептидных цепей. Таким образом, существует высокая вероятность (в настоящее время 70-80%) того, что белок, имеющий структуру, аналогичную целевому белку, уже был изучен с помощью рентгеновской кристаллографии или спектроскопии ядерного магнитного резонанса (ЯМР) и может быть обнаружен в ПДБ. В настоящее время известно около 1300 различных белковых складок, но каждый год по-прежнему обнаруживаются новые складки, в значительной степени благодаря продолжающимся проектам структурной геномики .
Было предложено множество различных алгоритмов для поиска правильной вставки последовательности в структуру, хотя многие из них в той или иной форме используют динамическое программирование . Для полной трехмерной резьбы проблема определения наилучшего выравнивания очень сложна ( это NP-трудная задача). для некоторых моделей резьбы [ нужна ссылка ] Исследователи использовали множество методов комбинаторной оптимизации, таких как условные случайные поля , имитация отжига , ветвящееся и связанное и линейное программирование , в поисках эвристических решений. Интересно сравнить методы потоков с методами, которые пытаются выровнять две белковые структуры ( структурное выравнивание белка ), и действительно, многие из одних и тех же алгоритмов применялись к обеим задачам.
Программное обеспечение для нарезки белков
[ редактировать ]- HHpred — популярный потоковый сервер, на котором работает HHsearch , широко используемое программное обеспечение для удаленного обнаружения гомологии на основе парного сравнения скрытых марковских моделей .
- RAPTOR (программное обеспечение) — это программное обеспечение для обработки белковых потоков, основанное на целочисленном программировании. Она была заменена новой программой распараллеливания белков RaptorX / программным обеспечением для моделирования и анализа белков , которая использует вероятностные графические модели и статистические выводы как для распараллеливания белков на основе одного шаблона, так и для нескольких шаблонов. [3] [4] [5] [6] RaptorX значительно превосходит RAPTOR и особенно хорош в выравнивании белков с разреженным профилем последовательностей. Сервер RaptorX доступен бесплатно.
- Phyre — популярный потоковый сервер, сочетающий в себе HHsearch , ab initio и многошаблонное моделирование.
- MUSTER — это стандартный алгоритм обработки потоков, основанный на динамическом программировании и выравнивании профиля последовательности. Он также объединяет несколько структурных ресурсов для содействия выравниванию профиля последовательности. [7]
- SPARKS X — это вероятностное сопоставление последовательностей со структурами между предсказанными одномерными структурными свойствами запроса и соответствующими собственными свойствами шаблонов. [8]
- BioShell — это алгоритм потоковой обработки, использующий оптимизированный алгоритм динамического программирования между профилями в сочетании с прогнозируемой вторичной структурой. [9]
См. также
[ редактировать ]- Гомологическое моделирование
- Прогнозирование структуры белка
- Программное обеспечение для прогнозирования структуры белка
Ссылки
[ редактировать ]- ^ Боуи Дж. Ю., Люти Р., Айзенберг Д. (1991). «Метод идентификации белковых последовательностей, которые складываются в известную трехмерную структуру». Наука . 253 (5016): 164–170. Бибкод : 1991Sci...253..164B . дои : 10.1126/science.1853201 . ПМИД 1853201 .
- ^ Джонс Д.Т., Тейлор В.Р., Торнтон Дж.М. (1992). «Новый подход к распознаванию складки белка». Природа . 358 (6381): 86–89. Бибкод : 1992Natur.358...86J . дои : 10.1038/358086a0 . ПМИД 1614539 . S2CID 4266346 .
- ^ Пэн, Цзянь; Цзиньбо Сюй (2011). «RaptorX: использование структурной информации для выравнивания белков путем статистического вывода» . Белки . 79 Приложение 10 (Приложение 10): 161–171. дои : 10.1002/прот.23175 . ПМК 3226909 . ПМИД 21987485 .
- ^ Пэн, Цзянь; Цзиньбо Сюй (2010). «Низкогомологичная белковая нить» . Биоинформатика . 26 (12): i294–i300. doi : 10.1093/биоинформатика/btq192 . ПМЦ 2881377 . ПМИД 20529920 .
- ^ Пэн, Цзянь; Цзиньбо Сюй (апрель 2011 г.). «Многошаблонный подход к нарезке белков» . Белки . 79 (6): 1930–1939. дои : 10.1002/prot.23016 . ПМК 3092796 . ПМИД 21465564 .
- ^ Ма, Цзянжу; Шэн Ван; Цзиньбо Сюй (июнь 2012 г.). «Модель условных нейронных полей для объединения белков» . Биоинформатика . 28 (12): i59–66. doi : 10.1093/биоинформатика/bts213 . ПМЦ 3371845 . ПМИД 22689779 .
- ^ Ву С, Чжан Ю (2008). «MUSTER: Улучшение выравнивания профиля последовательности белка с помощью использования нескольких источников структурной информации» . Белки . 72 (2): 547–56. дои : 10.1002/прот.21945 . ПМК 2666101 . ПМИД 18247410 .
- ^ Ян Ю, Фарагги Э, Чжао Х, Чжоу Ю (2011). «Улучшение распознавания складки белка и моделирования на основе шаблонов за счет использования вероятностного сопоставления между предсказанными одномерными структурными свойствами запроса и соответствующими нативными свойствами шаблонов» . Биоинформатика . 27 (15): 2076–2082. doi : 10.1093/биоинформатика/btr350 . ПМК 3137224 . ПМИД 21666270 .
- ^ Гронт Д., Блащик М., Войцеховский П., Колински А. (2012). «BioShell Threader: обнаружение гомологии белков на основе профилей последовательностей и профилей вторичной структуры» . Исследования нуклеиновых кислот . 40 (П1): W257–W262. дои : 10.1093/нар/gks555 . ПМК 3394251 . ПМИД 22693216 .
Дальнейшее чтение
[ редактировать ]- Финкельштейн, А.В.; Рева, бакалавр наук (июнь 1991 г.). «Поиск наиболее стабильных складок белковых цепей». Природа . 351 (6326): 497–9. Бибкод : 1991Natur.351..497F . дои : 10.1038/351497a0 . ПМИД 2046752 . S2CID 4319142 .
- Латроп Р.Х. (1994). «Проблема объединения белков с предпочтениями взаимодействия аминокислотных последовательностей является NP-полной». Белок англ . 7 (9): 1059–1068. CiteSeerX 10.1.1.367.9081 . дои : 10.1093/белок/7.9.1059 . ПМИД 7831276 .
- Джонс Д.Т., Хэдли С. (2000). «Потоковые методы предсказания структуры белка». В Хиггинс Д., Тейлор В.Р. (ред.). Биоинформатика: последовательность, структура и банки данных . Гейдельберг: Springer-Verlag. стр. 1–13.
- Сюй Дж, Ли М, Ким Д, Сюй Ю (2003). «RAPTOR: Оптимальное прохождение белков с помощью линейного программирования, первый выпуск». Журнал Биоинформ Компьютерная Биол . 1 (1): 95–117. CiteSeerX 10.1.1.5.4844 . дои : 10.1142/S0219720003000186 . ПМИД 15290783 .
- Сюй Дж, Ли М, Линь Г, Ким Д, Сюй Ю (2003). «Профилирование белков с помощью линейного программирования». Pac Symp Biocomput : 264–275. ПМИД 12603034 .