Jump to content

Матрица замены

В биоинформатике и эволюционной биологии матрица замен описывает частоту, с которой признак в нуклеотидной последовательности или белковой последовательности меняется на другие состояния признака в течение эволюционного времени. Информация часто представлена ​​в виде логарифмических шансов нахождения двух конкретных состояний символов совмещенными и зависит от предполагаемого количества эволюционных изменений или несходства последовательностей между сравниваемыми последовательностями. Это применение стохастической матрицы . Матрицы замен обычно рассматриваются в контексте аминокислот или ДНК выравнивания последовательностей , где они используются для расчета показателей сходства между выровненными последовательностями. [1]

В процессе эволюции , от одного поколения к другому, аминокислотные последовательности белков организма постепенно изменяются под действием мутаций ДНК. Например, последовательность

ALEIRYLRD

может мутировать в последовательность

ALEINYLRD

за один шаг и, возможно,

AQEINYQRD

в течение более длительного периода эволюционного времени. Каждая аминокислота с большей или меньшей вероятностью мутирует в различные другие аминокислоты. Например, гидрофильный остаток, такой как аргинин, с большей вероятностью будет заменен другим гидрофильным остатком, таким как глутамин , чем мутировать в гидрофобный остаток, такой как лейцин . (Здесь остаток относится к аминокислоте, лишенной водородной и/или гидроксильной группы и вставленной в полимерную цепь белка.) Это происходит в первую очередь из-за избыточности генетического кода , который переводит схожие кодоны в сходные аминокислоты. . Более того, мутация аминокислоты в остаток со значительно отличающимися свойствами может повлиять на сворачивание и/или активность белка. Этот тип разрушительной замены, вероятно, будет удален из популяции под действием очищающего отбора, поскольку такая замена с большей вероятностью приведет к нефункциональности белка. [2]

Если перед нами две аминокислотные последовательности, мы сможем что-то сказать о том, насколько вероятно, что они произошли от общего предка или гомологичны . Если мы сможем выстроить две последовательности, используя алгоритм выравнивания последовательностей , так, чтобы мутации, необходимые для преобразования гипотетической предковой последовательности в обе текущие последовательности, были бы эволюционно правдоподобными, тогда мы хотели бы присвоить высокий балл сравнению последовательности.

Для этого построим матрицу 20x20, в которой -я запись равна вероятности аминокислота превращается в аминокислота за определенный период эволюционного времени. Существует множество различных способов построения такой матрицы, называемой матрицей замены . Вот наиболее часто используемые из них:

Матрица идентичности

[ редактировать ]

Простейшей возможной матрицей замен будет та, в которой каждая аминокислота считается максимально похожей на себя, но не способной трансформироваться в какую-либо другую аминокислоту. Эта матрица будет выглядеть так

Эта идентичная матрица будет успешно выравнивать очень похожие аминокислотные последовательности, но будет неудачной при выравнивании двух отдаленно родственных последовательностей. Нам нужно вычислить все вероятности более строгим образом. Оказывается, лучше всего работает эмпирическое исследование ранее выровненных последовательностей.

Матрицы логарифмических шансов

[ редактировать ]

Мы выражаем вероятности трансформации в так называемых логарифмических показателях шансов . Матрица оценок S определяется как

где вероятность того, что аминокислота превращается в аминокислоту , и , — частоты аминокислот i и j . Основание логарифма не имеет значения, и одна и та же матрица подстановки часто выражается в разных основаниях.

Примеры матриц

[ редактировать ]

Одна из первых матриц аминокислотных замен, матрица PAM ( точечная принятая мутация ), была разработана Маргарет Дэйхофф в 1970-х годах. Эта матрица рассчитывается путем наблюдения за различиями в близкородственных белках. Поскольку при использовании очень близкородственных гомологов не ожидается, что наблюдаемые мутации существенно изменят общие функции белков. Таким образом, наблюдаемые замены (путем точковых мутаций) считаются принятыми естественным отбором.

Одна единица PAM определяется как 1% измененных аминокислотных позиций. Для создания матрицы замещения PAM1 выбирается группа очень близкородственных последовательностей с частотами мутаций, соответствующими одной единице PAM. На основе собранных данных о мутациях из этой группы последовательностей можно получить матрицу замен. Эта матрица PAM1 оценивает, какую скорость замены можно было бы ожидать, если бы изменился 1% аминокислот.

Матрица PAM1 используется в качестве основы для расчета других матриц, исходя из предположения, что повторяющиеся мутации будут следовать той же схеме, что и мутации в матрице PAM1, и в одном и том же сайте могут происходить множественные замены. При таком предположении матрицу PAM2 можно оценить путем возведения в квадрат вероятностей. Используя эту логику, Дайхофф получил матрицы вплоть до PAM250. Обычно PAM 30 используются и PAM70.

ВЗОРВАТЬ

[ редактировать ]

Методика Дайхоффа сравнения близкородственных видов оказалась не очень эффективной для выравнивания эволюционно расходящихся последовательностей. Последовательные изменения в длительных эволюционных временных масштабах плохо аппроксимируются небольшими изменениями, происходящими в коротких временных масштабах. Серия BLOSUM (BLock SUbstitution Matrix) матриц решает эту проблему. Хеникофф и Хеникофф построили эти матрицы, используя множественные выравнивания эволюционно расходящихся белков. Вероятности, используемые при расчете матрицы, вычисляются путем рассмотрения «блоков» консервативных последовательностей, обнаруженных в нескольких выравниваниях белков. Предполагается, что эти консервативные последовательности имеют функциональное значение в родственных белках и, следовательно, будут иметь более низкие скорости замен, чем менее консервативные области. Чтобы уменьшить систематическую ошибку со стороны близкородственных последовательностей в отношении скорости замены, сегменты в блоке с идентичностью последовательностей выше определенного порога были кластеризованы, что уменьшило вес каждого такого кластера (Хеникофф и Хеникофф). Для матрицы BLOSUM62 этот порог был установлен на уровне 62%. Затем частоты пар подсчитывались между кластерами, следовательно, пары подсчитывались только между сегментами, идентичность которых менее 62%. Можно было бы использовать матрицу BLOSUM с более высоким номером для выравнивания двух тесно связанных последовательностей и с меньшим номером для более расходящихся последовательностей.

Оказывается, матрица BLOSUM62 отлично справляется с обнаружением сходства в отдаленных последовательностях, и именно эта матрица используется по умолчанию в самых последних приложениях выравнивания, таких как BLAST .

Различия между PAM и BLOSUM

[ редактировать ]
  1. Матрицы PAM основаны на явной эволюционной модели (т.е. замены подсчитываются на ветвях филогенетического дерева: максимальная паризмония), тогда как матрицы BLOSUM основаны на неявной модели эволюции.
  2. Матрицы PAM основаны на мутациях, наблюдаемых во время глобального выравнивания, включая как высококонсервативные, так и высокомутабельные области. Матрицы BLOSUM основаны только на высококонсервативных регионах в сериях выравниваний, которым запрещено содержать пробелы.
  3. Метод, используемый для подсчета замен, отличается: в отличие от матрицы PAM, процедура BLOSUM использует группы последовательностей, внутри которых не все мутации учитываются одинаково.
  4. Более высокие числа в схеме наименования матрицы PAM обозначают большее эволюционное расстояние, тогда как большие числа в схеме наименования матрицы BLOSUM обозначают более высокое сходство последовательностей и, следовательно, меньшее эволюционное расстояние. Пример: PAM150 используется для более отдаленных последовательностей, чем PAM100; BLOSUM62 используется для более близких последовательностей, чем BLOSUM50.

Новые матрицы

[ редактировать ]

Был предложен ряд новых матриц замены для устранения недостатков более ранних разработок.

  • JTT, опубликованный в том же году, что и BLOSOM, также выполняет кластеризацию и использует неявную модель. Это может помочь уменьшить систематическую ошибку от максимальной четности (MP), но также приведет к потере информации о последовательности. [3]
  • WAG (Wheelan And Goldman), опубликованная в 2001 году, использует процедуру оценки максимального правдоподобия вместо любой формы MP. Оценки замены рассчитываются на основе вероятности изменения с учетом нескольких топологий дерева, полученных с использованием соединения соседей . Оценки соответствуют модели замещения , которая включает также стационарные частоты аминокислот и коэффициент масштабирования при оценке сходства. Существует две версии матрицы: матрица WAG, основанная на предположении об одинаковых стационарных частотах аминокислот для всех сравниваемых белков, и матрица WAG* с разными частотами для каждого из включенных семейств белков . [3]

Специализированные матрицы замены и их расширения.

[ редактировать ]

Реальная скорость замен в белке зависит не только от идентичности аминокислоты, но и от конкретного структурного контекста или последовательности, в котором она находится. Для этих контекстов было разработано множество специализированных матриц, например, в трансмембранных альфа-спиралях, [4] для комбинаций состояний вторичной структуры и состояний доступности растворителя, [5] [6] [7] или для контекстов локальной структуры последовательности. [8] Эти матрицы подстановки, зависящие от контекста, обычно приводят к улучшению качества выравнивания за счет некоторой потери скорости, но еще не получили широкого распространения.

Недавно были получены сходства аминокислот, специфичные для контекста последовательности, которые не требуют матриц замен, а вместо этого полагаются на библиотеку контекстов последовательностей. контекстно-зависимое расширение популярной программы BLAST Используя эту идею, было продемонстрировано, что обеспечивает двукратное улучшение чувствительности для удаленно связанных последовательностей по сравнению с BLAST на аналогичных скоростях ( CS-BLAST ).

Терминология

[ редактировать ]

Хотя « матрица перехода » часто используется как синоним «матрицы замещения» в других областях, помимо биоинформатики, первый термин проблематичен в биоинформатике. Что касается нуклеотидных замен, « переход » также используется для обозначения тех замен, которые находятся между двухкольцевыми пуринами (A → G и G → A) или между однокольцевыми пиримидинами (C → T и T → C). . Поскольку эти замены не требуют изменения количества колец, они происходят чаще, чем другие замены. « Трансверсия » — это термин, используемый для обозначения более медленных замен, которые превращают пурин в пиримидин или наоборот (A ↔ C, A ↔ T, G ↔ C и G ↔ T).

См. также

[ редактировать ]
  1. ^ Звелебил, Маркета Дж. (2008). Понимание биоинформатики . Нью-Йорк: Garland Science. стр. 117–127, 747. ISBN.  978-0-8153-4024-9 .
  2. ^ Сюн, Джин (2006). Основная биоинформатика . Кембридж: Издательство Кембриджского университета. дои : 10.1017/cbo9780511806087.004 . ISBN  978-0-511-80608-7 .
  3. ^ Jump up to: Перейти обратно: а б Уилан, Саймон; Голдман, Ник (1 мая 2001 г.). «Общая эмпирическая модель эволюции белка, полученная на основе нескольких семейств белков с использованием подхода максимального правдоподобия» . Молекулярная биология и эволюция . 18 (5): 691–699. doi : 10.1093/oxfordjournals.molbev.a003851 . ISSN   0737-4038 . ПМИД   11319253 .
  4. ^ Мюллер, Т; Рахманн, С; Ремсмайер, М. (2001). «Несимметричные матрицы оценок и обнаружение гомологичных трансмембранных белков» . Биоинформатика . 17 (Приложение 1): S182–9. doi : 10.1093/биоинформатика/17.suppl_1.s182 . ПМИД   11473008 .
  5. ^ Райс, Д.В.; Айзенберг, Д. (1997). «Матрица замен 3D-1D для распознавания складки белка, которая включает предсказанную вторичную структуру последовательности». Журнал молекулярной биологии . 267 (4): 1026–38. CiteSeerX   10.1.1.44.1143 . дои : 10.1006/jmbi.1997.0924 . ПМИД   9135128 .
  6. ^ Гонг, Сунгсам; Бланделл, Том Л. (2008). Левитт, Майкл (ред.). «Отказ от функциональных остатков из таблицы замен улучшает прогнозирование активных центров в трехмерных структурах» . PLOS Вычислительная биология . 4 (10): e1000179. Бибкод : 2008PLSCB...4E0179G . дои : 10.1371/journal.pcbi.1000179 . ПМЦ   2527532 . ПМИД   18833291 .
  7. ^ Гунесекере, Северная Каролина; Ли, Б. (2008). «Матрицы контекстно-специфичных аминокислотных замен и их использование для обнаружения гомологов белков». Белки . 71 (2): 910–9. дои : 10.1002/прот.21775 . ПМИД   18004781 . S2CID   27443393 .
  8. ^ Хуанг, Ю.М.; Быстрофф, К. (2006). «Улучшенное парное выравнивание белков в Сумеречной зоне с использованием предсказаний локальной структуры» . Биоинформатика . 22 (4): 413–22. doi : 10.1093/биоинформатика/bti828 . ПМИД   16352653 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ed5720cbf831974c8162b32aad60cb41__1703155620
URL1:https://arc.ask3.ru/arc/aa/ed/41/ed5720cbf831974c8162b32aad60cb41.html
Заголовок, (Title) документа по адресу, URL1:
Substitution matrix - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)