ВЗОРВАТЬ
В биоинформатике матрица BLOSUM ( BLO cks SU bstitution Matrix ) представляет собой матрицу замещения, для выравнивания последовательностей белков используемую . Матрицы BLOSUM используются для оценки совпадений между эволюционно расходящимися белковыми последовательностями. Они основаны на местных сопоставлениях. Матрицы BLOSUM были впервые представлены в статье Стивена Хеникоффа и Джорджи Хеникоффа. [1] Они просканировали базу данных BLOCKS на наличие очень консервативных участков семейств белков (которые не имеют пробелов в выравнивании последовательностей), а затем подсчитали относительные частоты аминокислот и вероятности их замены. Затем они рассчитали логарифмический коэффициент шансов для каждой из 210 возможных пар замен 20 стандартных аминокислот. Все матрицы BLOSUM основаны на наблюдаемых совпадениях; они не экстраполируются на основе сравнений близкородственных белков, таких как матрицы PAM .
Биологическая основа
[ редактировать ]Генетические инструкции каждой реплицирующейся клетки живого организма содержатся в ее ДНК. [2] На протяжении всей жизни клетки эта информация транскрибируется и воспроизводится клеточными механизмами для производства белков или предоставления инструкций дочерним клеткам во время клеточного деления , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [2] [3] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые корректируют большинство (но не все) этих изменений в ДНК до того, как она будет реплицирована. [3] [4]
Функциональность белка во многом зависит от его структуры. [5] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, а мутация может даже изменить функцию, которую выполняет белок. [3] Подобные изменения могут серьезно повлиять на важнейшую функцию клетки, потенциально вызывая гибель клетки, а в крайних случаях и всего организма. [6] И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приведет к каким-либо значительным физическим недостаткам для потомства, существует вероятность того, что эта мутация сохранится в популяции. Также существует вероятность того, что изменение функции станет выгодным.
20 аминокислот, транслируемые генетическим кодом, сильно различаются в зависимости от физических и химических свойств их боковых цепей. [5] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [5] Замена аминокислоты другой из той же категории с большей вероятностью окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории.
Выравнивание последовательностей — фундаментальный метод исследования в современной биологии. Наиболее распространенный метод выравнивания последовательностей белка — поиск сходства между различными последовательностями с целью сделать вывод о функции или установить эволюционные связи. Это помогает исследователям лучше понять происхождение и функцию генов через природу гомологии и консервации . Матрицы замен используются в алгоритмах для расчета сходства различных последовательностей белков; однако полезность Dayhoff PAM Matrix со временем снизилась из-за требования к последовательностям со сходством более 85%. Чтобы восполнить этот пробел, Хеникофф и Хеникофф представили матрицу BLOSUM (BLOCks SUbstitution Matrix), которая привела к заметным улучшениям в выравнивании и поиске с использованием запросов из каждой из групп родственных белков. [1]
Терминология
[ редактировать ]- ВЗОРВАТЬ
- Блокирует матрицу замен, матрицу замен, используемую для выравнивания белков последовательностей .
- Показатели оценки (статистические или биологические)
- При оценке выравнивания последовательностей хотелось бы знать, насколько оно значимо. Для этого требуется оценочная матрица или таблица значений, которая описывает вероятность появления биологически значимой пары аминокислот или нуклеотидных остатков при выравнивании. Оценки для каждой позиции представляют собой полученные частоты замен в блоках локальных выравниваний белковых последовательностей. [7]
- БЛОСУМ р
- Матрица, построенная из блоков со сходством менее r%
- Например, BLOSUM62 представляет собой матрицу, построенную с использованием последовательностей со сходством менее 62% (последовательности с идентичностью ≥ 62% были кластеризованы).
- Примечание. BLOSUM 62 является матрицей по умолчанию для белка BLAST. Эксперименты показали, что матрица BLOSUM-62 является одной из лучших для обнаружения наиболее слабых сходств белков. [1]
Существует несколько наборов матриц BLOSUM, использующих разные базы данных выравнивания, названные цифрами. Матрицы BLOSUM с высокими номерами предназначены для сравнения близкородственных последовательностей, а матрицы с низкими номерами — для сравнения отдаленно родственных последовательностей. Например, BLOSUM80 используется для близкородственных выравниваний, а BLOSUM45 — для более отдаленно связанных выравниваний. Матрицы были созданы путем слияния (кластеризации) всех последовательностей, которые были более похожими, чем заданный процент, в одну единственную последовательность, а затем сравнения только этих последовательностей (которые все расходились больше, чем заданное процентное значение); таким образом уменьшая вклад близкородственных последовательностей. Используемый процент был добавлен к названию, что дало, например, BLOSUM80, где были кластеризованы последовательности, идентичные более чем на 80%.
Построение матриц BLOSUM
[ редактировать ]Матрицы BLOSUM получаются путем использования в качестве данных блоков схожих аминокислотных последовательностей с последующим применением к данным статистических методов для получения показателей сходства. Статистические методы. Шаги: [8]
Удаление последовательностей
[ редактировать ]Удалите последовательности, идентичные более чем на r%. Есть два способа устранить последовательности. Это можно сделать либо путем удаления последовательностей из блока, либо просто путем поиска похожих последовательностей и замены их новыми последовательностями, которые могут представлять собой кластер. Элиминация выполняется для удаления белковых последовательностей, сходство которых превышает указанный порог.
Расчет частоты и вероятности
[ редактировать ]База данных, хранящая выравнивания последовательностей наиболее консервативных областей белковых семейств. Эти выравнивания используются для получения матриц BLOSUM. Используются только последовательности, процент идентичности которых ниже порогового значения. С помощью блока подсчитывают пары аминокислот в каждом столбце множественного выравнивания.
Записать соотношение шансов
[ редактировать ]Он дает отношение встречаемости каждой комбинации аминокислот в наблюдаемых данных к ожидаемому значению встречаемости пары. Оно округляется и используется в матрице замещения.
где – вероятность наблюдения пары и — ожидаемая вероятность появления такой пары, учитывая фоновые вероятности каждой аминокислоты.
БЛОСУМ Матрицы
[ редактировать ]Шансы на родство рассчитываются на основе логарифмического отношения нечетности, которое затем округляется, чтобы получить матрицы замены BLOSUM.
Оценка матриц BLOSUM
[ редактировать ]Матрица оценок или таблица значений необходимы для оценки значимости выравнивания последовательностей, например, для описания вероятности появления пары биологически значимых аминокислот или нуклеотидных остатков при выравнивании. Обычно при сравнении двух нуклеотидных последовательностей оценивается только то, являются ли два основания одинаковыми в одном положении. Всем совпадениям и несоответствиям соответственно присваивается одинаковая оценка (обычно +1 или +5 за совпадения и -1 или -4 за несовпадения). [9] Но с белками дело обстоит иначе. Матрицы замен аминокислот более сложны и неявно учитывают все, что может повлиять на частоту замены одной аминокислоты на другую. Цель состоит в том, чтобы обеспечить относительно суровое наказание за выравнивание двух остатков вместе, если они имеют низкую вероятность быть гомологичными (правильно выровненными в результате эволюционного происхождения). Две основные силы приводят к отклонению скорости аминокислотных замен от единообразия: замены происходят с разной частотой и менее функционально переносимы, чем другие. Таким образом, замены отбираются против. [7]
Часто используемые матрицы замены включают замену блоков (BLOSUM). [1] и точечная принятая мутация (PAM) [10] [11] матрицы. Оба основаны на выборе наборов выравниваний с высокой степенью достоверности многих гомологичных белков и оценке частот всех замен, но они вычисляются с использованием разных методов. [7]
Оценки в рамках BLOSUM представляют собой оценки логарифма шансов, которые при выравнивании измеряют логарифм отношения вероятности появления двух аминокислот с биологическим смыслом и вероятности появления тех же аминокислот случайно. Матрицы основаны на минимальном проценте идентичности выровненной белковой последовательности, используемой при их расчете. [12] Каждой возможной идентичности или замене присваивается балл, основанный на наблюдаемых частотах выравнивания родственных белков. [13] Положительная оценка присваивается более вероятным заменам, а отрицательная — менее вероятным.
Для расчета матрицы BLOSUM используется следующее уравнение:
Здесь, это вероятность того, что две аминокислоты и заменяющие друг друга в гомологичной последовательности, и и – фоновые вероятности обнаружения аминокислот и в любой белковой последовательности. Фактор — коэффициент масштабирования, установленный таким образом, чтобы матрица содержала легко вычислимые целочисленные значения.
Пример — BLOSUM62
[ редактировать ]BLOSUM80: больше родственных белков
BLOSUM62: средний диапазон
BLOSUM45: отдаленно родственные белки
Статья в журнале Nature Biotechnology [14] выяснилось, что BLOSUM62, используемый в течение многих лет в качестве стандарта, не совсем точен в соответствии с алгоритмом, описанным Хеникоффом и Хеникофф. [1] Удивительно, но просчитанный BLOSUM62 повышает производительность поиска. [14]
Матрица BLOSUM62 с аминокислотами в таблице, сгруппированными в соответствии с химическим составом боковой цепи, как показано в (а). Каждое значение в матрице рассчитывается путем деления частоты появления пары аминокислот в базе данных BLOCKS, сгруппированной на уровне 62%, на вероятность того, что одни и те же две аминокислоты могут случайно совпасть. Затем соотношение преобразуется в логарифм и выражается в виде логарифмического коэффициента, как и для PAM. Матрицы BLOSUM обычно масштабируются в полубитовых единицах. Нулевой балл указывает на то, что частота, с которой данные две аминокислоты обнаруживались совпадающими в базе данных, была ожидаемой случайно, в то время как положительный балл указывает на то, что совпадение обнаруживалось чаще, чем случайно, а отрицательный балл указывает на то, что выравнивание находили реже, чем случайно.
Некоторые применения в биоинформатике
[ редактировать ]Исследовательские приложения
[ редактировать ]Оценка BLOSUM использовалась для прогнозирования и понимания вариантов поверхностных генов среди носителей вируса гепатита В. [15] и Т-клеточные эпитопы. [16]
Варианты поверхностных генов у носителей вируса гепатита В
[ редактировать ]Последовательности ДНК HBsAg были получены от 180 пациентов, из которых 51 был хроническим носителем HBV и 129 пациентов с впервые диагностированным вирусом, и сравнивались с консенсусными последовательностями, построенными на основе 168 последовательностей HBV, импортированных из GenBank. Обзор литературы и оценки BLOSUM использовались для определения потенциально измененной антигенности. [15]
Надежное предсказание эпитопов Т-клеток
[ редактировать ]Было разработано новое входное представление, состоящее из комбинации разреженного кодирования, кодирования Блосума и входных данных, полученных из скрытых марковских моделей. этот метод прогнозирует Т-клеточные эпитопы генома вируса гепатита С и обсуждает возможные применения метода прогнозирования для управления процессом разработки рациональной вакцины. [16]
Использование в BLAST
[ редактировать ]Матрицы BLOSUM также используются в качестве оценочной матрицы при сравнении последовательностей ДНК или последовательностей белков для оценки качества выравнивания. Эта форма системы оценки используется в широком спектре программного обеспечения для выравнивания, включая BLAST . [17]
Сравнение PAM и BLOSUM
[ редактировать ]В дополнение к матрицам BLOSUM можно использовать ранее разработанную оценочную матрицу. Это известно как PAM . Оба метода дают одинаковый результат подсчета очков, но используют разные методологии. BLOSUM рассматривает непосредственно мутации в мотивах родственных последовательностей, в то время как PAM экстраполирует эволюционную информацию на основе близкородственных последовательностей. [1]
Поскольку и PAM, и BLOSUM представляют собой разные методы отображения одной и той же оценочной информации, их можно сравнивать, но из-за совершенно разных методов получения этой оценки PAM100 не равен BLOSUM100. [18]
ПАМ | ВЗОРВАТЬ |
---|---|
ПАМ100 | БЛОСУМ90 |
ПАМ120 | БЛОСУМ80 |
ПАМ160 | БЛОСУМ62 |
ПАМ200 | БЛОСУМ50 |
ПАМ250 | БЛОСУМ45 |
Отношения между PAM и BLOSUM
[ редактировать ]ПАМ | ВЗОРВАТЬ |
---|---|
Для сравнения близкородственных последовательностей создаются матрицы PAM с меньшими номерами. | Для сравнения близкородственных последовательностей создаются матрицы BLOSUM с более высокими номерами. |
Для сравнения отдаленно родственных белков создаются матрицы PAM с большими числами. | Для сравнения отдаленно родственных белков создаются матрицы BLOSUM с небольшими номерами. |
Различия между PAM и BLOSUM
[ редактировать ]ПАМ | ВЗОРВАТЬ |
---|---|
Основано на глобальном выравнивании близкородственных белков. | На основе местных особенностей. |
PAM1 представляет собой матрицу, рассчитанную на основе сравнения последовательностей с расхождением не более 1%, но соответствующим 99% идентичности последовательностей. | BLOSUM 62 представляет собой матрицу, рассчитанную на основе сравнений последовательностей с попарной идентичностью не более 62%. |
Другие матрицы PAM экстраполируются из PAM1. | На основе наблюдаемых совпадений; они не экстраполируются на основе сравнений близкородственных белков. |
Более высокие числа в схеме наименования матриц обозначают большее эволюционное расстояние. | Большие числа в схеме наименования матриц обозначают более высокое сходство последовательностей и, следовательно, меньшее эволюционное расстояние. [19] |
Пакеты программного обеспечения
[ редактировать ]Существует несколько пакетов программного обеспечения на разных языках программирования, которые позволяют легко использовать матрицы Blosum.
Примерами являются модуль blosum для Python или библиотека BioJava для Java .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж Хеникофф, С.; Хеникофф, Дж. Г. (1992). «Матрицы аминокислотных замен из белковых блоков» . ПНАС . 89 (22): 10915–10919. Бибкод : 1992PNAS...8910915H . дои : 10.1073/pnas.89.22.10915 . ПМК 50453 . ПМИД 1438297 .
- ^ Перейти обратно: а б Кэмпбелл Н.А.; Рис Дж.Б.; Мейерс Н; Урри Лос-Анджелес; Каин МЛ; Вассерман С.А.; Минорский П.В.; Джексон РБ (2009). «Молекулярные основы наследственности». Биология: австралийская версия (8-е изд.). Пирсон Образования Австралии. стр. 307–325. ISBN 9781442502215 .
- ^ Перейти обратно: а б с Кэмпбелл Н.А.; Рис Дж.Б.; Мейерс Н; Урри Лос-Анджелес; Каин МЛ; Вассерман С.А.; Минорский П.В.; Джексон РБ (2009). «От гена к белку». Биология: австралийская версия (8-е изд.). Пирсон Образования Австралии. стр. 327–350. ISBN 9781442502215 .
- ^ Пал Дж.К., Гаскадби С.С. (2009). «Повреждение, восстановление и рекомбинация ДНК». Основы молекулярной биологии (1-е изд.). Издательство Оксфордского университета. стр. 187–203 . ISBN 9780195697810 .
- ^ Перейти обратно: а б с Кэмпбелл Н.А.; Рис Дж.Б.; Мейерс Н; Урри Лос-Анджелес; Каин МЛ; Вассерман С.А.; Минорский П.В.; Джексон РБ (2009). «Структура и функции крупных биологических молекул». Биология: австралийская версия (8-е изд.). Пирсон Образования Австралии. стр. 68–89. ISBN 9781442502215 .
- ^ Лобо, Ингрид (2008). «Менделевские соотношения и летальные гены» . Природа . Проверено 19 октября 2013 г.
- ^ Перейти обратно: а б с перцемлидис А.; Фондон JW.3rd (сентябрь 2001 г.). «Получать удовольствие от биоинформатики (и избегать BLASTфемии)» . Геномная биология . 2 (10): обзоры 2002.1–2002.10. doi : 10.1186/gb-2001-2-10-reviews2002 . ПМК 138974 . ПМИД 11597340 .
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ «БЛОССУМ МАТРИЦЫ: Введение в БИОИНФОРМАТИКУ» (PDF) . ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ МАЛАЙЗИИ . 2009 . Проверено 9 сентября 2014 г. [ постоянная мертвая ссылка ]
- ^ Мурали Шиварамакришнан; Огнен Перишич; Шаши Ранджан. «CS#594 — Группа 13 (Инструменты и программное обеспечение)» (PDF) . Университет Иллинойса в Чикаго - UIC Получено 9 сентября.
- ^ Маргарет О., Дайхофф (1978). «22». Атлас последовательности и структуры белка . Том. 5. Вашингтон, округ Колумбия: Национальный фонд биомедицинских исследований. стр. 345–352.
- ^ Штаты диджеев; Гиш В.; Альтшуль СФ. (1991). «Улучшенная чувствительность поиска в базе данных нуклеиновых кислот с использованием оценочных матриц для конкретных приложений». Методы: дополнение к методам энзимологии . 3 : 66–70. CiteSeerX 10.1.1.114.8183 . дои : 10.1016/s1046-2023(05)80165-3 . ISSN 1046-2023 .
- ^ Альберт Ю. Зомайя (2006). Справочник по природным и инновационным вычислениям . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-0-387-40532-2 . страница 673
- ^ НИЗ "Системы оценки"
- ^ Перейти обратно: а б Марк П. Стычински; Кайл Л. Дженсен; Исидор Ригуцос; Грегори Стефанопулос (2008). «Просчеты BLOSUM62 улучшают производительность поиска». Нат. Биотехнология . 26 (3): 274–275. дои : 10.1038/nbt0308-274 . ПМИД 18327232 . S2CID 205266180 .
- ^ Перейти обратно: а б Роке-Афонсу А.М., Ферей, член парламента, Ли Т.Д. (2007). «Вирусные и клинические факторы, связанные с поверхностными вариантами генов среди носителей вируса гепатита В» . Антивирь Тер . 12 (8): 1255–1263. дои : 10.1177/135965350701200801 . ПМИД 18240865 . S2CID 9822759 .
- ^ Перейти обратно: а б Нильсен М., Лундегаард С., Уорнинг П. и др. (2003). «Надежное предсказание эпитопов Т-клеток с использованием нейронных сетей с новыми представлениями последовательностей» (PDF) . Белковая наука . 12 (5): 1007–1017. дои : 10.1110/ps.0239403 . ПМЦ 2323871 . ПМИД 12717023 .
- ^ «Статистика показателей сходства последовательностей» . Национальный центр биотехнологической информации . Проверено 20 октября 2013 г.
- ^ Сауд, Омама (2009). «Матрицы замещения PAM и BLOSUM» . Бирец . Архивировано из оригинала 9 марта 2013 года . Проверено 20 октября 2013 г.
- ^ «Искусство выравнивания белковых последовательностей. Часть 1. Матрицы» . Дай-хок Кантхо – Университет Кантхо . Архивировано из оригинала 11 сентября 2014 года . Проверено 7 сентября 2014 г.
Внешние ссылки
[ редактировать ]- Шон Р. Эдди (2004). «Откуда взялась матрица оценок выравнивания BLOSUM62?». Природная биотехнология . 22 (8): 1035–6. дои : 10.1038/nbt0804-1035 . ПМИД 15286655 . S2CID 205269887 .
- БЛОКИРУЕТ WWW-сервер
- Системы оценки для BLAST в NCBI
- Файлы данных BLOSUM на FTP-сервере NCBI .
- Интерактивная сетевая визуализация BLOSUM. Архивировано 30 января 2017 г. на Wayback Machine.