Мотив последовательности
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В биологии мотив последовательности представляет собой нуклеотидов или аминокислот последовательности образец , который широко распространен и обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что-либо, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что-либо, кроме остатка Pro .
Обзор
[ редактировать ]Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отчетливой вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).
Помимо экзонов гена, существуют регуляторных последовательностей мотивы и мотивы внутри « мусора », такого как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот. [1] (см., например, самосплайсинг РНК ), но это бывает лишь иногда. Например, многие ДНК-связывающие белки, обладающие сродством к определенным сайтам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы при контакте с большой или малой бороздкой двойной спирали.
Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .
Внутри последовательности или базы данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусную последовательность .
Представление мотива
[ редактировать ]В этом разделе есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Рассмотрим упомянутый выше мотив сайта N -гликозилирования:
- Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме Pro
Этот шаблон можно записать как N{P}[ST]{P}
где N
= Асн, P
= Про, S
= Бытие, T
= Тр; {X}
означает любую аминокислоту, кроме X
; и [XY]
означает либо X
или Y
.
Обозначения [XY]
не дает никаких указаний на вероятность X
или Y
происходящее в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда закономерности определяются в терминах вероятностной модели, например скрытой модели Маркова .
Мотивы и консенсусные последовательности
[ редактировать ]Обозначения [XYZ]
означает X
или Y
или Z
, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто связаны с одним мотивом: определяющим узором и различными типичными узорами.
Например, определяющей последовательностью мотива IQ можно считать:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
где x
означает любую аминокислоту, а квадратные скобки указывают альтернативу (более подробную информацию об обозначениях см. ниже).
Однако обычно первая буква I
и оба [RK]
выбор решает R
. Поскольку последний выбор настолько широк, шаблон IQxxxRGxxxR
иногда приравнивается к самому мотиву IQ, но более точным описанием была бы консенсусная последовательность мотива IQ .
Обозначения описания шаблона
[ редактировать ]Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений регулярных выражений и используют следующие соглашения:
- существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
- строка символов, взятая из алфавита, обозначает последовательность соответствующих аминокислот;
- любая строка символов алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например
[abc]
соответствует любой из аминокислот, представленныхa
илиb
илиc
.
Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:
- последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.
Таким образом, образец [AB] [CDE] F
соответствует шести аминокислотным последовательностям, соответствующим ACF
, ADF
, AEF
, BCF
, BDF
, и BEF
.
Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.
PROSITE pattern notation
[ редактировать ]В нотации PROSITE используются ИЮПАК и соответствует приведенному выше описанию, за исключением символа конкатенации: однобуквенные коды -
', используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.
PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:
- Строчная буква '
x
'может использоваться как элемент шаблона для обозначения любой аминокислоты. - Строка символов, взятая из алфавита и заключенная в фигурные скобки, обозначает любую аминокислоту, кроме входящей в строку. Например,
{ST}
обозначает любую аминокислоту, кромеS
илиT
. - Если шаблон ограничен N-концом последовательности, шаблон имеет префикс '
<
'. - Если образец ограничен C-концом последовательности, к образцу добавляется суффикс '
>
'. - Персонаж '
>
' также может встречаться внутри завершающего шаблона квадратных скобок, так чтоS[T>]
соответствует обоим "ST
" и "S>
". - Если
e
является элементом шаблона, иm
иn
два десятичных целых числа сm
<=n
, затем:e(m)
эквивалентно повторениюe
точноm
раз;e(m,n)
эквивалентно повторениюe
точноk
раз для любого целого числаk
удовлетворительно:m
<=k
<=n
.
Некоторые примеры:
x(3)
эквивалентноx-x-x
.x(2,4)
соответствует любой последовательности, которая соответствуетx-x
илиx-x-x
илиx-x-x-x
.
Сигнатура домена цинкового пальца типа C2H2 :
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Матрицы
[ редактировать ]Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Существует два типа весовых матриц.
- Матрица частот положений (PFM) записывает зависящую от положения частоту каждого остатка или нуклеотида. PFM могут быть определены экспериментально в ходе экспериментов SELEX или обнаружены вычислительным путем с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
- Матрица весов позиций (PWM) содержит логарифмические веса шансов для расчета результата совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ рассчитываются на основе ЧИМ. ШИМ также известны как PSSM.
Пример ПФМ из базы данных TRANSFAC для транскрипционного фактора AP-1:
Поз. | А | С | Г | Т | ИЮПАК |
---|---|---|---|---|---|
01 | 6 | 2 | 8 | 1 | Р |
02 | 3 | 5 | 9 | 0 | С |
03 | 0 | 0 | 0 | 17 | Т |
04 | 0 | 0 | 17 | 0 | Г |
05 | 17 | 0 | 0 | 0 | А |
06 | 0 | 16 | 0 | 1 | С |
07 | 3 | 2 | 3 | 9 | Т |
08 | 4 | 7 | 2 | 4 | Н |
09 | 9 | 6 | 1 | 1 | М |
10 | 4 | 3 | 7 | 3 | Н |
11 | 6 | 3 | 1 | 7 | В |
В первом столбце указывается позиция, второй столбец содержит количество вхождений буквы A в этой позиции, третий столбец содержит количество вхождений буквы C в этой позиции, четвертый столбец содержит количество вхождений буквы G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получается путем агрегирования нескольких консенсусных последовательностей.
Открытие мотива
[ редактировать ]Обзор
[ редактировать ]Процесс обнаружения мотивов последовательности хорошо развит с 1990-х годов. В частности, большая часть существующих исследований по обнаружению мотивов сосредоточена на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов усложняются как проблемами вырождения шаблонов последовательностей, так и проблемами масштабируемости вычислений с интенсивным использованием данных.
Процесс открытия
Открытие мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает в себя выбор последовательностей, которые содержат нужный мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Очистка обеспечивает удаление любых мешающих элементов. Далее следует этап открытия. На этом этапе последовательности представляются с использованием согласованных строк или весовых матриц для конкретной позиции (PWM) . После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для выявления мотивов. Наконец, этап постобработки включает в себя оценку обнаруженных мотивов. [2]
Снова открытие мотива
[ редактировать ]Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Вейраух и др . оценила множество связанных алгоритмов в тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.
Открытие филогенетического мотива
[ редактировать ]Мотивы также были обнаружены с помощью филогенетического подхода и изучения сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, определенные геном GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили закономерность, которую они в 1996 году назвали мотивом GCM . [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Здесь каждый .
означает одну аминокислоту или пробел, и каждый *
указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.
Подобный подход обычно используется в современных базах данных белковых доменов , таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации другие родственные белки. [6] Филогенетический подход также может быть использован для улучшения алгоритма MEME de novo , примером которого может служить PhyloGibbs. [7]
Снова открытие пары мотивов
[ редактировать ]В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]
Распознавание мотива de novo из белка
[ редактировать ]В 2018 году марковского случайного поля был предложен подход для вывода мотивов ДНК из ДНК-связывающих доменов белков. [9]
Алгоритмы обнаружения мотивов
Алгоритмы обнаружения мотивов используют различные стратегии для выявления закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и природных подходов демонстрирует их адаптивность, а использование нескольких методов оказывается эффективным в повышении точности идентификации.
Перечислительный подход: [2]
Начиная поиск мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются методы простого перечисления слов, такие как YMF и DREME, которые систематически перебирают последовательность в поисках коротких мотивов. В дополнение к этому методы на основе кластеризации, такие как CisFinder, используют матрицы нуклеотидных замен для кластеризации мотивов, эффективно уменьшая избыточность. Одновременно древовидные методы, такие как Weeder и FMotif, используют древовидные структуры, а методы, основанные на теории графов (например, WINNOWER), используют представления графов, демонстрируя богатство стратегий перечисления.
Вероятностный подход: [2]
Переходя в вероятностную сферу, этот подход использует вероятностные модели для распознавания мотивов внутри последовательностей. MEME, детерминированный образец, использует максимизацию ожидания для оптимизации позиционно-весовых матриц (PWM) и раскрытия консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайным назначением позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная модель умело отражает присущую неопределенность, связанную с обнаружением мотивов.
Расширенный подход: [2]
В дальнейшем, расширенное обнаружение мотивов включает в себя сложные методы с байесовским моделированием. [10] занимая центральное место. LOGOS и BaMM, иллюстрирующие эту группу, сложным образом вплетают байесовские подходы и марковские модели в свою ткань для идентификации мотивов. Включение методов байесовской кластеризации расширяет вероятностную основу, обеспечивая целостную основу для распознавания образов в последовательностях ДНК.
Вдохновленные природой и эвристические алгоритмы: [2]
Выделяется отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (ГА) , представленные FMGA и MDGA, [11] ориентироваться в поиске мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , алгоритмы искусственной пчелиной колонии (ABC) и алгоритмы поиска кукушки (CS) , представленные в GAEM, GARP и MACS, решаются на исследования на основе феромонов. Эти алгоритмы, отражающие приспособляемость природы и динамику сотрудничества, служат авангардными стратегиями идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптируемость этих алгоритмов в сложной области обнаружения мотивов.
Чехлы с мотивами
[ редактировать ]Трехмерные цепные коды
[ редактировать ]E. coli Репрессор лактозного оперона LacI ( PDB : 1lcc цепь A) и E. coli активатор гена катаболита ( PDB : 3gap цепь A) имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не обнаруживают большого сходства. как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Такая схема кодирования гораздо ярче выявляет сходство между белками, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует углы скручивания между альфа-углеродами основной цепи белка . «W» всегда соответствует альфа-спирали.
3D-код цепочки | Аминокислотная последовательность | |
---|---|---|
1lccA | TWWWWWWWKCLKWWWWWWG |
LYDVAEYAGVSYQTVSRVV
|
3gapA | KWWWWWWGKCFKWWWWWWW |
RQEIGQIVGCSRETVGRIL
|
См. также
[ редактировать ]- Биомолекулярная структура
- Поиск мотивов млекопитающих
- МочиView
- Множественная ЭМ для выявления мотивов
- Последовательность нуклеиновой кислоты
- Первичная структура белка
- Белковые I-сайты
- Логотип последовательности
- Последовательный майнинг
- Структурный мотив
- Короткий линейный мотив
- Сохраненная последовательность
- Белковый домен
- Структурный мотив
Ссылки
[ редактировать ]Первоисточники
[ редактировать ]- ^ Длакич, Менсур; Харрингтон, Родни Э. (1996). «Влияние контекста последовательности на кривизну ДНК» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (9): 3847–3852. Бибкод : 1996PNAS...93.3847D . дои : 10.1073/pnas.93.9.3847 . ISSN 0027-8424 . JSTOR 39155 . ПМК 39447 . ПМИД 8632978 .
- ^ Jump up to: а б с д и Хашим, Фатма А.; Мабрук, Май С.; Аль-Атабани, Валид (2019). «Обзор алгоритмов поиска различных мотивов последовательностей» . Журнал Авиценны медицинской биотехнологии . 11 (2): 130–148. ISSN 2008-2835 . ПМК 6490410 . ПМИД 31057715 .
- ^ Бэйли Т.Л., Уильямс Н., Мисле С., Ли В.В. (июль 2006 г.). «ЦМЕМ: обнаружение и анализ мотивов последовательностей ДНК и белков» . Исследования нуклеиновых кислот . 34 (проблема с веб-сервером): W369-73. дои : 10.1093/nar/gkl198 . ПМЦ 1538909 . ПМИД 16845028 .
- ^ Вейраух М.Т., Кот А., Норел Р., Аннала М., Чжао Ю., Райли Т.Р. и др. (февраль 2013 г.). «Оценка методов моделирования специфичности последовательности транскрипционных факторов» . Природная биотехнология . 31 (2): 126–34. дои : 10.1038/nbt.2486 . ПМК 3687085 . ПМИД 23354101 .
- ^ Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «GCM-мотив: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Бибкод : 1996PNAS...9314912A . дои : 10.1073/pnas.93.25.14912 . ПМК 26236 . ПМИД 8962155 .
- ^ «Моделирование в Pfam» . Пфам . Проверено 14 декабря 2023 г.
- ^ Сиддхартхан Р., Сиггия Э.Д., ван Нимвеген Э. (декабрь 2005 г.). «PhyloGibbs: инструмент для поиска мотивов выборки Гиббса, учитывающий филогению» . PLOS Вычислительная биология . 1 (7): е67. Бибкод : 2005PLSCB...1...67S . дои : 10.1371/journal.pcbi.0010067 . ПМК 1309704 . ПМИД 16477324 .
- ^ Вонг КС (октябрь 2017 г.). «MotifHyades: максимизация ожиданий для обнаружения пар мотивов ДНК de novo в парных последовательностях» . Биоинформатика . 33 (19): 3028–3035. doi : 10.1093/биоинформатика/btx381 . ПМИД 28633280 .
- ^ Вонг КС (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК на основе белковых последовательностей» . iScience . 7 : 198–211. Бибкод : 2018iSci....7..198W . дои : 10.1016/j.isci.2018.09.003 . ПМК 6153143 . ПМИД 30267681 .
- ^ Миллер, Эндрю К.; Печать, Кристин Г.; Нильсен, Пол М.Ф.; Крампин, Эдмунд Дж. (18 ноября 2010 г.). «Байесовский поиск транскрипционных мотивов» . ПЛОС ОДИН . 5 (11): e13897. Бибкод : 2010PLoSO...513897M . дои : 10.1371/journal.pone.0013897 . ISSN 1932-6203 . ПМЦ 2987817 . ПМИД 21124986 .
- ^ Че, Дуншэн; Сун, Инлэй; Рашид, Халед (25 июня 2005 г.). «MDGA: обнаружение мотивов с использованием генетического алгоритма» . Материалы 7-й ежегодной конференции по генетическим и эволюционным вычислениям . ГЕККО '05. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 447–452. дои : 10.1145/1068009.1068080 . ISBN 978-1-59593-010-1 . S2CID 7892935 .
- ^ Мацуда Х, Танигучи Ф, Хашимото А (1997). «Подход к обнаружению структурных мотивов белка с использованием схемы кодирования конформаций основной цепи» (PDF) . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 280–91. ПМИД 9390299 .
Дальнейшее чтение
[ редактировать ]- Кадаверу К., Вьяс Дж., Шиллер М.Р. (май 2008 г.). «Вирусная инфекция и болезни человека: выводы из минимотивов» . Границы бионауки . 13 (13): 6455–71. дои : 10.2741/3166 . ПМЦ 2628544 . ПМИД 18508672 .
- Стормо Г.Д. (январь 2000 г.). «Сайты связывания ДНК: представление и открытие». Биоинформатика . 16 (1): 16–23. дои : 10.1093/биоинформатика/16.1.16 . ПМИД 10812473 .
Первоисточники
[ редактировать ]- Алтарави Д., Исмаил М.А., Ганем С. (2009). «MProfiler: метод обнаружения мотивов ДНК на основе профилей». Распознавание образов в биоинформатике . Конспекты лекций по информатике. Том. 5780. стр. 13–23. дои : 10.1007/978-3-642-04031-3_2 . ISBN 978-3-642-04030-6 .
- Шиллер М.Р. (2007). «Minimotif Miner: вычислительный инструмент для исследования функций белков, болезней и генетического разнообразия». Текущие протоколы в ProteinScience . 48 (1). Уайли: 2.12.1–2.12.14. дои : 10.1002/0471140864.ps0212s48 . ISBN 978-0471140863 . ПМИД 18429315 . S2CID 10406520 .
- Балла С., Тапар В., Верма С., Луонг Т., Фагри Т., Хуанг CH и др. (март 2006 г.). «Minimotif Miner: инструмент для исследования функции белка» . Природные методы . 3 (3): 175–7. дои : 10.1038/nmeth856 . ПМИД 16489333 . S2CID 15571142 .