Jump to content

Мотив последовательности

(Перенаправлено с мотива ДНК )
Мотив последовательности ДНК, представленный в виде логотипа последовательности для мотива связывания LexA.

В биологии мотив последовательности представляет собой нуклеотидов или аминокислот последовательности образец , который широко распространен и обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что-либо, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что-либо, кроме остатка Pro .

Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отчетливой вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).

Помимо экзонов гена, существуют регуляторных последовательностей мотивы и мотивы внутри « мусора », такого как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот. [1] (см., например, самосплайсинг РНК ), но это бывает лишь иногда. Например, многие ДНК-связывающие белки, обладающие сродством к определенным сайтам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы при контакте с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .

Внутри последовательности или базы данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусную последовательность .

Представление мотива

[ редактировать ]

Рассмотрим упомянутый выше мотив сайта N -гликозилирования:

Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме Pro

Этот шаблон можно записать как N{P}[ST]{P} где N = Асн, P = Про, S = Бытие, T = Тр; {X} означает любую аминокислоту, кроме X; и [XY] означает либо X или Y.

Обозначения [XY] не дает никаких указаний на вероятность X или Y происходящее в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда закономерности определяются в терминах вероятностной модели, например скрытой модели Маркова .

Мотивы и консенсусные последовательности

[ редактировать ]

Обозначения [XYZ] означает X или Y или Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто связаны с одним мотивом: определяющим узором и различными типичными узорами.

Например, определяющей последовательностью мотива IQ можно считать:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где x означает любую аминокислоту, а квадратные скобки указывают альтернативу (более подробную информацию об обозначениях см. ниже).

Однако обычно первая буква Iи оба [RK] выбор решает R. Поскольку последний выбор настолько широк, шаблон IQxxxRGxxxR иногда приравнивается к самому мотиву IQ, но более точным описанием была бы консенсусная последовательность мотива IQ .

Обозначения описания шаблона

[ редактировать ]

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений регулярных выражений и используют следующие соглашения:

  • существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
  • строка символов, взятая из алфавита, обозначает последовательность соответствующих аминокислот;
  • любая строка символов алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например [abc] соответствует любой из аминокислот, представленных a или b или c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, образец [AB] [CDE] F соответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDF, и BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.

PROSITE pattern notation

[ редактировать ]

В нотации PROSITE используются ИЮПАК и соответствует приведенному выше описанию, за исключением символа конкатенации: однобуквенные коды -', используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.

PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:

  • Строчная буква ' x'может использоваться как элемент шаблона для обозначения любой аминокислоты.
  • Строка символов, взятая из алфавита и заключенная в фигурные скобки, обозначает любую аминокислоту, кроме входящей в строку. Например, {ST} обозначает любую аминокислоту, кроме S или T.
  • Если шаблон ограничен N-концом последовательности, шаблон имеет префикс ' <'.
  • Если образец ограничен C-концом последовательности, к образцу добавляется суффикс ' >'.
  • Персонаж ' >' также может встречаться внутри завершающего шаблона квадратных скобок, так что S[T>] соответствует обоим " ST" и " S>".
  • Если e является элементом шаблона, и m и n два десятичных целых числа с m <= n, затем:
    • e(m) эквивалентно повторению e точно m раз;
    • e(m,n) эквивалентно повторению e точно k раз для любого целого числа k удовлетворительно: m <= k <= n.

Некоторые примеры:

  • x(3) эквивалентно x-x-x.
  • x(2,4) соответствует любой последовательности, которая соответствует x-x или x-x-x или x-x-x-x.

Сигнатура домена цинкового пальца типа C2H2 :

  • C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Существует два типа весовых матриц.

  • Матрица частот положений (PFM) записывает зависящую от положения частоту каждого остатка или нуклеотида. PFM могут быть определены экспериментально в ходе экспериментов SELEX или обнаружены вычислительным путем с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
  • Матрица весов позиций (PWM) содержит логарифмические веса шансов для расчета результата совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ рассчитываются на основе ЧИМ. ШИМ также известны как PSSM.

Пример ПФМ из базы данных TRANSFAC для транскрипционного фактора AP-1:

Поз. А С Г Т ИЮПАК
01 6 2 8 1 Р
02 3 5 9 0 С
03 0 0 0 17 Т
04 0 0 17 0 Г
05 17 0 0 0 А
06 0 16 0 1 С
07 3 2 3 9 Т
08 4 7 2 4 Н
09 9 6 1 1 М
10 4 3 7 3 Н
11 6 3 1 7 В

В первом столбце указывается позиция, второй столбец содержит количество вхождений буквы A в этой позиции, третий столбец содержит количество вхождений буквы C в этой позиции, четвертый столбец содержит количество вхождений буквы G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получается путем агрегирования нескольких консенсусных последовательностей.

Открытие мотива

[ редактировать ]

Процесс обнаружения мотивов последовательности хорошо развит с 1990-х годов. В частности, большая часть существующих исследований по обнаружению мотивов сосредоточена на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов усложняются как проблемами вырождения шаблонов последовательностей, так и проблемами масштабируемости вычислений с интенсивным использованием данных.

Процесс открытия

Блок-схема, изображающая процесс открытия мотива

Открытие мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает в себя выбор последовательностей, которые содержат нужный мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Очистка обеспечивает удаление любых мешающих элементов. Далее следует этап открытия. На этом этапе последовательности представляются с использованием согласованных строк или весовых матриц для конкретной позиции (PWM) . После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для выявления мотивов. Наконец, этап постобработки включает в себя оценку обнаруженных мотивов. [2]

Снова открытие мотива

[ редактировать ]

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Вейраух и др . оценила множество связанных алгоритмов в тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетического мотива

[ редактировать ]

Мотивы также были обнаружены с помощью филогенетического подхода и изучения сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, определенные геном GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили закономерность, которую они в 1996 году назвали мотивом GCM . [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждый . означает одну аминокислоту или пробел, и каждый * указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов , таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации другие родственные белки. [6] Филогенетический подход также может быть использован для улучшения алгоритма MEME de novo , примером которого может служить PhyloGibbs. [7]

Снова открытие пары мотивов

[ редактировать ]

В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]

Распознавание мотива de novo из белка

[ редактировать ]

В 2018 году марковского случайного поля был предложен подход для вывода мотивов ДНК из ДНК-связывающих доменов белков. [9]

Алгоритмы обнаружения мотивов

Алгоритмы обнаружения мотивов используют различные стратегии для выявления закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и природных подходов демонстрирует их адаптивность, а использование нескольких методов оказывается эффективным в повышении точности идентификации.

Перечислительный подход: [2]

Начиная поиск мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются методы простого перечисления слов, такие как YMF и DREME, которые систематически перебирают последовательность в поисках коротких мотивов. В дополнение к этому методы на основе кластеризации, такие как CisFinder, используют матрицы нуклеотидных замен для кластеризации мотивов, эффективно уменьшая избыточность. Одновременно древовидные методы, такие как Weeder и FMotif, используют древовидные структуры, а методы, основанные на теории графов (например, WINNOWER), используют представления графов, демонстрируя богатство стратегий перечисления.

Вероятностный подход: [2]

Переходя в вероятностную сферу, этот подход использует вероятностные модели для распознавания мотивов внутри последовательностей. MEME, детерминированный образец, использует максимизацию ожидания для оптимизации позиционно-весовых матриц (PWM) и раскрытия консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайным назначением позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная модель умело отражает присущую неопределенность, связанную с обнаружением мотивов.

Расширенный подход: [2]

В дальнейшем, расширенное обнаружение мотивов включает в себя сложные методы с байесовским моделированием. [10] занимая центральное место. LOGOS и BaMM, иллюстрирующие эту группу, сложным образом вплетают байесовские подходы и марковские модели в свою ткань для идентификации мотивов. Включение методов байесовской кластеризации расширяет вероятностную основу, обеспечивая целостную основу для распознавания образов в последовательностях ДНК.

Вдохновленные природой и эвристические алгоритмы: [2]

Выделяется отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (ГА) , представленные FMGA и MDGA, [11] ориентироваться в поиске мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , алгоритмы искусственной пчелиной колонии (ABC) и алгоритмы поиска кукушки (CS) , представленные в GAEM, GARP и MACS, решаются на исследования на основе феромонов. Эти алгоритмы, отражающие приспособляемость природы и динамику сотрудничества, служат авангардными стратегиями идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптируемость этих алгоритмов в сложной области обнаружения мотивов.

На этой диаграмме показано множество различных типов алгоритмов, используемых при открытии мотивов последовательностей и их категорий.

Чехлы с мотивами

[ редактировать ]

Трехмерные цепные коды

[ редактировать ]

E. coli Репрессор лактозного оперона LacI ( PDB : 1lcc цепь A) и E. coli активатор гена катаболита ( PDB : 3gap цепь A) имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не обнаруживают большого сходства. как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Такая схема кодирования гораздо ярче выявляет сходство между белками, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует углы скручивания между альфа-углеродами основной цепи белка . «W» всегда соответствует альфа-спирали.

3D-код цепочки Аминокислотная последовательность
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

См. также

[ редактировать ]

Первоисточники

[ редактировать ]
  1. ^ Длакич, Менсур; Харрингтон, Родни Э. (1996). «Влияние контекста последовательности на кривизну ДНК» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (9): 3847–3852. Бибкод : 1996PNAS...93.3847D . дои : 10.1073/pnas.93.9.3847 . ISSN   0027-8424 . JSTOR   39155 . ПМК   39447 . ПМИД   8632978 .
  2. ^ Jump up to: а б с д и Хашим, Фатма А.; Мабрук, Май С.; Аль-Атабани, Валид (2019). «Обзор алгоритмов поиска различных мотивов последовательностей» . Журнал Авиценны медицинской биотехнологии . 11 (2): 130–148. ISSN   2008-2835 . ПМК   6490410 . ПМИД   31057715 .
  3. ^ Бэйли Т.Л., Уильямс Н., Мисле С., Ли В.В. (июль 2006 г.). «ЦМЕМ: обнаружение и анализ мотивов последовательностей ДНК и белков» . Исследования нуклеиновых кислот . 34 (проблема с веб-сервером): W369-73. дои : 10.1093/nar/gkl198 . ПМЦ   1538909 . ПМИД   16845028 .
  4. ^ Вейраух М.Т., Кот А., Норел Р., Аннала М., Чжао Ю., Райли Т.Р. и др. (февраль 2013 г.). «Оценка методов моделирования специфичности последовательности транскрипционных факторов» . Природная биотехнология . 31 (2): 126–34. дои : 10.1038/nbt.2486 . ПМК   3687085 . ПМИД   23354101 .
  5. ^ Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «GCM-мотив: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих» . Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Бибкод : 1996PNAS...9314912A . дои : 10.1073/pnas.93.25.14912 . ПМК   26236 . ПМИД   8962155 .
  6. ^ «Моделирование в Pfam» . Пфам . Проверено 14 декабря 2023 г.
  7. ^ Сиддхартхан Р., Сиггия Э.Д., ван Нимвеген Э. (декабрь 2005 г.). «PhyloGibbs: инструмент для поиска мотивов выборки Гиббса, учитывающий филогению» . PLOS Вычислительная биология . 1 (7): е67. Бибкод : 2005PLSCB...1...67S . дои : 10.1371/journal.pcbi.0010067 . ПМК   1309704 . ПМИД   16477324 .
  8. ^ Вонг КС (октябрь 2017 г.). «MotifHyades: максимизация ожиданий для обнаружения пар мотивов ДНК de novo в парных последовательностях» . Биоинформатика . 33 (19): 3028–3035. doi : 10.1093/биоинформатика/btx381 . ПМИД   28633280 .
  9. ^ Вонг КС (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК на основе белковых последовательностей» . iScience . 7 : 198–211. Бибкод : 2018iSci....7..198W . дои : 10.1016/j.isci.2018.09.003 . ПМК   6153143 . ПМИД   30267681 .
  10. ^ Миллер, Эндрю К.; Печать, Кристин Г.; Нильсен, Пол М.Ф.; Крампин, Эдмунд Дж. (18 ноября 2010 г.). «Байесовский поиск транскрипционных мотивов» . ПЛОС ОДИН . 5 (11): e13897. Бибкод : 2010PLoSO...513897M . дои : 10.1371/journal.pone.0013897 . ISSN   1932-6203 . ПМЦ   2987817 . ПМИД   21124986 .
  11. ^ Че, Дуншэн; Сун, Инлэй; Рашид, Халед (25 июня 2005 г.). «MDGA: обнаружение мотивов с использованием генетического алгоритма» . Материалы 7-й ежегодной конференции по генетическим и эволюционным вычислениям . ГЕККО '05. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 447–452. дои : 10.1145/1068009.1068080 . ISBN  978-1-59593-010-1 . S2CID   7892935 .
  12. ^ Мацуда Х, Танигучи Ф, Хашимото А (1997). «Подход к обнаружению структурных мотивов белка с использованием схемы кодирования конформаций основной цепи» (PDF) . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 280–91. ПМИД   9390299 .

Дальнейшее чтение

[ редактировать ]

Первоисточники

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 33c1af48d6958528fc844a2a3157ffb9__1716409080
URL1:https://arc.ask3.ru/arc/aa/33/b9/33c1af48d6958528fc844a2a3157ffb9.html
Заголовок, (Title) документа по адресу, URL1:
Sequence motif - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)