Множественная ЭМ для выявления мотивов
Максимизация множественных ожиданий для выявления мотивов (MEME) — это инструмент для обнаружения мотивов в группе связанных последовательностей ДНК или белков . [ 1 ]
Мотив — это образец последовательности, который неоднократно встречается в группе родственных последовательностей белков или ДНК и часто связан с некоторой биологической функцией. MEME представляет мотивы как зависящие от положения матрицы вероятностей букв , которые описывают вероятность каждой возможной буквы в каждой позиции шаблона. Отдельные цМемные мотивы не содержат пробелов. Узоры с промежутками переменной длины разделяются цМЕМом на два или более отдельных мотива.
MEME принимает на вход группу последовательностей ДНК или белков (обучающий набор) и выводит столько мотивов, сколько требуется. Он использует методы статистического моделирования для автоматического выбора наилучшей ширины, количества вхождений и описания для каждого мотива.
MEME — первый из набора инструментов для анализа мотивов, называемого набором MEME .
Определение
[ редактировать ]Алгоритм MEME можно понять с двух разных точек зрения. С биологической точки зрения, MEME идентифицирует и характеризует общие мотивы в наборе невыровненных последовательностей. С точки зрения информатики, MEME находит набор непересекающихся, приблизительно совпадающих подстрок по начальному набору строк. [ нужна ссылка ]
Использовать
[ редактировать ]MEME можно использовать для поиска сходных биологических функций и структур в разных последовательностях. Необходимо учитывать, что вариация последовательностей может быть значительной, а мотивы иногда очень малы. Полезно также учитывать, что места связывания белков очень специфичны. Это позволяет сократить количество экспериментов в мокрых лабораториях (экономя затраты и время). Действительно, чтобы лучше обнаружить мотивы, релевантные с биологической точки зрения, необходимо тщательно выбирать: лучшую ширину мотивов, количество вхождений в каждой последовательности и состав каждого мотива.
Компоненты алгоритма
[ редактировать ]Алгоритм использует несколько типов известных функций:
- Максимизация ожиданий (ЕМ).
- Эвристика на основе EM для выбора отправной точки EM.
- Эвристика на основе максимального отношения правдоподобия (LRT) для определения наилучшего количества параметров, не зависящих от модели.
- Мультизапуск для поиска по возможной ширине вышивки.
- Жадный поиск нескольких мотивов.
Однако часто не знаешь, где находится стартовая позиция. Существует несколько возможностей: ровно один мотив на последовательность, или один или нулевой мотив на последовательность, или любое количество мотивов на последовательность.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Бэйли Т.Л., Элкан К. Неконтролируемое изучение множественных мотивов в биополимерах с использованием ЭМ. Мах. Учиться. 1995;21:51–80.
Внешние ссылки
[ редактировать ]- MEME Suite — инструменты анализа последовательностей на основе мотивов
- Версия MEME с ускорением на графическом процессоре
- EXTREME — онлайн-ЭМ-реализация модели MEME для быстрого обнаружения мотивов в больших данных ChIP-Seq и DNase-Seq Footprinting.