Логотип последовательности
В биоинформатике логотип последовательности это графическое изображение сохранения последовательности нуклеотидов ДНК (в цепи — / РНК ) или аминокислот (в белковых последовательностях ). [1] Логотип последовательности создается из коллекции выровненных последовательностей и отображает консенсусную последовательность и разнообразие последовательностей.Логотипы последовательностей часто используются для изображения характеристик последовательностей, таких как сайты связывания белков в ДНК или функциональные единицы в белках.
Обзор
[ редактировать ]Логотип последовательности состоит из стопки букв в каждой позиции. Относительные размеры букв указывают на их частоту в последовательностях. Общая высота букв отображает информативность позиции в битах.
Создание логотипа
[ редактировать ]Для создания логотипов последовательностей родственные последовательности ДНК, РНК или белка или последовательности ДНК, имеющие общие консервативные сайты связывания, выравниваются так, чтобы наиболее консервативные части создавали хорошее выравнивание. можно создать логотип последовательности Затем на основе сохраненного множественного выравнивания последовательностей . Логотип последовательности покажет, насколько хорошо остатки сохраняются в каждой позиции: чем больше количество остатков, тем выше будут буквы, потому что тем лучше консервация в этой позиции. Различные остатки в одной и той же позиции масштабируются в соответствии с их частотой. Высота всей стопки остатков — это информация , измеряемая в битах . Логотипы последовательностей можно использовать для обозначения консервативных сайтов связывания ДНК , с которыми связываются факторы транскрипции .
Информационное содержание (ось Y) положения дается: [2]
- для аминокислот,
- для нуклеиновых кислот,
где это неопределенность Шеннона (иногда называемую энтропией ) положения
Здесь, это относительная частота основания или аминокислоты на позиции , и – это поправка малой выборки для выравнивания буквы. [2] [3] Высота буквы в столбце дается
Аппроксимация для поправки малой выборки, , определяется:
где 4 для нуклеотидов, 20 для аминокислот и количество последовательностей в выравнивании.
Логотип консенсуса
[ редактировать ]Согласованный логотип — это упрощенный вариант логотипа последовательности, который можно встроить в текстовый формат.Как и логотип последовательности, консенсусный логотип создается из набора выровненных последовательностей белков или ДНК/РНК и передает информацию о сохранении каждого положения мотива последовательности или выравнивании последовательностей. [1] [4] . Однако согласованный логотип отображает только информацию о сохранении, а не явную информацию о частоте каждого нуклеотида или аминокислоты в каждой позиции. Вместо стопки, состоящей из нескольких символов, обозначающих относительную частоту каждого символа, консенсусный логотип отображает степень сохранения каждой позиции с использованием высоты консенсусного символа в этой позиции.
Преимущества и недостатки
[ редактировать ]Основным и очевидным преимуществом согласованных логотипов перед последовательными логотипами является их способность встраиваться в виде текста в любой формата Rich Text Format редактор/просмотрщик и, следовательно, в научные рукописи. Как описано выше, консенсусный логотип представляет собой нечто среднее между логотипами последовательностей и консенсусными последовательностями . В результате, по сравнению с логотипом последовательности, в согласованном логотипе отсутствует информация (относительный вклад каждого символа в сохранение этой позиции в мотиве/выравнивании). Следовательно, по возможности следует предпочтительно использовать логотип последовательности. При этом необходимость включения графических фигур для отображения логотипов последовательностей увековечила использование согласованных последовательностей в научных рукописях, даже несмотря на то, что они не могут передать информацию ни о сохранении, ни о частоте. [5] Таким образом, согласованные логотипы представляют собой улучшение по сравнению с согласованными последовательностями, когда информация о мотиве/выравнивании должна быть ограничена текстом.
Расширения
[ редактировать ]Скрытые модели Маркова (HMM) учитывают не только информационное содержание совмещенных позиций в совмещении, но также вставки и удаления. В логотипе последовательности HMM, используемом Pfam , добавляются три строки для обозначения частот занятости (присутствия) и вставки, а также ожидаемой длины вставки. [6]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Шнайдер ТД; Стивенс Р.М. (1990). «Логотипы последовательностей: новый способ отображения согласованных последовательностей» . Нуклеиновые кислоты Рез . 18 (20): 6097–6100. дои : 10.1093/нар/18.20.6097 . ПМК 332411 . ПМИД 2172928 .
- ^ Jump up to: а б Шнайдер ТД; Стормо Г.Д. (1986). «Информационное содержание сайтов связывания на нуклеотидных последовательностях» (PDF) . Журнал молекулярной биологии . 188 (3): 415–431. дои : 10.1016/0022-2836(86)90165-8 . ПМИД 3525846 .
- ^ Башарин Г.П. (1959). «О статистической оценке энтропии последовательности независимых случайных величин» . Теория вероятностей и ее приложения . 4 (3): 333–336. дои : 10.1137/1104033 .
- ^ Анзалди ЖЖ; Муньос-Фернандес Д; Эрилл И. (2012). «BioWord: пакет манипуляций с последовательностями для Microsoft Word» . БМК Биоинформатика . 13 (124): 124. дои : 10.1186/1471-2105-13-124 . ПМЦ 3546851 . ПМИД 22676326 .
- ^ Шнайдер ТД (2002). «Последовательность консенсуса Дзен» . Приложение Биоинформ . 1 (3): 111–119. ПМЦ 1852464 . ПМИД 15130839 .
- ^ Уиллер, Трэвис Дж; Клементс, Джоди; Финн, Роберт Д. (13 января 2014 г.). «Skylign: инструмент для создания информативных интерактивных логотипов, представляющих выравнивание последовательностей и профилирование скрытых марковских моделей» . БМК Биоинформатика . 15 (1): 7. дои : 10.1186/1471-2105-15-7 . ПМЦ 3893531 . ПМИД 24410852 .
Внешние ссылки
[ редактировать ]- Как читать логотипы последовательности .
- Рекомендации по созданию последовательных логотипов .
- Эрилл И., «Нежное введение в информационное содержание сайтов связывания факторов транскрипции», Eprint
- Что такое логотип последовательности?