Рфам
![]() | |
Содержание | |
---|---|
Описание | База данных Rfam предоставляет выравнивания, консенсусные вторичные структуры и модели ковариации для семейств РНК. |
Типы данных захвачен | Семейства РНК |
Организмы | все |
Контакт | |
Исследовательский центр | СЕМЬЯ |
Первичное цитирование | ПМИД 33211869 |
Доступ | |
Формат данных | Стокгольмский формат |
Веб-сайт | рфам |
URL-адрес загрузки | FTP |
Разнообразный | |
Лицензия | Общественное достояние |
Добавить в закладки сущности | да |
Rfam — это база данных , содержащая информацию о семействах некодирующих РНК (нкРНК) и других структурированных элементах РНК. Это аннотированная , база данных с открытым доступом первоначально разработанная в Wellcome Trust Sanger Institute в сотрудничестве с Janelia Farm . [1] [2] [3] [4] и в настоящее время размещается в Европейском институте биоинформатики . [5] Rfam аналогичен базе данных Pfam для аннотирования семейств белков.
В отличие от белков , нкРНК часто имеют схожую вторичную структуру , но не имеют большого сходства в первичной последовательности . Rfam делит нкРНК на семейства на основе эволюции от общего предка. Создание множественных выравниваний последовательностей (MSA) этих семейств может дать представление об их структуре и функциях, как и в случае с семействами белков. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Исследователи Rfam также вносят свой вклад в Википедии в проект RNA WikiProject . [4] [6]
Использование
[ редактировать ]База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семейства. Также приведены ссылки на литературу и другие базы данных РНК.Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.
Интерфейс веб-сайта Rfam позволяет пользователям выполнять поиск нкРНК по ключевому слову, фамилии или геному, а также осуществлять поиск по последовательности нкРНК или EMBL регистрационному номеру . [7] Информация базы данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL. [8] [9] [10] Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.
Методы
[ редактировать ]В базе данных информация о вторичной структуре и первичной последовательности , представленная MSA , объединяется в статистические модели, называемые профильными стохастическими бесконтекстными грамматиками (SCFG), также известные как ковариационные модели. Они аналогичны скрытым моделям Маркова , используемым для аннотации семейств белков в базе данных Pfam . [1] Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в стокгольмском формате и SCFG.
Первый MSA — это «начальное» выравнивание. Это созданное вручную выравнивание, которое содержит репрезентативных членов семейства нкРНК и сопровождается структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их в выравнивание. Пороговое значение для конкретного семейства выбирается во избежание ложных срабатываний.
До версии 12 Rfam использовал начальный этап фильтрации BLAST , поскольку SCFG профилей были слишком дорогими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстры. [10] так что шаг BLAST больше не нужен. [11]
Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием ковариационной модели в базе данных последовательностей. Все обнаруженные гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.
История
[ редактировать ]Версия 1.0 Rfam была выпущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, которая содержала 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, а текущая версия (14.9, выпущенная в ноябре 2022 года) аннотирует 4108 семейств РНК. [7] семьи.
Основные релизы и публикации
[ редактировать ]- 2003 - Rfam: база данных семейств РНК. [1]
- 2005 — Rfam: аннотирование некодирующих РНК в полных геномах. [2]
- 2008 - RNA WikiProject: аннотации семейств РНК сообществом. [6]
- 2008 г. - Rfam: обновление базы данных семейств РНК. [3]
- 2011 — Rfam: Arc.Ask3.Ru, кланы и «десятичный» релиз. [4]
- 2012 — Rfam 11.0: 10 лет семействам РНК. [12]
- 2014 — Rfam 12.0: обновления базы данных семейств РНК. [3]
- 2017 — Rfam 13.0: переход к геномно-ориентированному ресурсу для семейств некодирующих РНК. [13]
- 2020 г. - Rfam 14: расширен охват семейств метагеномных, вирусных и микроРНК. [14]
Проблемы
[ редактировать ]- Геномы высших эукариот содержат множество псевдогенов и повторов, происходящих из нкРНК. Отличить эти нефункциональные копии от функциональных нкРНК — непростая задача. [2]
- Интроны не моделируются ковариационными моделями.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Гриффитс-Джонс С., Бейтман А., Маршалл М., Ханна А., Эдди С.Р. (2003). «Rfam: база данных семейств РНК» . Нуклеиновые кислоты Рез . 31 (1): 439–41. дои : 10.1093/нар/gkg006 . ПМК 165453 . ПМИД 12520045 .
- ^ Jump up to: а б с Гриффитс-Джонс С., Моксон С., Маршалл М., Ханна А., Эдди С.Р., Бейтман А. (2005). «Rfam: аннотирование некодирующих РНК в полных геномах» . Нуклеиновые кислоты Рез . 33 (Проблема с базой данных): D121–4. дои : 10.1093/nar/gki081 . ПМК 540035 . ПМИД 15608160 .
- ^ Jump up to: а б с Гарднер П.П., Дауб Дж., Тейт Дж.Г. и др. (октябрь 2008 г.). «Rfam: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D136–D140. дои : 10.1093/нар/gkn766 . ПМК 2686503 . ПМИД 18953034 .
- ^ Jump up to: а б с Гарднер П.П., Дауб Дж., Тейт Дж., Мур Б.Л., Осуч И.Х., Гриффитс-Джонс С., Финн Р.Д., Навроцкий Е.П., Кольбе Д.Л., Эдди С.Р., Бейтман А. (2011). «Рфам: Arc.Ask3.Ru, кланы и «десятичный» релиз» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D141–5. дои : 10.1093/nar/gkq1129 . ПМК 3013711 . ПМИД 21062808 .
- ^ «Переезд на xfam.org» . Блог Xfam . Проверено 3 мая 2014 г.
- ^ Jump up to: а б Дауб Дж., Гарднер П.П., Тейт Дж., Рамскольд Д., Манске М., Скотт В.Г., Вайнберг З., Гриффитс-Джонс С., Бейтман А. (декабрь 2008 г.). «Википроект РНК: аннотации сообщества семейств РНК» . РНК . 14 (12): 2462–4. дои : 10.1261/rna.1200508 . ПМК 2590952 . ПМИД 18945806 .
- ^ Jump up to: а б «Семьи Рфам» . rfam.xfam.org .
- ^ Эдди С.Р., Дурбин Р. (июнь 1994 г.). «Анализ последовательности РНК с использованием ковариационных моделей» . Исследования нуклеиновых кислот . 22 (11): 2079–88. дои : 10.1093/нар/22.11.2079 . ПМК 308124 . ПМИД 8029015 .
- ^ Эдди С.Р. (2002). «Алгоритм динамического программирования с эффективным использованием памяти для оптимального выравнивания последовательности со вторичной структурой РНК» . БМК Биоинформатика . 3:18 . дои : 10.1186/1471-2105-3-18 . ПМК 119854 . ПМИД 12095421 .
- ^ Jump up to: а б Навроцкий Е.П., Эдди С.Р. (2013). «Инфернал 1.1: поиск гомологии РНК в 100 раз быстрее» . Биоинформатика . 29 (22): 2933–5. doi : 10.1093/биоинформатика/btt509 . ПМЦ 3810854 . ПМИД 24008419 .
- ^ Навроцкий Е.П., Бердж С.В., Бейтман А., Дауб Дж., Эберхардт Р.Ю., Эдди С.Р., Флоден Э.В., Гарднер П.П., Джонс Т.А., Тейт Дж., Финн Р.Д. (январь 2015 г.). «Rfam 12.0: обновления базы данных семейств РНК» . Нуклеиновые кислоты Рез . 43 (Проблема с базой данных): D130–7. дои : 10.1093/nar/gku1063 . ПМЦ 4383904 . ПМИД 25392425 .
- ^ Бердж С.В., Дауб Дж., Эберхардт Р., Тейт Дж., Барквист Л., Навроцкий Е.П., Эдди С.Р., Гарднер П.П., Бейтман А. (январь 2013 г.). «Rfam 11.0: 10 лет семействам РНК» . Нуклеиновые кислоты Рез . 41 (Проблема с базой данных): D226–32. дои : 10.1093/нар/gks1005 . ПМК 3531072 . ПМИД 23125362 .
- ^ Кальвари И., Аргасинска Дж., Хинонес-Ольвера Н., Навроцкий Е.П., Ривас Е., Эдди С.Р., Бейтман А., Финн Р.Д., Петров А.И. (январь 2018 г.). «Rfam 13.0: переход к геномно-ориентированному ресурсу для семейств некодирующих РНК» . Нуклеиновые кислоты Рез . 46 (Д1): Д335–Д342. дои : 10.1093/нар/gkx1038 . ПМЦ 5753348 . ПМИД 29112718 .
- ^ Кальвари И, Навроцкий Е.П., Онтиверос-Паласиос Н., Аргасинска Дж., Ламкевич К., Марц М., Гриффитс-Джонс С., Тоффано-Ниош С., Готере Д., Вайнберг З., Ривас Е., Эдди С.Р., Финн Р.Д., Бейтман А., Петров А.И. (январь 2021 г.). «Rfam 14: расширенный охват семейств метагеномных, вирусных и микроРНК» . Нуклеиновые кислоты Рез . 49 (Д1): Д192–Д200. дои : 10.1093/nar/gkaa1047 . ПМЦ 7779021 . ПМИД 33211869 .