Jump to content

Голосовой поиск

Голосовой поиск
Разработчик(и) Ян Холмс ( Калифорнийский университет в Беркли )
Стабильная версия
1
Написано в Дарт
Операционная система UNIX , Linux , Mac , Cygwin в Windows XP
Тип Инструмент биоинформатики
Лицензия Открытый исходный код
Веб-сайт Домашняя страница Стемлока

В биоинформатике , Stemloc — это программное обеспечение с открытым исходным кодом для выравнивания множественных последовательностей РНК и прогнозирования структуры РНК на основе вероятностных моделей структуры РНК известных как парные стохастические контекстно-свободные грамматики (также вероятностные контекстно-свободные грамматики). Stemloc пытается одновременно предсказать и выровнять структуру последовательностей РНК с меньшими временными и пространственными затратами по сравнению с предыдущими методами с той же целью. В результате программное обеспечение реализует ограниченные версии алгоритма Санкоффа, вводя ограничения как по сворачиванию, так и по выравниванию, что снижает использование процессора и памяти и позволяет анализировать более крупные последовательности РНК на обычном оборудовании. Stemloc был написан в 2004 году Яном Холмсом.

Stemloc можно загрузить как часть программного пакета DART . Он принимает входные файлы в формате FASTA или Stockholm .

Терминология

[ редактировать ]
  • Складывание : сворачивание РНК — это процесс, посредством которого молекула РНК приобретает вторичную структуру посредством внутримолекулярных взаимодействий.
  • Конверт сгиба : набор возможных складок, которые будут учитываться в алгоритме.
  • Конверт выравнивания : набор возможных выравниваний, которые будут учитываться в алгоритме.

Ранее разработанный Дэвидом Санкоффом в 1985 году алгоритм использует динамическое программирование для одновременного выравнивания и прогнозирования нескольких структур РНК. Алгоритм Санкоффа использует время и пространство в большой записи O. и соответственно для последовательности длины . Это очень дорого, и поэтому является мотивацией для создания более совершенных инструментов анализа РНК, таких как Stemloc. Первоначальная цель Stemloc состояла в том, чтобы сократить временные и пространственные затраты на одновременное выравнивание и предсказание структуры двух последовательностей РНК за счет использования схемы оценки стохастической контекстно-свободной грамматики (SCFG) и реализации ограниченных версий алгоритма Санкоффа.

Stemloc использует конверты выравнивания и конверты складки, чтобы одновременно ограничить как выравнивание, так и вторичные структуры сравниваемых последовательностей. Складчатые конверты можно использовать для «обрезания» поиска по вторичным структурам и определения подпоследовательностей двух последовательностей РНК, которые можно учитывать в алгоритме. Например, включение или исключение определенных пар оснований, связанных азотом. Конверты выравнивания можно использовать для «обрезки» поиска по выравниваниям и определения возможных «точек пересечения» в выравнивании двух последовательностей. Например, включение или исключение конкретных гомологий на уровне остатков. Конверты сгиба предварительно рассчитываются для каждой последовательности индивидуально, а конверты выравнивания предварительно рассчитываются путем сравнения двух последовательностей при игнорировании вторичных структур. как глобальное, так и локальное выравнивание Поддерживается .

Ввод в Stemloc может быть в формате FASTA или Stockholm (описание каждого из них см. выше). Пример ввода показан ниже:

stemloc --local dynalign.trna

Команда «--local» анализирует файл в режиме локального выравнивания. Использование «--global» будет использовать режим глобального выравнивания.

Этот вывод имеет стокгольмский формат . Он показывает имена последовательностей, координаты совпадений, выравнивание, согласованную первичную последовательность, вторичную структуру каждой последовательности, согласованную вторичную структуру и оценку логарифмических шансов выравнивания в битах. Линия «//» используется для разделения выравниваний или обозначения конца файла. Пример вывода показан ниже:

# STOCKHOLM 1.0
#=GR RD0260/26-67 SS ..<<<<<.......>>>>>.....(<<<<.......>>>>).
RD0260/26-67			UACUCCCCUGUCACGGGAGAGAAUGUGGGUUCAAAUCCCAUC
#=GC PS_cons			UAC..CCCUGUCACGG..G.GA..G.GGGUUC.AAUCCC..C
RD0500/26-66			UACGACCCUGUCACGGUCGUGA-CGCGGGUUCgAAUCCCGCC
#=GR RD0500/26-66 SS ..<<<<<.......>>>>>...-.<<<<<.......>>>>>.
#=GC SS_cons			..<<<<<.......>>>>>.....<<<<<.......>>>>>.
#=GF SC				  31.872
//

Stemloc в значительной степени полагается на стохастические контекстно-свободные грамматики, которые можно рассматривать как схему оценки алгоритма. Поскольку алгоритм Санкоффа учитывает все возможные складки и все возможные выравнивания, он достаточно точен и тщательн, но для получения каких-либо результатов или вывода требуется измеримое количество времени. Чтобы улучшить эту ситуацию, Stemloc позволяет пользователю ограничить общее количество учитываемых складок и выравниваний. Более конкретно, каждая последовательность может быть предварительно сложена индивидуально в времени и заранее согласованы, игнорируя вторичную структуру в время. Например, использование приведенной ниже команды «-fast» будет учитывать только 100 лучших структур РНК, а не анализировать все возможные складки. Использование команды «-log DOTPLOT» выведет визуальное представление конвертов сгиба и выравнивания.

stemloc nanos-tiny.rna -fast -log DOTPLOT

Ограничение конвертов

[ редактировать ]

Основная идея Stemloc — возможность установить порог количества складок и выравниваний, которые выбираются для создания конвертов. Это можно сделать с помощью опций «-nf» и «-na», которые задают количество учитываемых складок и выравниваний. (Использование -1 ограничивает количество выбранных складок и выравниваний, поэтому использование -1 для обоих параметров запустит алгоритм Санкоффа для входного набора данных.

stemloc nanos-tiny.rna -nf -1 -na -1

Обучение параметров

[ редактировать ]

Еще одной особенностью Stemloc является его способность параметризовать вероятностные модели, такие как стохастические контекстно-свободные грамматики, на основе данных. Stemloc использует алгоритм Inside-Outside и стохастические контекстно-свободные грамматики, чтобы максимизировать вероятность обучающего набора. Это полезно, поскольку параметры по умолчанию для Stemloc были обучены на выборке парных выравниваний с идентичностью последовательностей от 30% до 40% из Rfam (база данных) версии 5.0. Однако эти параметры не всегда эффективны, поэтому возможность обучения параметров пользователем может быть полезной.

На практике

[ редактировать ]

С тех пор Stemloc использовался в различных исследовательских публикациях по анализу структуры РНК. Особенно это касается изучения оптимального выравнивания множественных последовательностей.

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c3833b8bf3d03ce71fddb8c5d0fe39e3__1703320980
URL1:https://arc.ask3.ru/arc/aa/c3/e3/c3833b8bf3d03ce71fddb8c5d0fe39e3.html
Заголовок, (Title) документа по адресу, URL1:
Stemloc - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)