Кластеризация последовательностей
В биоинформатике , кластеризации последовательностей алгоритмы пытаются сгруппировать биологические последовательности которые каким-то образом связаны. Последовательности могут быть геномного , « транскриптомного » ( EST ) или белкового происхождения.Для белков гомологичные последовательности обычно группируются в семейства . Для данных EST кластеризация важна для группировки последовательностей, происходящих из одного и того же гена , прежде чем EST будут собраны для реконструкции исходной мРНК .
Некоторые алгоритмы кластеризации используют кластеризацию с одной связью , создавая транзитивное замыкание последовательностей со сходством в пределах определенного порога. УКЛАСТ [1] и CD-ХИТ [2] использовать жадный алгоритм , который идентифицирует репрезентативную последовательность для каждого кластера и назначает этому кластеру новую последовательность, если она достаточно похожа на репрезентативную; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивании последовательностей . Кластеризация последовательностей часто используется для создания неизбыточного набора репрезентативных последовательностей .
Кластеры последовательностей часто являются синонимами (но не идентичными) семействам белков . Определение репрезентативной третичной структуры для каждого кластера последовательностей является целью многих инициатив в области структурной геномики .
Алгоритмы и пакеты кластеризации последовательностей
[ редактировать ]Эта статья читается как каталог . ( сентябрь 2018 г. ) |
- CD-ХИТ [2]
- UCLUST в ИССЛЕДОВАНИЯХ [1]
- Звездный код: [3] алгоритм быстрой кластеризации последовательностей, основанный на точном поиске всех пар. [4]
- Ортоискатель: [5] быстрый, масштабируемый и точный метод кластеризации белков в семейства генов (ортогруппы) [6] [7]
- Линкласт: [8] первый алгоритм, время выполнения которого линейно масштабируется в зависимости от размера входного набора, очень быстро, часть MMseqs2 [9] пакет программного обеспечения для быстрого и точного поиска последовательностей и кластеризации больших наборов последовательностей
- TribeMCL: метод кластеризации белков в родственные группы [10]
- BAG: алгоритм кластеризации последовательностей на основе теории графов. [11]
- Я: [12] Механизм параллельного масштабируемого выравнивания ДНК с открытым исходным кодом и дополнительным программным компонентом кластеризации
- Кластер пользовательского интерфейса: [13] Параллельная кластеризация последовательностей EST (генов)
- Кластеризация BLASTClust с одной связью с помощью BLAST [14]
- Кластеризатор: [15] расширяемое Java-приложение для группировки последовательностей и кластерного анализа
- PATDB: программа для быстрого определения идеальных подстрок.
- нрдб: [16] программа для объединения тривиально избыточных (идентичных) последовательностей
- КлуСТр: [17] База данных кластеризации последовательностей белков с одной связью на основе сходства последовательностей Смита-Уотермана; охватывает более 7 миллионов последовательностей, включая UniProt и IPI
- ICAинструменты [18] - оригинальный (древний) пакет кластеризации ДНК со множеством алгоритмов, полезных для обнаружения артефактов или кластеризации EST.
- Пропустить лишний инструмент EMBOSS [19] удалить лишние последовательности из набора
- КЛАСС Алгоритм [20] идентифицировать группы структурно, функционально или эволюционно связанных трудновыравниваемых белковых последовательностей. Веб-сервер КЛУСС [21]
- Алгоритм CLUSS2 [22] для кластеризации семейств трудновыравниваемых белковых последовательностей с множеством биологических функций. Веб-сервер CLUSS2 [21]
Неизбыточные базы данных последовательностей
[ редактировать ]- РЫБЫ: сервер отбора белковых последовательностей [23]
- РДБ90 [24]
- UniRef: неизбыточная UniProt. база данных последовательностей [25]
- Uniclust: кластеризованные последовательности UniProtKB на уровне 90%, 50% и 30% идентичности парных последовательностей. [26]
- Ортологичные кластеры вирусов: [27] База данных кластеризации последовательностей вирусных белков; содержит все предсказанные гены из одиннадцати семейств вирусов, организованных в группы ортологов по сходству BLASTP.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б «ИСК» . Drive5.com .
- ^ Перейти обратно: а б «CD-HIT: сверхбыстрый метод кластеризации белковых и нуклеотидных последовательностей со множеством новых применений в данных секвенирования нового поколения (NGS)» . cd-hit.org .
- ^ «Репозиторий Старкода» . Гитхаб . 11.10.2018.
- ^ Зорита Э., Куско П., Филион Г.Дж. (июнь 2015 г.). «Starcode: кластеризация последовательностей на основе поиска всех пар» . Биоинформатика . 31 (12): 1913–9. doi : 10.1093/биоинформатика/btv053 . ПМЦ 4765884 . ПМИД 25638815 .
- ^ «Ортоискатель» . Лаборатория Стива Келли .
- ^ Эммс Д.М., Келли С. (август 2015 г.). «OrthoFinder: устранение фундаментальных ошибок при сравнении всего генома значительно повышает точность вывода ортогрупп» . Геномная биология . 16 (1): 157. дои : 10.1186/s13059-015-0721-2 . ПМЦ 4531804 . ПМИД 26243257 .
- ^ Эммс Д.М., Келли С. (ноябрь 2019 г.). «OrthoFinder: вывод филогенетической ортологии для сравнительной геномики» . Геномная биология . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ПМЦ 6857279 . ПМИД 31727128 .
- ^ Штайнеггер М., Сёдинг Дж. (июнь 2018 г.). «Кластеризация огромных наборов белковых последовательностей за линейное время» . Природные коммуникации . 9 (1): 2542. Бибкод : 2018NatCo...9.2542S . дои : 10.1038/s41467-018-04964-5 . ПМК 6026198 . ПМИД 29959318 .
- ^ Штайнеггер М., Сёдинг Дж. (ноябрь 2017 г.). «MMseqs2 позволяет осуществлять поиск чувствительных белковых последовательностей для анализа огромных наборов данных». Природная биотехнология . 35 (11): 1026–1028. дои : 10.1038/nbt.3988 . hdl : 11858/00-001M-0000-002E-1967-3 . ПМИД 29035372 . S2CID 402352 .
- ^ Энрайт А.Дж., Ван Донген С., Узунис, Калифорния (апрель 2002 г.). «Эффективный алгоритм крупномасштабного обнаружения семейств белков» . Исследования нуклеиновых кислот . 30 (7): 1575–84. дои : 10.1093/нар/30.7.1575 . ПМК 101833 . ПМИД 11917018 .
- ^ «Архивная копия» . Архивировано из оригинала 6 декабря 2003 г. Проверено 19 февраля 2004 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ «Документ по биоинформатике: JESAM: программные компоненты CORBA для выравнивания и кластеров EST» . Littlest.co.uk .
- ^ «pedretti@eyeball — страница кластеризации» . rates.eng.uiowa.edu . Архивировано из оригинала 9 апреля 2005 г.
- ^ «Новости NCBI: весна 2004 г. – BLASTLab» . nih.gov .
- ^ «Clusterer: расширяемое Java-приложение для группировки последовательностей и кластерного анализа» . bugaco.com .
- ^ «Индекс /pub/nrdb» . Архивировано из оригинала 1 января 2008 г.
- ^ «КлуСТр» . Архивировано из оригинала 24 сентября 2006 г. Проверено 23 ноября 2006 г.
- ^ «Введение в ICAtools» . Littlest.co.uk .
- ^ «ЭМБОСС: корабль избыточен» . пастер.фр .
- ^ Келил А., Ван С., Бжезинский Р., Флери А. (август 2007 г.). «CLUSS: кластеризация белковых последовательностей на основе новой меры сходства» . БМК Биоинформатика . 8 : 286. дои : 10.1186/1471-2105-8-286 . ЧВК 1976428 . ПМИД 17683581 .
- ^ Перейти обратно: а б «Главная страница КЛУССА» .
- ^ Келил А., Ван С., Бжезинский Р. (2008). «CLUSS2: независимый от выравнивания алгоритм кластеризации семейств белков с множеством биологических функций». Международный журнал вычислительной биологии и разработки лекарств . 1 (2): 122–40. дои : 10.1504/ijcbdd.2008.020190 . ПМИД 20058485 .
- ^ «Лаборатория Данбрека» . fccc.edu .
- ^ Холм Л., Сандер С. (июнь 1998 г.). «Удаление избыточности ближайших соседей из больших коллекций белковых последовательностей» . Биоинформатика . 14 (5): 423–9. дои : 10.1093/биоинформатика/14.5.423 . ПМИД 9682055 .
- ^ «О ЮниПроте» . uniprot.org .
- ^ Мирдита М., фон ден Дриш Л., Галиес С., Мартин М.Дж., Зёдинг Дж., Штайнеггер М. (январь 2017 г.). «Базы данных Uniclust кластеризованных и глубоко аннотированных белковых последовательностей и выравниваний» . Исследования нуклеиновых кислот . 45 (Д1): Д170–Д176. дои : 10.1093/nar/gkw1081 . ПМК 5614098 . ПМИД 27899574 .
- ^ «VOCS — Ресурсный центр вирусной биоинформатики» . uvic.ca.