Jump to content

Кластеризация последовательностей

В биоинформатике , кластеризации последовательностей алгоритмы пытаются сгруппировать биологические последовательности которые каким-то образом связаны. Последовательности могут быть геномного , « транскриптомного » ( EST ) или белкового происхождения.Для белков гомологичные последовательности обычно группируются в семейства . Для данных EST кластеризация важна для группировки последовательностей, происходящих из одного и того же гена , прежде чем EST будут собраны для реконструкции исходной мРНК .

Некоторые алгоритмы кластеризации используют кластеризацию с одной связью , создавая транзитивное замыкание последовательностей со сходством в пределах определенного порога. УКЛАСТ [1] и CD-ХИТ [2] использовать жадный алгоритм , который идентифицирует репрезентативную последовательность для каждого кластера и назначает этому кластеру новую последовательность, если она достаточно похожа на репрезентативную; если последовательность не совпадает, она становится репрезентативной последовательностью для нового кластера. Оценка сходства часто основана на выравнивании последовательностей . Кластеризация последовательностей часто используется для создания неизбыточного набора репрезентативных последовательностей .

Кластеры последовательностей часто являются синонимами (но не идентичными) семействам белков . Определение репрезентативной третичной структуры для каждого кластера последовательностей является целью многих инициатив в области структурной геномики .

Алгоритмы и пакеты кластеризации последовательностей

[ редактировать ]

  • CD-ХИТ [2]
  • UCLUST в ИССЛЕДОВАНИЯХ [1]
  • Звездный код: [3] алгоритм быстрой кластеризации последовательностей, основанный на точном поиске всех пар. [4]
  • Ортоискатель: [5] быстрый, масштабируемый и точный метод кластеризации белков в семейства генов (ортогруппы) [6] [7]
  • Линкласт: [8] первый алгоритм, время выполнения которого линейно масштабируется в зависимости от размера входного набора, очень быстро, часть MMseqs2 [9] пакет программного обеспечения для быстрого и точного поиска последовательностей и кластеризации больших наборов последовательностей
  • TribeMCL: метод кластеризации белков в родственные группы [10]
  • BAG: алгоритм кластеризации последовательностей на основе теории графов. [11]
  • Я: [12] Механизм параллельного масштабируемого выравнивания ДНК с открытым исходным кодом и дополнительным программным компонентом кластеризации
  • Кластер пользовательского интерфейса: [13] Параллельная кластеризация последовательностей EST (генов)
  • Кластеризация BLASTClust с одной связью с помощью BLAST [14]
  • Кластеризатор: [15] расширяемое Java-приложение для группировки последовательностей и кластерного анализа
  • PATDB: программа для быстрого определения идеальных подстрок.
  • нрдб: [16] программа для объединения тривиально избыточных (идентичных) последовательностей
  • КлуСТр: [17] База данных кластеризации последовательностей белков с одной связью на основе сходства последовательностей Смита-Уотермана; охватывает более 7 миллионов последовательностей, включая UniProt и IPI
  • ICAинструменты [18] - оригинальный (древний) пакет кластеризации ДНК со множеством алгоритмов, полезных для обнаружения артефактов или кластеризации EST.
  • Пропустить лишний инструмент EMBOSS [19] удалить лишние последовательности из набора
  • КЛАСС Алгоритм [20] идентифицировать группы структурно, функционально или эволюционно связанных трудновыравниваемых белковых последовательностей. Веб-сервер КЛУСС [21]
  • Алгоритм CLUSS2 [22] для кластеризации семейств трудновыравниваемых белковых последовательностей с множеством биологических функций. Веб-сервер CLUSS2 [21]

Неизбыточные базы данных последовательностей

[ редактировать ]
  • РЫБЫ: сервер отбора белковых последовательностей [23]
  • РДБ90 [24]
  • UniRef: неизбыточная UniProt. база данных последовательностей [25]
  • Uniclust: кластеризованные последовательности UniProtKB на уровне 90%, 50% и 30% идентичности парных последовательностей. [26]
  • Ортологичные кластеры вирусов: [27] База данных кластеризации последовательностей вирусных белков; содержит все предсказанные гены из одиннадцати семейств вирусов, организованных в группы ортологов по сходству BLASTP.

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б «ИСК» . Drive5.com .
  2. ^ Перейти обратно: а б «CD-HIT: сверхбыстрый метод кластеризации белковых и нуклеотидных последовательностей со множеством новых применений в данных секвенирования нового поколения (NGS)» . cd-hit.org .
  3. ^ «Репозиторий Старкода» . Гитхаб . 11.10.2018.
  4. ^ Зорита Э., Куско П., Филион Г.Дж. (июнь 2015 г.). «Starcode: кластеризация последовательностей на основе поиска всех пар» . Биоинформатика . 31 (12): 1913–9. doi : 10.1093/биоинформатика/btv053 . ПМЦ   4765884 . ПМИД   25638815 .
  5. ^ «Ортоискатель» . Лаборатория Стива Келли .
  6. ^ Эммс Д.М., Келли С. (август 2015 г.). «OrthoFinder: устранение фундаментальных ошибок при сравнении всего генома значительно повышает точность вывода ортогрупп» . Геномная биология . 16 (1): 157. дои : 10.1186/s13059-015-0721-2 . ПМЦ   4531804 . ПМИД   26243257 .
  7. ^ Эммс Д.М., Келли С. (ноябрь 2019 г.). «OrthoFinder: вывод филогенетической ортологии для сравнительной геномики» . Геномная биология . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ПМЦ   6857279 . ПМИД   31727128 .
  8. ^ Штайнеггер М., Сёдинг Дж. (июнь 2018 г.). «Кластеризация огромных наборов белковых последовательностей за линейное время» . Природные коммуникации . 9 (1): 2542. Бибкод : 2018NatCo...9.2542S . дои : 10.1038/s41467-018-04964-5 . ПМК   6026198 . ПМИД   29959318 .
  9. ^ Штайнеггер М., Сёдинг Дж. (ноябрь 2017 г.). «MMseqs2 позволяет осуществлять поиск чувствительных белковых последовательностей для анализа огромных наборов данных». Природная биотехнология . 35 (11): 1026–1028. дои : 10.1038/nbt.3988 . hdl : 11858/00-001M-0000-002E-1967-3 . ПМИД   29035372 . S2CID   402352 .
  10. ^ Энрайт А.Дж., Ван Донген С., Узунис, Калифорния (апрель 2002 г.). «Эффективный алгоритм крупномасштабного обнаружения семейств белков» . Исследования нуклеиновых кислот . 30 (7): 1575–84. дои : 10.1093/нар/30.7.1575 . ПМК   101833 . ПМИД   11917018 .
  11. ^ «Архивная копия» . Архивировано из оригинала 6 декабря 2003 г. Проверено 19 февраля 2004 г. {{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
  12. ^ «Документ по биоинформатике: JESAM: программные компоненты CORBA для выравнивания и кластеров EST» . Littlest.co.uk .
  13. ^ «pedretti@eyeball — страница кластеризации» . rates.eng.uiowa.edu . Архивировано из оригинала 9 апреля 2005 г.
  14. ^ «Новости NCBI: весна 2004 г. – BLASTLab» . nih.gov .
  15. ^ «Clusterer: расширяемое Java-приложение для группировки последовательностей и кластерного анализа» . bugaco.com .
  16. ^ «Индекс /pub/nrdb» . Архивировано из оригинала 1 января 2008 г.
  17. ^ «КлуСТр» . Архивировано из оригинала 24 сентября 2006 г. Проверено 23 ноября 2006 г.
  18. ^ «Введение в ICAtools» . Littlest.co.uk .
  19. ^ «ЭМБОСС: корабль избыточен» . пастер.фр .
  20. ^ Келил А., Ван С., Бжезинский Р., Флери А. (август 2007 г.). «CLUSS: кластеризация белковых последовательностей на основе новой меры сходства» . БМК Биоинформатика . 8 : 286. дои : 10.1186/1471-2105-8-286 . ЧВК   1976428 . ПМИД   17683581 .
  21. ^ Перейти обратно: а б «Главная страница КЛУССА» .
  22. ^ Келил А., Ван С., Бжезинский Р. (2008). «CLUSS2: независимый от выравнивания алгоритм кластеризации семейств белков с множеством биологических функций». Международный журнал вычислительной биологии и разработки лекарств . 1 (2): 122–40. дои : 10.1504/ijcbdd.2008.020190 . ПМИД   20058485 .
  23. ^ «Лаборатория Данбрека» . fccc.edu .
  24. ^ Холм Л., Сандер С. (июнь 1998 г.). «Удаление избыточности ближайших соседей из больших коллекций белковых последовательностей» . Биоинформатика . 14 (5): 423–9. дои : 10.1093/биоинформатика/14.5.423 . ПМИД   9682055 .
  25. ^ «О ЮниПроте» . uniprot.org .
  26. ^ Мирдита М., фон ден Дриш Л., Галиес С., Мартин М.Дж., Зёдинг Дж., Штайнеггер М. (январь 2017 г.). «Базы данных Uniclust кластеризованных и глубоко аннотированных белковых последовательностей и выравниваний» . Исследования нуклеиновых кислот . 45 (Д1): Д170–Д176. дои : 10.1093/nar/gkw1081 . ПМК   5614098 . ПМИД   27899574 .
  27. ^ «VOCS — Ресурсный центр вирусной биоинформатики» . uvic.ca.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 089e5fcfef972633933fde79543b63e5__1701564660
URL1:https://arc.ask3.ru/arc/aa/08/e5/089e5fcfef972633933fde79543b63e5.html
Заголовок, (Title) документа по адресу, URL1:
Sequence clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)