Анализ последовательности без выравнивания
В биоинформатике для данных о молекулярных последовательностях и структурах обеспечивают альтернативу подходам , подходы к анализу последовательностей без выравнивания основанным на выравнивании. [1]
Появление и потребность в анализе различных типов данных, полученных в ходе биологических исследований, привели к возникновению области биоинформатики . [2] Данные о молекулярной последовательности и структуре ДНК , РНК и белков , экспрессии генов профили или данные микрочипов , данные о метаболических путях — вот некоторые из основных типов данных, анализируемых в биоинформатике. Среди них данные о последовательностях увеличиваются в геометрической прогрессии из-за появления технологий секвенирования нового поколения. С момента зарождения биоинформатики анализ последовательностей оставался основной областью исследований с широким спектром применений в поиске в базах данных, аннотации генома , сравнительной геномике , молекулярной филогении и предсказании генов . Новаторские подходы к анализу последовательностей были основаны на выравнивании последовательностей , глобальном или локальном, попарном или множественном выравнивании последовательностей . [3] [4] Подходы, основанные на выравнивании, обычно дают превосходные результаты, когда изучаемые последовательности тесно связаны и могут быть надежно выровнены, но когда последовательности расходятся, надежное выравнивание не может быть получено, и, следовательно, применение выравнивания последовательностей ограничено. Еще одним ограничением подходов, основанных на выравнивании, является их вычислительная сложность, отнимающие много времени и, следовательно, ограниченные при работе с крупномасштабными данными о последовательностях. [5] Появление технологий секвенирования нового поколения привело к получению объемных данных секвенирования. Размер этих данных последовательностей создает проблемы для алгоритмов на основе выравнивания при их сборке, аннотациях и сравнительных исследованиях.
Методы без выравнивания
[ редактировать ]Методы без выравнивания можно в общих чертах разделить на пять категорий: а) методы, основанные на частоте k -меров/слов, б) методы, основанные на длине общих подстрок, в) методы, основанные на количестве совпадений слов (с интервалами), d ) методы, основанные на микровыравниваниях , д) методы, основанные на теории информации и е) методы, основанные на графическом представлении. Подходы без выравнивания использовались при поиске сходства последовательностей. [6] кластеризация и классификация последовательностей, [7] и в последнее время в филогенетике [8] [9] ( Рисунок 1 ).
Считается, что такой молекулярно-филогенический анализ с использованием подходов без выравнивания является частью филогеномики следующего поколения . [9] В ряде обзорных статей представлен углубленный обзор методов анализа последовательностей без выравнивания. [1] [10] [11] [12] [13] [14] [15]
AFproject — это международное сотрудничество по тестированию и сравнению программных инструментов для сравнения последовательностей без выравнивания. [16]
Методы, основанные на частоте k -меров/слов
[ редактировать ]Популярные методы, основанные на частоте k -меров/слов, включают профиль частоты признаков (FFP), [17] [18] Вектор состава (CV), [19] [20] Распределение времени возврата (RTD), [21] представление игры частотного хаоса (FCGR). [22] и слова с пробелами. [23]
Профиль частоты функций (FFP)
[ редактировать ]Методология, используемая в методе, основанном на FFP, начинается с расчета количества каждого возможного k -мера (возможное количество k -меров для нуклеотидной последовательности: 4 к , а для последовательности белка: 20 к ) в последовательностях. Затем каждое количество k -меров в каждой последовательности нормализуется путем деления его на общее количество всех k -меров в этой последовательности. Это приводит к преобразованию каждой последовательности в ее характерный частотный профиль. Затем рассчитывается попарное расстояние между двумя последовательностями, расхождение Дженсена-Шеннона (JS) между их соответствующими FFP. Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как объединение соседей , UPGMA и т. д.
Вектор состава (CV)
[ редактировать ]частота появления каждого возможного k В этом методе рассчитывается -мера в заданной последовательности. Следующим характерным шагом этого метода является вычитание случайного фона этих частот с использованием модели Маркова, чтобы уменьшить влияние случайных нейтральных мутаций и подчеркнуть роль избирательной эволюции. Нормализованным частотам присваивается фиксированный порядок для формирования вектора композиции (CV) данной последовательности. Затем функция косинусного расстояния используется для вычисления попарного расстояния между CV последовательностей. Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как объединение соседей , UPGMA и т. д. Этот метод можно расширить, прибегнув к эффективным алгоритмам сопоставления с образцом, чтобы включить в вычисление векторов композиции: (i) все k -меры для любого значения k , (ii) все подстроки любой длины до произвольно установленного максимального значения k , (iii) все максимальные подстроки, где подстрока является максимальной, если ее расширение любым символом приведет к уменьшению ее появления считать. [24] [25]
Распределение времени возврата (RTD)
[ редактировать ]Метод, основанный на RTD, не вычисляет количество k -меров в последовательностях, а вычисляет время, необходимое для повторного появления к -мерс. Время относится к количеству остатков в последовательном появлении определенного k -мера. Таким образом, появление каждого k -мера в последовательности рассчитывается в форме RTD, который затем суммируется с использованием двух статистических параметров: среднего значения (μ) и стандартного отклонения (σ). Таким образом, каждая последовательность представляется в виде числового вектора размером 2⋅4. к содержащие µ и σ из 4 к РТД. Парное расстояние между последовательностями рассчитывается с использованием меры евклидового расстояния . Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как объединение соседей , UPGMA и т. д. Недавний подход «Извлечение шаблонов посредством энтропийного поиска» (PEER) обеспечивает прямое определение длины k-мера и суммирует интервал встречаемости с использованием энтропии. .
Представление игры частотного хаоса (FCGR)
[ редактировать ]Методы FCGR произошли от метода представления игры хаоса (CGR), который обеспечивает независимое от масштаба представление геномных последовательностей. [26] CGR можно разделить линиями сетки, где каждый квадрат сетки обозначает появление олигонуклеотидов определенной длины в последовательности. Такое представление CGR называется представлением игры частотного хаоса (FCGR). Это приводит к представлению каждой последовательности в FCGR. Парное расстояние между FCGR последовательностями можно рассчитать с использованием расстояния Пирсона, расстояния Хэмминга или евклидова расстояния. [27]
Частоты пробельных слов
[ редактировать ]В то время как большинство алгоритмов без выравнивания сравнивают словесный состав последовательностей, Spaced Words использует шаблон заботы и безразличия позиций. В этом случае появление слова с пробелом в последовательности определяется только символами в совпадающих позициях, а символы в неважных позициях игнорируются. Вместо сравнения частот смежных слов во входных последовательностях этот подход сравнивает частоты разделенных слов в соответствии с заранее определенным шаблоном. [23] Обратите внимание, что заранее определенный шаблон можно выбрать путем анализа дисперсии количества совпадений. [28] вероятность первого появления на нескольких моделях, [29] или коэффициент корреляции Пирсона между ожидаемой частотой слов и истинным расстоянием выравнивания. [30]
Методы, основанные на длине общих подстрок
[ редактировать ]Методы этой категории используют сходство и различия подстрок в паре последовательностей. Эти алгоритмыв основном использовались для обработки строк в информатике . [31]
Средняя общая подстрока (ACS)
[ редактировать ]В этом подходе для выбранной пары последовательностей (A и B длиной n и m соответственно) самая длинная подстрока в одной последовательности (A) идентифицируется , начинающаяся с некоторой позиции, которая точно совпадает с другой последовательностью (B) в любой позиции. Таким образом вычисляются длины самых длинных подстрок, начинающихся в разных позициях последовательности A и имеющих точные совпадения в некоторых позициях последовательности B. Все эти длины усредняются для получения меры . Интуитивно, чем больше , тем более похожи две последовательности. Чтобы учесть различия в длине последовательностей, нормализован [т.е. ]. Это дает меру сходства между последовательностями.
Чтобы получить меру расстояния, обратная мера сходства берется поправочный член , чтобы гарантировать, что и из нее вычитается будет нулевым. Таким образом
Эта мера несимметрично, поэтому необходимо вычислить , что дает окончательную меру ACS между двумя строками (A и B). [32] Поиск подпоследовательности/подстроки может быть эффективно выполнен с помощьюиспользование суффиксных деревьев . [33] [34] [35]
k - подход к среднему несоответствию общей подстроки (kmacs)
[ редактировать ]Этот подход является обобщением подхода ACS. Чтобы определить расстояние между двумя последовательностями ДНК или белка, kmacs оценивает для каждой позиции i первой последовательности самую длинную подстроку, начинающуюся с i и соответствующую подстроке второй последовательности с числом несоответствий до k . Он определяет среднее значение этих значений как меру сходства между последовательностями и превращает его в меру симметричного расстояния. Kmacs не вычисляет точные подстроки с k- несоответствием, поскольку это было бы слишком затратно в вычислениях, но аппроксимирует такие подстроки. [36]
Дистанция мутации (Кр)
[ редактировать ]Этот подход тесно связан с ACS, который рассчитывает количество замен на сайт между двумя последовательностями ДНК, используя кратчайший путь. отсутствующая подстрока (называемая шустрингом). [37]
Распределение длин общих подстрок с k-несоответствием
[ редактировать ]Этот подход использует программу kmacs [36] для расчета самых длинных общих подстрок с числом несоответствий до k для пары последовательностей ДНК. Затем филогенетическое расстояние между последовательностями можно оценить по локальному максимуму в распределении длин общих подстрок с k-несоответствием. [38]
Методы, основанные на количестве совпадений слов (через интервалы)
[ редактировать ]и
[ редактировать ]Эти подходы являются вариантами статистика, которая подсчитывает количество -mer соответствует двум последовательностям. Они улучшают простые статистику с учетом фонового распределения сравниваемых последовательностей. [39]
МАШ
[ редактировать ]Это чрезвычайно быстрый метод, который использует стратегию нижнего эскиза MinHash для оценки индекса Жаккара мультимножеств -меры двух входных последовательностей. То есть оценивается соотношение -mer соответствует общему количеству -меры последовательностей. Это, в свою очередь, можно использовать для оценки эволюционных расстояний между сравниваемыми последовательностями, измеряемых как количество замен на позицию последовательности с тех пор, как последовательности произошли от их последнего общего предка. [40]
Склон-Дерево
[ редактировать ]Этот подход рассчитывает значение расстояния между двумя белковыми последовательностями на основе убывания количества -mer соответствует, если увеличивается. [41]
Склон-СпаМ
[ редактировать ]Этот метод вычисляет число из -mer или совпадения слов через пробел ( SpaM ) для разных значений длины слова или количества совпадающих позиций в базовом шаблоне соответственно. Наклон аффинно-линейной функции это зависит от рассчитывается для оценки расстояния Джукса-Кантора между входными последовательностями. [42]
Сумерки
[ редактировать ]Скмер вычисляет расстояния между видами на основе несобранных считываний секвенирования. Подобно MASH , он использует индекс Жаккара для наборов -меры из входных последовательностей. В отличие от MASH , программа по-прежнему точна при небольшом охвате секвенирования, поэтому ее можно использовать для скимминга генома . [43]
Методы, основанные на микровыравниваниях
[ редактировать ]Строго говоря, эти методы не свободны от выравнивания . без зазоров Они используют простые микровыравнивания , когда последовательности должны совпадать в определенных заранее определенных позициях. Позиции, выровненные по остальным позициям микровыравниваний, где допускаются несовпадения, затем используются для вывода о филогении.
Ко-филог
[ редактировать ]Этот метод ищет так называемые структуры , которые определяются как пары совпадений k -меров между двумя последовательностями ДНК, которые находятся на расстоянии одной позиции в обеих последовательностях. Два совпадения k -мера называются контекстом , положение между ними называется объектом . Затем Co-phylog определяет расстояние между двумя последовательностями, долю таких структур , для которых два нуклеотида в объекте различны. Этот подход может быть применен к несобранным чтениям секвенирования. [44]
Энди
[ редактировать ]andi оценивает филогенетические расстояния между геномными последовательностями на основе неразрывных локальных выравниваний, которые окружены максимальными точными совпадениями слов. Такие совпадения слов можно эффективно найти с помощью массивов суффиксов. Выравнивания без пробелов между точными совпадениями слов затем используются для оценки филогенетических расстояний между последовательностями генома. Полученные оценки расстояния точны примерно до 0,6 замен на позицию. [45]
Фильтрованные совпадения между словами через пробел (FSWM)
[ редактировать ]FSWM использует заранее определенный двоичный шаблон P, представляющий так называемые позиции совпадения и позиции безразличия . Затем для пары входных последовательностей ДНК он ищет пробельных слов относительно P , т.е. локальные выравнивания без пробелов с совпадающими нуклеотидами в позициях совпадения P совпадения и возможные несовпадения в позициях без пробелов . Ложные совпадения слов через пробел с низкой оценкой отбрасываются, эволюционные расстояния между входными последовательностями оцениваются на основе нуклеотидов, выровненных друг с другом в неважных положениях оставшихся гомологичных совпадений слов через пробел. [46] FSWM адаптирован для оценки расстояний на основе несобранных чтений NGS, эта версия программы называется Read-SpaM . [47]
Прот-СпаМ
[ редактировать ]Prot-SpaM ( ) на основе протеома совпадения пространственных слов М — это реализация алгоритма FSWM для частичных или целых последовательностей протеома. [48]
Мульти-СпаМ
[ редактировать ]Multi-SpaM ( множественные с пробелами слов совпадения ) — это подход к реконструкции филогении на основе генома, который расширяет идею FSWM до сравнения множественных последовательностей. [49] Учитывая бинарный шаблон P совпадающих позиций и ненужных позиций , программа ищет P -блоки, то есть локальные четырехсторонние выравнивания без пробелов с совпадающими нуклеотидами в совпадающих позициях P позициях . и возможными несовпадениями в несовпадающих - посты по уходу . Такие четырехсторонние выравнивания случайным образом выбираются из набора входных последовательностей генома. Для каждого P рассчитывается топология некорневого дерева -блока с помощью RAxML . [50] Затем программа Quartet MaxCut используется для расчета супердерева из этих деревьев.
Методы, основанные на теории информации
[ редактировать ]Теория информации предоставила успешные методы анализа и сравнения последовательностей без выравнивания. Существующие приложения теории информации включают глобальную и локальную характеристику ДНК, РНК и белков, оценку энтропии генома по мотивам и классификацию регионов. Он также перспективен в картировании генов , анализе секвенирования следующего поколения и метагеномике . [51]
Базово-базовая корреляция (BBC)
[ редактировать ]Корреляция оснований-оснований (BBC) преобразует последовательность генома в уникальный 16-мерный числовой вектор с помощью следующего уравнения:
The и обозначает вероятности оснований i и j в геноме. указывает вероятность наличия оснований i и j на расстоянии ℓ в геноме. Параметр K указывает максимальное расстояние между базами i и j . Вариация значений 16 параметров отражает изменение содержания и длины генома. [52] [53] [54]
Информационная корреляция и частичная информационная корреляция (IC-PIC)
[ редактировать ]Метод, основанный на IC-PIC ( информационная корреляция и частичная информационная корреляция), использует свойство базовой корреляции последовательности ДНК. IC и PIC рассчитывались по следующим формулам:
Окончательный вектор получается следующим образом:
который определяет диапазон расстояний между базами. [55]
Попарное расстояние между последовательностями рассчитывается с использованием меры евклидового расстояния . Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как объединение соседей , UPGMA и т. д.
Сжатие
[ редактировать ]Примерами являются эффективные аппроксимации сложности по Колмогорову , например сложность Лемпеля-Зива . Обычно методы, основанные на сжатии, используют взаимную информацию между последовательностями. Это выражается в условной колмогоровской сложности , то есть длине кратчайшей саморазграничивающейся программы, необходимой для генерации строки с учетом предварительного знания другой строки. Эта мера имеет отношение к измерению k -слов в последовательности, поскольку их можно легко использовать для генерации последовательности. Иногда это трудоемкий метод. Теоретической основой подхода колмогоровской сложности было предложили Беннетт, Гакс, Ли, Витаньи и Зурек (1998), предложив информационную дистанцию . [56] Поскольку колмогоровская сложность невычислима, она была аппроксимирована алгоритмами сжатия. Чем лучше они сжимают, тем лучше. Ли, Бэджер, Чен, Квонг, Кирни и Чжан (2001) использовали неоптимальную, но нормализованную форму этого подхода: [57] а оптимальная нормализованная форма, предложенная Ли, Ченом, Ли, Ма и Витаньи (2003), появилась в [58] и более подробно и доказано Чилибраси и Витаньи (2005). [59] Оту и Саюд (2003) использовали метод сложности Лемпеля-Зива для построения пяти различных мер расстояния для построения филогенетического дерева . [60]
Сжатие контекстного моделирования
[ редактировать ]В контексте сложности моделирования прогнозы следующего символа одной или нескольких статистических моделей объединяются или конкурируют, чтобы дать прогноз, основанный на событиях, записанных в прошлом. Алгоритмический информационный контент, полученный в результате предсказания каждого символа, может использоваться для вычисления профилей алгоритмической информации за время, пропорциональное длине последовательности. Этот процесс был применен к анализу последовательности ДНК. [61]
Методы, основанные на графическом представлении
[ редактировать ]Повторяющиеся карты
[ редактировать ]Использование итерированных карт для анализа последовательностей было впервые предложено Х. Дж. Джеффри в 1990 году. [26] когда он предложил применить игру хаоса для отображения геномных последовательностей на единичный квадрат. В этом отчете эта процедура была названа «Представление игры хаоса» (CGR). Однако всего три года спустя этот подход был впервые отвергнут Н. Гольдманом как проекция марковской таблицы переходов. [62] Это возражение было отвергнуто к концу того же десятилетия, когда было обнаружено обратное: CGR биективно отображает марковский переход во фрактальное представление без порядка (без степени). [63] Осознание того, что итерированные карты обеспечивают биективную карту между символическим пространством и числовым пространством, привело к выявлению множества подходов к сравнению и характеристике последовательностей без выравнивания. Эти разработки были рассмотрены в конце 2013 года JS Almeida. [64] Ряд веб-приложений, таких как https://github.com/usm/usm.github.com/wiki , [65] доступны для демонстрации того, как кодировать и сравнивать произвольные символьные последовательности таким образом, чтобы в полной мере использовать преимущества современного дистрибутива MapReduce, разработанного для облачных вычислений.
Сравнение методов, основанных на выравнивании, и методов, не требующих выравнивания.
[ редактировать ]Методы на основе выравнивания | Методы без выравнивания |
---|---|
Эти методы предполагают, что гомологичные области смежны (с промежутками). | Не предполагает такой близости гомологичных участков |
Вычисляет все возможные попарные сравнения последовательностей; следовательно, вычислительно дорого | На основе появления подпоследовательностей; состав; недорог в вычислительном отношении, может требовать больших затрат памяти |
Устоявшийся подход в филогеномике | Сравнительно недавно, и применение в филогеномике ограничено; требует дальнейшего тестирования на надежность и масштабируемость |
Требуются модели замещения/эволюции. | Менее зависит от моделей замещения/эволюции |
Чувствителен к стохастическим изменениям последовательностей, рекомбинации, горизонтальному (или латеральному) генетическому переносу, гетерогенности скорости и последовательностям различной длины, особенно когда сходство находится в «сумеречной зоне». | Менее чувствителен к стохастическим изменениям последовательностей, рекомбинации, горизонтальному (или латеральному) генетическому переносу, гетерогенности скорости и последовательностям различной длины. |
В передовой практике используются алгоритмы вывода со сложностью не менее O(n 2 ); менее эффективный по времени | Алгоритмы вывода обычно O(n 2 ) или меньше; более эффективный по времени |
Эвристический характер; статистическую значимость того, как показатели выравнивания связаны с гомологией, трудно оценить | Точные решения; статистическую значимость расстояний последовательностей (и степени сходства) можно легко оценить. |
Полагается на динамическое программирование (затратное в вычислительном отношении), чтобы найти выравнивание, имеющее оптимальную оценку. | обходит дорогостоящее вычислительное динамическое программирование путем индексации количества слов или позиций во фрактальном пространстве. [66] |
Применение методов без выравнивания
[ редактировать ]- Геномные перестройки [67] [68]
- Молекулярная филогенетика [9] [14] [69]
- Метагеномика [70] [71] [72] [73] [74]
- Анализ данных последовательностей нового поколения [70] [30]
- Эпигеномика [75]
- Штрих-кодирование видов [76]
- Популяционная генетика [11]
- Горизонтальный перенос генов [8]
- Серо/генотипирование вирусов [21] [77] [78]
- Прогноз аллергенности [79]
- Открытие SNP [80]
- Обнаружение рекомбинации [81]
- Классификация вирусов [82]
- Таксономическая идентификация архей [83]
- Идентификация регионов низкой сложности [84]
Список веб-серверов/программного обеспечения для методов без выравнивания
[ редактировать ]Имя | Описание | Доступность | Ссылка |
---|---|---|---|
Проткомп | Подход к оценке наиболее выраженных функций | ПРОТКОМП | [85] |
кмакс | подход k - несоответствие средней общей подстроки | кмакс | [36] |
Слова через пробел | Частоты пробельных слов | слова через пробел | [23] |
Ко-филог | метод микровыравнивания без сборки | Ко-филог | [44] |
Прот-СпаМ | Соответствие пробельных слов на основе протеома | Прот-СпаМ | [48] |
ФСВМ | Отфильтрованные совпадения слов через пробел | ФСВМ | [46] |
ФФП | Филогения на основе профиля частоты признаков | ФФП | [17] |
вариатор | Сервер на основе вектора состава для филогении | вариатор | [86] |
Филогения РТД | Сервер на основе распределения времени возврата для филогении | Филогения РТД | [21] |
АГП | Мультиметодный веб-сервер для филогении генома без выравнивания | АГП | [87] |
Альфы | Обнаружение локального сходства вирусных и бактериальных геномов без выравнивания | Альфы | [8] |
без кофеина+пи | Расчет расстояния с использованием методов без выравнивания в PYthon | без кофеина+пи | [88] |
Подтип Денге | Генотипирование вирусов денге на основе RTD | Подтип Денге | [21] |
Типы ВЗН | Генотипирование вирусов Западного Нила на основе RTD | Типы ВЗН | [77] |
АллергенФП | Прогнозирование аллергенности по отпечаткам пальцев дескриптора | АллергенФП | [79] |
ксНП v2 | Обнаружение SNP без выравнивания | ксНП v2 | [80] |
d2Инструменты | Сравнение метатранскриптомных образцов на основе k -кортежей частот | d2Инструменты | [89] |
торопиться | Обнаружение рекомбинации с использованием SHustrings | торопиться | [81] |
разгромить | Обнаружение и визуализация геномных перестроек | разгромить | [67] |
Разбить++ | Поиск и визуализация геномных перестроек | Разбить++ | [68] |
GScompare | Быстрая кластеризация бактериальных геномов на основе олигонуклеотидов | GScompare | – |
КОМЕТА | Подтипирование вирусных последовательностей ВИЧ-1, ВИЧ-2 и ВГС без выравнивания | КОМЕТА | [78] |
УСМ | Фрактальная картаУменьшите разложение выравнивания последовательностей | usm.github.io | [65] |
СОКОЛ | Метод без выравнивания для определения метагеномного состава древней ДНК | СОКОЛ | [73] |
Кракен | Таксономическая классификация с использованием точных совпадений k-меров | Кракен 2 | [74] |
ЦЛК | Филогенетические деревья с использованием сопоставления на основе k-меров без ссылок | Модуль CLC микробного генома | [90] |
ОРЕЛ | Сверхбыстрый инструмент для поиска относительно отсутствующих слов в геномных данных. | ОРЕЛ2 | [91] |
АлкоР | Чрезвычайно эффективный метод идентификации и визуализации областей низкой сложности в геномных и протеомных последовательностях. | АлкоР | [84] |
См. также
[ редактировать ]- Анализ последовательности
- Множественное выравнивание последовательностей
- Филогеномика
- Биоинформатика
- Метагеномика
- Секвенирование нового поколения
- Популяционная генетика
- SNP
- Программа обнаружения рекомбинации
- Снятие генома
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Винга С., Алмейда Дж. (март 2003 г.). «Сравнение последовательностей без выравнивания – обзор» . Биоинформатика . 19 (4): 513–523. doi : 10.1093/биоинформатика/btg005 . ПМИД 12611807 .
- ^ Ротберг Дж., Мерриман Б., Хиггс Дж. (сентябрь 2012 г.). «Биоинформатика. Введение» . Йельский журнал биологии и медицины . 85 (3): 305–308. ПМЦ 3447194 . ПМИД 23189382 .
- ^ Бацоглу С. (март 2005 г.). «Многоликость выравнивания последовательностей» . Брифинги по биоинформатике . 6 (1): 6–22. дои : 10.1093/нагрудник/6.1.6 . ПМИД 15826353 .
- ^ Муллан Л. (март 2006 г.). «Попарное выравнивание последовательностей — все дело в нас!». Брифинги по биоинформатике . 7 (1): 113–115. дои : 10.1093/нагрудник/bbk008 . ПМИД 16761368 .
- ^ Кемена С, Нотредам С (октябрь 2009 г.). «Предстоящие проблемы для методов множественного выравнивания последовательностей в эпоху высокой пропускной способности» . Биоинформатика . 25 (19): 2455–2465. doi : 10.1093/биоинформатика/btp452 . ПМЦ 2752613 . ПМИД 19648142 .
- ^ Хайд В., Берк Дж., Дэвисон Д.Б. (1994). «Биологическая оценка d2, алгоритм высокопроизводительного сравнения последовательностей». Журнал вычислительной биологии . 1 (3): 199–215. дои : 10.1089/cmb.1994.1.199 . ПМИД 8790465 .
- ^ Миллер Р.Т., Кристоффельс А.Г., Гопалакришнан С., Берк Дж., Птицын А.А., Бровеак Т.Р., Хиде В.А. (ноябрь 1999 г.). «Комплексный подход к кластеризации экспрессируемой последовательности гена человека: выравнивание тегов последовательности и консенсусная база знаний» . Геномные исследования . 9 (11): 1143–1155. дои : 10.1101/гр.9.11.1143 . ПМК 310831 . ПМИД 10568754 .
- ^ Перейти обратно: а б с Домазет-Лошо М., Хаубольд Б. (июнь 2011 г.). «Обнаружение локального сходства вирусных и бактериальных геномов без выравнивания» . Биоинформатика . 27 (11): 1466–1472. doi : 10.1093/биоинформатика/btr176 . ПМИД 21471011 .
- ^ Перейти обратно: а б с Чан CX, Раган М.А. (январь 2013 г.). «Филогеномика нового поколения» . Биология Директ . 8 :3. дои : 10.1186/1745-6150-8-3 . ПМЦ 3564786 . ПМИД 23339707 .
- ^ Сонг К., Рен Дж., Райнерт Дж. , Дэн М., Уотерман М.С., Сунь Ф. (май 2014 г.). «Новые разработки в области сравнения последовательностей без выравнивания: меры, статистика и секвенирование следующего поколения» . Брифинги по биоинформатике . 15 (3): 343–353. дои : 10.1093/нагрудник/bbt067 . ПМК 4017329 . ПМИД 24064230 .
- ^ Перейти обратно: а б Хаубольд Б. (май 2014 г.). «Беспривязочная филогенетика и популяционная генетика» . Брифинги по биоинформатике . 15 (3): 407–418. дои : 10.1093/нагрудник/bbt083 . ПМИД 24291823 .
- ^ Бонэм-Картер О., Стил Дж., Бастола Д. (ноябрь 2014 г.). «Сравнение генетических последовательностей без выравнивания: обзор последних подходов путем анализа слов» . Брифинги по биоинформатике . 15 (6): 890–905. дои : 10.1093/нагрудник/bbt052 . ПМЦ 4296134 . ПМИД 23904502 .
- ^ Зелезинский А., Винга С., Алмейда Дж., Карловски В.М. (октябрь 2017 г.). «Сравнение последовательностей без выравнивания: преимущества, приложения и инструменты» . Геномная биология . 18 (1): 186. дои : 10.1186/s13059-017-1319-7 . ПМК 5627421 . ПМИД 28974235 .
- ^ Перейти обратно: а б Бернард Дж., Чан С.Х., Чан Ю.Б., Чуа XY, Конг Ю., Хоган Дж.М. и др. (март 2019 г.). «Вывод иерархических и сетчатых филогеномных отношений без выравнивания» . Брифинги по биоинформатике . 20 (2): 426–435. дои : 10.1093/нагрудник/bbx067 . ПМЦ 6433738 . ПМИД 28673025 .
- ^ Рен Дж, Бай Х, Лу ЙЮ, Тан К, Ван Й, Райнерт Дж, Сунь Ф (июль 2018 г.). «Анализ последовательностей без выравнивания и приложения» . Ежегодный обзор биомедицинских данных . 1 : 93–114. arXiv : 1803.09727 . Бибкод : 2018arXiv180309727R . doi : 10.1146/annurev-biodatasci-080917-013431 . ПМК 6905628 . ПМИД 31828235 .
- ^ Зелезинский А., Гиргис Х.З., Бернард Г., Леймейстер К.А., Тан К., Денкер Т. и др. (июль 2019 г.). «Бенчмаркинг методов сравнения последовательностей без выравнивания» . Геномная биология . 20 (1): 144. дои : 10.1186/s13059-019-1755-7 . ПМК 6659240 . ПМИД 31345254 .
- ^ Перейти обратно: а б Симс Г.Э., Джун С.Р., Ву Г.А., Ким Ш.Х. (октябрь 2009 г.). «Полногеномная филогения млекопитающих: эволюционная информация в генных и негенных регионах» . Труды Национальной академии наук Соединенных Штатов Америки . 106 (40): 17077–17082. Бибкод : 2009PNAS..10617077S . дои : 10.1073/pnas.0909377106 . ПМЦ 2761373 . ПМИД 19805074 .
- ^ Симс Г.Е., Ким Ш. (май 2011 г.). «Полногеномная филогения группы Escherichia coli/Shigella по профилям частоты признаков (FFP)» . Труды Национальной академии наук Соединенных Штатов Америки . 108 (20): 8329–8334. Бибкод : 2011PNAS..108.8329S . дои : 10.1073/pnas.1105168108 . ПМК 3100984 . ПМИД 21536867 .
- ^ Гао Л., Ци Дж (март 2007 г.). «Полногеномная молекулярная филогения крупных вирусов дцДНК с использованием метода вектора композиции» . Эволюционная биология BMC . 7 (1): 41. Бибкод : 2007BMCEE...7...41G . дои : 10.1186/1471-2148-7-41 . ПМК 1839080 . ПМИД 17359548 .
- ^ Ван Х, Сюй Цзы, Гао Л, Хао Б (август 2009 г.). «Филогения грибов, основанная на 82 полных геномах с использованием метода вектора композиции» . Эволюционная биология BMC . 9 (1): 195. Бибкод : 2009BMCEE...9..195W . дои : 10.1186/1471-2148-9-195 . ПМК 3087519 . ПМИД 19664262 .
- ^ Перейти обратно: а б с д Колекар П., Кале М., Кулкарни-Кале У (ноябрь 2012 г.). «Мера расстояния без выравнивания, основанная на распределении времени возврата для анализа последовательностей: приложения к кластеризации, молекулярной филогении и подтипированию». Молекулярная филогенетика и эволюция . 65 (2): 510–522. дои : 10.1016/j.ympev.2012.07.003 . ПМИД 22820020 .
- ^ Хатье К., Коллмар М. (2012). «Филогенетический анализ клады Brassicales на основе метода сравнения последовательностей без выравнивания» . Границы в науке о растениях . 3 : 192. doi : 10.3389/fpls.2012.00192 . ПМЦ 3429886 . ПМИД 22952468 .
- ^ Перейти обратно: а б с Леймейстер К.А., Боден М., Хорвеге С., Линднер С., Моргенштерн Б. (июль 2014 г.). «Быстрое сравнение последовательностей без выравнивания с использованием частот пробельных слов» . Биоинформатика . 30 (14): 1991–1999. doi : 10.1093/биоинформатика/btu177 . ПМК 4080745 . ПМИД 24700317 .
- ^ Апостолико А, Денас О (октябрь 2008 г.). «Быстрые алгоритмы вычисления расстояний между последовательностями путем исчерпывающей композиции подстрок» . Алгоритмы молекулярной биологии . 3:13 . дои : 10.1186/1748-7188-3-13 . ПМК 2615014 . ПМИД 18957094 .
- ^ Апостолико А, Денас О, Платье А (сентябрь 2010 г.). «Эффективные инструменты сравнительного анализа подстрок». Журнал биотехнологии . 149 (3): 120–126. doi : 10.1016/j.jbiotec.2010.05.006 . ПМИД 20682467 .
- ^ Перейти обратно: а б Джеффри Х.Дж. (апрель 1990 г.). «Хаос-игровое представление структуры генов» . Исследования нуклеиновых кислот . 18 (8): 2163–2170. дои : 10.1093/нар/18.8.2163 . ПМК 330698 . ПМИД 2336393 .
- ^ Ван Ю, Хилл К., Сингх С., Кари Л. (февраль 2005 г.). «Спектр геномных сигнатур: от динуклеотидов до представления игры хаоса». Джин . 346 : 173–185. дои : 10.1016/j.gene.2004.10.021 . ПМИД 15716010 .
- ^ Хан Л., Леймейстер К.А., Оунит Р., Лонарди С., Моргенштерн Б. (октябрь 2016 г.). «Расбхари: оптимизация разнесенных начальных чисел для поиска в базе данных, сопоставления чтения и сравнения последовательностей без выравнивания» . PLOS Вычислительная биология . 12 (10): е1005107. arXiv : 1511.04001 . Бибкод : 2016PLSCB..12E5107H . дои : 10.1371/journal.pcbi.1005107 . ПМК 5070788 . ПМИД 27760124 .
- ^ Ноэ Л. (14 февраля 2017 г.). «Лучшие хиты 11110110111: безмодельный отбор и безпараметрический расчет чувствительности разнесенных семян» . Алгоритмы молекулярной биологии . 12 (1): 1. дои : 10.1186/s13015-017-0092-1 . ПМК 5310094 . ПМИД 28289437 .
- ^ Перейти обратно: а б Ноэ Л., Мартин Д.Е. (декабрь 2014 г.). «Критерий покрытия для разнесенных начальных чисел и его приложения для поддержки строковых ядер векторной машины и k-мерных расстояний» . Журнал вычислительной биологии . 21 (12): 947–963. arXiv : 1412.2587 . Бибкод : 2014arXiv1412.2587N . дои : 10.1089/cmb.2014.0173 . ПМЦ 4253314 . ПМИД 25393923 .
- ^ Гасфилд Д. (1997). Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология (Переиздание (с корр.) под ред.). Кембридж [ua]: Cambridge Univ. Нажимать. ISBN 9780521585194 .
- ^ Улицкий И., Бурштейн Д., Туллер Т., Чор Б. (март 2006 г.). «Средний общий подход подстроки к филогеномной реконструкции». Журнал вычислительной биологии . 13 (2): 336–350. CiteSeerX 10.1.1.106.5122 . дои : 10.1089/cmb.2006.13.336 . ПМИД 16597244 .
- ^ Вайнер П. (1973). «Алгоритмы сопоставления линейных образцов». 14-й ежегодный симпозиум по теории коммутации и автоматов (1973 г.) . стр. 1–11. CiteSeerX 10.1.1.474.9582 . дои : 10.1109/SWAT.1973.13 .
- ^ Он Д (2006). «Использование суффиксного дерева для обнаружения сложных повторяющихся закономерностей в последовательностях ДНК». 2006 Международная конференция Общества инженерии в медицине и биологии IEEE . Том. 1. С. 3474–7. дои : 10.1109/IEMBS.2006.260445 . ISBN 978-1-4244-0032-4 . ПМИД 17945779 . S2CID 5953866 .
- ^ Вялимяки Н., Герлах В., Диксит К., Мякинен В. (март 2007 г.). «Сжатое суффиксное дерево — основа анализа последовательностей в масштабе генома» . Биоинформатика . 23 (5): 629–630. doi : 10.1093/биоинформатика/btl681 . ПМИД 17237063 .
- ^ Перейти обратно: а б с Леймейстер Калифорния, Моргенштерн Б (июль 2014 г.). «Kmacs: подход к сравнению общих подстрок с использованием среднего значения k-несоответствия для сравнения последовательностей без выравнивания» . Биоинформатика . 30 (14): 2000–2008. doi : 10.1093/биоинформатика/btu331 . ПМК 4080746 . ПМИД 24828656 .
- ^ Хаубольд Б., Пфаффельхубер П., Домазет-Лосо М., Вихе Т. (октябрь 2009 г.). «Оценка расстояний мутаций от невыровненных геномов». Журнал вычислительной биологии . 16 (10): 1487–1500. дои : 10.1089/cmb.2009.0106 . hdl : 11858/00-001M-0000-000F-D624-D . ПМИД 19803738 .
- ^ Моргенштерн Б., Шёбель С., Леймейстер Калифорния (2017). «Реконструкция филогении на основе распределения длин k -несоответствий общих подстрок» . Алгоритмы молекулярной биологии . 12:27 . дои : 10.1186/s13015-017-0118-8 . ПМЦ 5724348 . ПМИД 29238399 .
- ^ Райнерт Дж., Чу Д., Сан Ф., Уотерман М.С. (декабрь 2009 г.). «Сравнение последовательностей без выравнивания (I): статистика и мощность» . Журнал вычислительной биологии . 16 (12): 1615–1634. дои : 10.1089/cmb.2009.0198 . ПМЦ 2818754 . ПМИД 20001252 .
- ^ Ондов Б.Д., Треанген Т.Дж., Мелстед П., Маллони А.Б., Бергман Н.Х., Корен С., Филлиппи А.М. (июнь 2016 г.). «Mash: быстрая оценка расстояния до генома и метагенома с использованием MinHash» . Геномная биология . 17 (1): 132. дои : 10.1186/s13059-016-0997-x . ПМЦ 4915045 . ПМИД 27323842 .
- ^ Бромберг Р., Гришин Н.В., Отвиновский З. (июнь 2016 г.). «Реконструкция филогении с помощью метода без выравнивания, который корректирует горизонтальный перенос генов» . PLOS Вычислительная биология . 12 (6): e1004985. Бибкод : 2016PLSCB..12E4985B . дои : 10.1371/journal.pcbi.1004985 . ПМЦ 4918981 . ПМИД 27336403 .
- ^ Релинг С., Линн А., Шеллхорн Дж., Хоссейни М., Денкер Т., Моргенштерн Б. (2020). «Количество совпадений k-меров между двумя последовательностями ДНК как функция k и приложения для оценки филогенетических расстояний» . ПЛОС ОДИН . 15 (2): e0228070. Бибкод : 2020PLoSO..1528070R . дои : 10.1371/journal.pone.0228070 . ПМК 7010260 . ПМИД 32040534 .
- ^ Сармашги С., Боманн К., П. Гилберт М.Т., Бафна В., Мирараб С. (февраль 2019 г.). «Скмер: идентификация образцов без сборки и выравнивания с использованием скимминга генома» . Геномная биология . 20 (1): 34. дои : 10.1186/s13059-019-1632-4 . ПМК 6374904 . ПМИД 30760303 .
- ^ Перейти обратно: а б Йи Х, Джин Л (апрель 2013 г.). «Кофилог: филогеномный подход без сборки для близкородственных организмов» . Исследования нуклеиновых кислот . 41 (7): е75. дои : 10.1093/нар/gkt003 . ПМЦ 3627563 . ПМИД 23335788 .
- ^ Хаубольд Б., Клёцль Ф., Пфаффельхубер П. (апрель 2015 г.). «Анди: быстрая и точная оценка эволюционных расстояний между близкородственными геномами» . Биоинформатика . 31 (8): 1169–1175. doi : 10.1093/биоинформатика/btu815 . ПМИД 25504847 .
- ^ Перейти обратно: а б Леймейстер К.А., Сохраби-Джахроми С., Моргенштерн Б. (апрель 2017 г.). «Быстрая и точная реконструкция филогении с использованием отфильтрованных совпадений между словами» . Биоинформатика . 33 (7): 971–979. doi : 10.1093/биоинформатика/btw776 . ПМК 5409309 . ПМИД 28073754 .
- ^ Лау А.К., Дёррер С., Леймайстер К.А., Блейдорн К., Моргенштерн Б. (декабрь 2019 г.). «Read-SpaM: сравнение бактериальных геномов без сборки и выравнивания с низким охватом секвенирования» . БМК Биоинформатика . 20 (Приложение 20): 638. doi : 10.1186/s12859-019-3205-7 . ПМК 6916211 . ПМИД 31842735 .
- ^ Перейти обратно: а б Леймейстер К.А., Шеллхорн Дж., Дёррер С., Герт М., Блейдорн К., Моргенштерн Б. (март 2019 г.). «Prot-SpaM: быстрая реконструкция филогении без выравнивания на основе цельных протеомных последовательностей» . ГигаСайенс . 8 (3): giy148. doi : 10.1093/gigascience/giy148 . ПМК 6436989 . ПМИД 30535314 .
- ^ Денкер Т., Леймейстер К.А., Герт М., Блейдорн С., Снир С., Моргенштерн Б. (март 2020 г.). « 'Multi-SpaM': подход максимального правдоподобия к реконструкции филогении с использованием множественных совпадений между словами и квартетных деревьев» . НАР Геномика и биоинформатика . 2 (1): lqz013. дои : 10.1093/nargab/lqz013 . ПМЦ 7671388 . ПМИД 33575565 .
- ^ Стаматакис А (ноябрь 2006 г.). «RAxML-VI-HPC: филогенетический анализ на основе максимального правдоподобия с тысячами таксонов и смешанными моделями» . Биоинформатика . 22 (21): 2688–2690. doi : 10.1093/биоинформатика/btl446 . ПМИД 16928733 .
- ^ Винга С (май 2014 г.). «Приложения теории информации для анализа биологических последовательностей» . Брифинги по биоинформатике . 15 (3): 376–389. дои : 10.1093/нагрудник/bbt068 . ПМК 7109941 . ПМИД 24058049 .
- ^ Лю З, Мэн Дж, Сунь X (апрель 2008 г.). «Новый метод филогенетического анализа всего генома без выравнивания, основанный на признаках: применение к генотипированию и подтипированию HEV». Связь с биохимическими и биофизическими исследованиями . 368 (2): 223–230. дои : 10.1016/j.bbrc.2008.01.070 . ПМИД 18230342 .
- ^ Лю Чж., Сунь X (2008). «Филогения коронавируса на основе корреляции оснований». Международный журнал исследований и приложений в области биоинформатики . 4 (2): 211–220. дои : 10.1504/ijbra.2008.018347 . ПМИД 18490264 .
- ^ Ченг Дж, Цзэн Икс, Рен Г, Лю З (март 2013 г.). «CGAP: новая комплексная платформа для сравнительного анализа геномов хлоропластов» . БМК Биоинформатика . 14:95 . дои : 10.1186/1471-2105-14-95 . ПМЦ 3636126 . ПМИД 23496817 .
- ^ Гао Ю, Ло Л (январь 2012 г.). «Геномная филогения вирусов дцДНК с помощью нового метода без выравнивания». Джин . 492 (1): 309–314. дои : 10.1016/j.gene.2011.11.004 . ПМИД 22100880 .
- ^ Беннетт, Ч., Гакс, П., Ли, М., Витаньи, П. и Зурек, В., Информационная дистанция, IEEE Trans. Информ. Теория, 44, 1407–1423 гг.
- ^ Ли, М., Бэджер, Дж. Х., Чен, X., Квонг, С., Кирни, П. иЧжан, Х., (2001) Информационное расстояние последовательности иего применение к филогении всего митохондриального генома.Биоинформатика, 17:(2001), 149--154.
- ^ М. Ли, X. Чен, X. Ли, Б. Ма, PMB Витаньи.Метрика сходства, IEEE Trans. Информ. Т., 50:12(2004),3250--3264
- ^ RL Cilibrasi и PMB VitaNY, Кластеризация путем сжатия,IEEE Транс. Информат. Чел., 51:4(2005), 1523--1545
- ^ Оту Х.Х., Саюд К. (ноябрь 2003 г.). «Новая мера расстояния последовательности для построения филогенетического дерева» . Биоинформатика . 19 (16): 2122–2130. doi : 10.1093/биоинформатика/btg295 . ПМИД 14594718 .
- ^ Пиньо А.Дж., Гарсия С.П., Пратас Д., Феррейра П.Дж. (21 ноября 2013 г.). «Краткий обзор последовательностей ДНК» . ПЛОС ОДИН . 8 (11): е79922. Бибкод : 2013PLoSO...879922P . дои : 10.1371/journal.pone.0079922 . ПМЦ 3836782 . ПМИД 24278218 .
- ^ Гольдман Н. (май 1993 г.). «Частоты нуклеотидов, динуклеотидов и тринуклеотидов объясняют закономерности, наблюдаемые в представлениях последовательностей ДНК в игре хаоса» . Исследования нуклеиновых кислот . 21 (10): 2487–2491. дои : 10.1093/нар/21.10.2487 . ПМК 309551 . ПМИД 8506142 .
- ^ Алмейда Дж.С., Каррисо Х.А., Марецек А., Ноубл П.А., Флетчер М. (май 2001 г.). «Анализ геномных последовательностей с помощью Chaos Game Representation» . Биоинформатика . 17 (5): 429–437. дои : 10.1093/биоинформатика/17.5.429 . ПМИД 11331237 .
- ^ Алмейда Дж.С. (май 2014 г.). «Анализ последовательностей по итеративным картам, обзор» . Брифинги по биоинформатике . 15 (3): 369–375. дои : 10.1093/нагрудник/bbt072 . ПМК 4017330 . ПМИД 24162172 .
- ^ Перейти обратно: а б Алмейда Дж.С., Грюнеберг А., Маасс В., Винга С. (май 2012 г.). «Фрактальная декомпозиция MapReduce выравнивания последовательностей» . Алгоритмы молекулярной биологии . 7 (1): 12. дои : 10.1186/1748-7188-7-12 . ПМЦ 3394223 . ПМИД 22551205 .
- ^ Винга С., Карвалью А.М., Франциско А.П., Руссо Л.М., Алмейда Ж.С. (май 2012 г.). «Сопоставление шаблонов посредством представления игры хаоса: соединение числовых и дискретных структур данных для анализа биологических последовательностей» . Алгоритмы молекулярной биологии . 7 (1): 10. дои : 10.1186/1748-7188-7-10 . ПМК 3402988 . ПМИД 22551152 .
- ^ Перейти обратно: а б Пратас Д., Силва Р.М., Пиньо А.Дж., Феррейра П.Дж. (май 2015 г.). «Метод без выравнивания для поиска и визуализации перестроек между парами последовательностей ДНК» . Научные отчеты . 5 (10203): 10203. Бибкод : 2015NatSR...510203P . дои : 10.1038/srep10203 . ПМЦ 4434998 . ПМИД 25984837 .
- ^ Перейти обратно: а б Хоссейни М., Пратас Д., Моргенштерн Б., Пиньо А.Дж. (май 2020 г.). «Smash++: не требующий выравнивания и эффективно использующий память инструмент для поиска геномных перестроек» . ГигаСайенс . 9 (5): giaa048. doi : 10.1093/gigascience/giaa048 . ПМЦ 7238676 . ПМИД 32432328 .
- ^ Бернард Дж., Гринфилд П., Рэган М.А., Чан С.Х. (20 ноября 2018 г.). « К -мерное сходство, сети микробных геномов и таксономический ранг» . mSystems . 3 (6): e00257–18. дои : 10.1128/mSystems.00257-18 . ПМК 6247013 . ПМИД 30505941 .
- ^ Перейти обратно: а б Сонг К., Рен Дж., Райнерт Г., Дэн М., Уотерман М.С., Сан Ф. (май 2014 г.). «Новые разработки в области сравнения последовательностей без выравнивания: меры, статистика и секвенирование следующего поколения» . Брифинги по биоинформатике . 15 (3): 343–353. дои : 10.1093/нагрудник/bbt067 . ПМК 4017329 . ПМИД 24064230 .
- ^ Бржинда К., Сыкульский М., Кучеров Г. (ноябрь 2015 г.). «Разнесенные семена улучшают метагеномную классификацию на основе k-меров». Биоинформатика . 31 (22): 3584–3592. arXiv : 1502.06256 . Бибкод : 2015arXiv150206256B . doi : 10.1093/биоинформатика/btv419 . ПМИД 26209798 . S2CID 8626694 .
- ^ Оюнит Р., Лонарди С. (декабрь 2016 г.). «Более высокая классификационная чувствительность коротких метагеномных чтений с помощью CLARK-S» . Биоинформатика . 32 (24): 3823–3825. doi : 10.1093/биоинформатика/btw542 . ПМИД 27540266 .
- ^ Перейти обратно: а б Пратас Д., Пиньо А.Дж., Силва Р.М., Родригес Х.М., Хоссейни М., Каэтано Т., Феррейра П.Дж. (февраль 2018 г.). «СОКОЛ: метод определения метагеномного состава древней ДНК». bioRxiv 10.1101/267179 .
- ^ Перейти обратно: а б Вуд DE, Зальцберг SL (март 2014 г.). «Кракен: сверхбыстрая классификация метагеномных последовательностей с использованием точного выравнивания» . Геномная биология . 15 (3): Р46. дои : 10.1186/gb-2014-15-3-r46 . ПМК 4053813 . ПМИД 24580807 .
- ^ Пинелло Л., Ло Боско Г., Юань Г.К. (май 2014 г.). «Применение методов без выравнивания в эпигеномике» . Брифинги по биоинформатике . 15 (3): 419–430. дои : 10.1093/нагрудник/bbt078 . ПМК 4017331 . ПМИД 24197932 .
- ^ Ла Роза М., Фианнака А., Риццо Р., Урсо А. (2013). «Безвыравнивающий анализ последовательностей штрих-кодов методами сжатия» . БМК Биоинформатика . 14 (Приложение 7): S4. дои : 10.1186/1471-2105-14-S7-S4 . ПМК 3633054 . ПМИД 23815444 .
- ^ Перейти обратно: а б Колекар П., Хаке Н., Кале М., Кулкарни-Кале У (март 2014 г.). «WNV Typer: сервер для генотипирования вирусов Западного Нила с использованием метода без выравнивания, основанного на распределении времени возврата» . Журнал вирусологических методов . 198 : 41–55. дои : 10.1016/j.jviromet.2013.12.012 . ПМИД 24388930 .
- ^ Перейти обратно: а б Струк Д., Юрист Г., Тернес А.М., Шмит Дж.К., Беркофф Д.П. (октябрь 2014 г.). «КОМЕТА: адаптивное контекстно-ориентированное моделирование для сверхбыстрой идентификации подтипа ВИЧ-1» . Исследования нуклеиновых кислот . 42 (18): е144. дои : 10.1093/nar/gku739 . ПМК 4191385 . ПМИД 25120265 .
- ^ Перейти обратно: а б Димитров И., Нанева Л., Дойчинова И., Бангов И. (март 2014 г.). «AllergenFP: прогнозирование аллергенности по отпечаткам пальцев дескриптора» . Биоинформатика . 30 (6): 846–851. doi : 10.1093/биоинформатика/btt619 . ПМИД 24167156 .
- ^ Перейти обратно: а б Гарднер С.Н., Холл Б.Г. (9 декабря 2013 г.). «Когда выравнивание целого генома просто не работает: программное обеспечение kSNP v2 для открытия SNP без выравнивания и филогенетики сотен микробных геномов» . ПЛОС ОДИН . 8 (12): е81760. Бибкод : 2013PLoSO...881760G . дои : 10.1371/journal.pone.0081760 . ПМЦ 3857212 . ПМИД 24349125 .
- ^ Перейти обратно: а б Хаубольд Б., Краузе Л., Хорн Т., Пфаффельхубер П. (декабрь 2013 г.). «Тест на рекомбинацию без выравнивания» . Биоинформатика . 29 (24): 3121–3127. doi : 10.1093/биоинформатика/btt550 . ПМЦ 5994939 . ПМИД 24064419 .
- ^ Сильва Дж. М., Пратас Д., Каэтано Т., Матос С. (август 2022 г.). «Сложность вирусных геномов» . ГигаСайенс . 11 : 1–16. doi : 10.1093/gigascience/giac079 . ПМЦ 9366995 . ПМИД 35950839 .
- ^ Сильва Дж.М., Пратас Д., Каэтано Т., Матос С. (2022), Пиньо А.Дж., Георгиева П., Тейшейра Л.Ф., Санчес Х.А. (ред.), «Классификация последовательностей архей на основе признаков с использованием методов сжатия» , «Распознавание образов и изображения» Анализ , Конспекты лекций по информатике, вып. 13256, Чам: Springer International Publishing, стр. 309–320, doi : 10.1007/978-3-031-04881-4_25 , ISBN 978-3-031-04880-7 , получено 31 августа 2022 г.
- ^ Перейти обратно: а б Сильва Дж.М., Ци В., Пиньо А.Дж., Пратас Д. (декабрь 2022 г.). «AlcoR: моделирование, картирование и визуализация областей низкой сложности в биологических данных без выравнивания» . ГигаСайенс . 12 . doi : 10.1093/gigascience/giad101 . ПМЦ 10716826 . ПМИД 38091509 .
- ^ Ди Биази Л., Пиотто С. ARISE: семантическая поисковая система искусственного интеллекта . ВИВАСЕ2021.
- ^ Сюй Цзы, Хао Б (июль 2009 г.). «Обновление CVTree: новая платформа для филогенетических исследований с использованием векторов композиции и целых геномов» . Исследования нуклеиновых кислот . 37 (проблема с веб-сервером): W174–W178. дои : 10.1093/nar/gkp278 . ПМК 2703908 . ПМИД 19398429 .
- ^ Ченг Дж, Цао Ф, Лю З (май 2013 г.). «AGP: многометодный веб-сервер для филогении генома без выравнивания» . Молекулярная биология и эволюция . 30 (5): 1032–1037. дои : 10.1093/molbev/mst021 . ПМЦ 7574599 . ПМИД 23389766 .
- ^ Хёль М., Ригуцос I, Раган М.А. (февраль 2007 г.). «Оценка филогенетического расстояния на основе шаблонов и реконструкция дерева» . Эволюционная биоинформатика онлайн . 2 : 359–375. arXiv : q-bio/0605002 . Бибкод : 2006q.bio.....5002H . ПМК 2674673 . ПМИД 19455227 .
- ^ Ван Ю, Лю Л, Чен Л, Чен Т, Сунь Ф (2 января 2014 г.). «Сравнение метатранскриптомных образцов на основе частот k-кортежей» . ПЛОС ОДИН . 9 (1): e84348. Бибкод : 2014PLoSO...984348W . дои : 10.1371/journal.pone.0084348 . ПМЦ 3879298 . ПМИД 24392128 .
- ^ «Модуль микробной геномики CLC» . QIAGEN Биоинформатика . 2019.
- ^ Пратас Д., Сильва Дж. М. (январь 2021 г.). «Стойкие минимальные последовательности SARS-CoV-2» . Биоинформатика . 36 (21): 5129–5132. doi : 10.1093/биоинформатика/btaa686 . ПМК 7559010 . ПМИД 32730589 .