Jump to content

Обобщенное суффиксное дерево

Суффиксное дерево для строк ABAB и BABA. Суффиксные ссылки не показаны.

В информатике обобщенное суффиксное дерево — это суффиксное дерево для набора строк . Учитывая набор строк общей длины , это дерево Патриции, содержащее все суффиксы строк. Чаще всего он используется в биоинформатике . [ 1 ]

Функциональность

[ редактировать ]

Он может быть встроен время и пространство, и может быть использован для нахождения всех вхождения строки длины в время, которое является асимптотически оптимальным (при условии, что размер алфавита постоянный [ 2 ] : 119  ).

При построении такого дерева каждая строка должна быть дополнена уникальным символом-маркером (или строкой), не входящим в алфавит, чтобы гарантировать, что ни один суффикс не является подстрокой другого, гарантируя, что каждый суффикс представлен уникальным листовым узлом.

Алгоритмы построения GST включают алгоритм Укконена (1995) и алгоритм МакКрейта (1976).

Суффиксное дерево для строк ABAB и BABA показано на рисунке выше. Они дополнены уникальными строками терминатора. $0 и $1. Числа в конечных узлах — это номер строки и начальная позиция. Обратите внимание, что обход листовых узлов слева направо соответствует отсортированному порядку суффиксов. Терминаторами могут быть строки или уникальные одиночные символы. Края включены $ от корня в этом примере опущены.

Альтернативы

[ редактировать ]

Альтернативой построению обобщенного суффиксного дерева является объединение строк и построение обычного суффиксного дерева или массива суффиксов для полученной строки. Когда попадания оцениваются после поиска, глобальные позиции сопоставляются с документами и локальными позициями с помощью некоторого алгоритма и/или структуры данных, например двоичного поиска в начальных/конечных позициях документов.

  1. ^ Пол Бигански; Джон Ридл; Джон Карлис; Эрнест Ф. Ретцель (1994). «Обобщенные суффиксные деревья для данных о биологических последовательностях». Вычислять биотехнологии, Труды двадцать седьмой Гавайской международной конференции дальше . стр. 35–44. дои : 10.1109/HICSS.1994.323593 .
  2. ^ Гасфилд, Дэн (1999) [1997]. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология . США: Издательство Кембриджского университета. ISBN  978-0-521-58519-4 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ce3b77005914d388d99d80a03c436901__1646979300
URL1:https://arc.ask3.ru/arc/aa/ce/01/ce3b77005914d388d99d80a03c436901.html
Заголовок, (Title) документа по адресу, URL1:
Generalized suffix tree - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)