Обобщенное суффиксное дерево

ABAB
и BABA
. Суффиксные ссылки не показаны. В информатике обобщенное суффиксное дерево — это суффиксное дерево для набора строк . Учитывая набор строк общей длины , это дерево Патриции, содержащее все суффиксы строк. Чаще всего он используется в биоинформатике . [ 1 ]
Функциональность
[ редактировать ]Он может быть встроен время и пространство, и может быть использован для нахождения всех вхождения строки длины в время, которое является асимптотически оптимальным (при условии, что размер алфавита постоянный [ 2 ] : 119 ).
При построении такого дерева каждая строка должна быть дополнена уникальным символом-маркером (или строкой), не входящим в алфавит, чтобы гарантировать, что ни один суффикс не является подстрокой другого, гарантируя, что каждый суффикс представлен уникальным листовым узлом.
Алгоритмы построения GST включают алгоритм Укконена (1995) и алгоритм МакКрейта (1976).
Пример
[ редактировать ]Суффиксное дерево для строк ABAB
и BABA
показано на рисунке выше. Они дополнены уникальными строками терминатора. $0
и $1
. Числа в конечных узлах — это номер строки и начальная позиция. Обратите внимание, что обход листовых узлов слева направо соответствует отсортированному порядку суффиксов. Терминаторами могут быть строки или уникальные одиночные символы. Края включены $
от корня в этом примере опущены.
Альтернативы
[ редактировать ]Альтернативой построению обобщенного суффиксного дерева является объединение строк и построение обычного суффиксного дерева или массива суффиксов для полученной строки. Когда попадания оцениваются после поиска, глобальные позиции сопоставляются с документами и локальными позициями с помощью некоторого алгоритма и/или структуры данных, например двоичного поиска в начальных/конечных позициях документов.
Ссылки
[ редактировать ]- ^ Пол Бигански; Джон Ридл; Джон Карлис; Эрнест Ф. Ретцель (1994). «Обобщенные суффиксные деревья для данных о биологических последовательностях». Вычислять биотехнологии, Труды двадцать седьмой Гавайской международной конференции дальше . стр. 35–44. дои : 10.1109/HICSS.1994.323593 .
- ^ Гасфилд, Дэн (1999) [1997]. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология . США: Издательство Кембриджского университета. ISBN 978-0-521-58519-4 .
Внешние ссылки
[ редактировать ]СМИ, связанные с обобщенным суффиксным деревом, на Викискладе?
- Реализация обобщенного суффиксного дерева AC для двух строк