Jump to content

Алгоритм Укконена

В информатике построения алгоритм Укконена с линейным временем — это онлайн-алгоритм суффиксных деревьев , предложенный Эско Укконеном в 1995 году. [ 1 ] Алгоритм начинается с неявного суффиксного дерева, содержащего первый символ строки. Затем он проходит по строке, добавляя последовательные символы, пока дерево не будет завершено. Такой порядок сложения символов придает алгоритму Укконена свойство «онлайн». Оригинальный алгоритм, представленный Питером Вайнером, действовал в обратном порядке от последнего символа к первому, от самого короткого к самому длинному суффиксу. [ 2 ] Более простой алгоритм был найден Эдвардом М. МакКрайтом , идущим от самого длинного суффикса к самому короткому. [ 3 ]

Неявное суффиксное дерево

[ редактировать ]

При создании суффиксного дерева с использованием алгоритма Укконена мы увидим неявное суффиксное дерево на промежуточных шагах в зависимости от символов в строке S. В неявных суффиксных деревьях не будет ребра с меткой $ (или любого другого символа завершения) и внутреннего узла с только один край выходит из него.

Высокоуровневое описание алгоритма Укконена

[ редактировать ]

Алгоритм Укконена строит неявное суффиксное дерево T i для каждого префикса S[1...i] из S (S — строка длины n). Сначала он строит T 1, используя 1 ул. символ, затем T 2, используя 2 nd символ, затем T 3, используя 3 р-д символ, ..., T n с использованием n й характер. В суффиксном дереве, использующем алгоритм Укконена, можно найти следующие характеристики:

  • Неявное суффиксное дерево Ti +1 строится на основе неявного суффиксного дерева Ti .
  • В любой момент времени алгоритм Укконена строит суффиксное дерево для уже увиденных символов, поэтому оно обладает свойством онлайн , что позволяет алгоритму иметь время выполнения O (n).
  • Алгоритм Укконена разделен на n этапов (по одному этапу на каждый символ строки длиной n).
  • Каждая фаза i+1 далее делится на i+1 расширений, по одному на каждый из i+1 суффиксов S[1...i+1].

Расширение суффикса заключается в добавлении следующего символа в построенное на данный момент дерево суффиксов. В расширении j фазы i+1 алгоритм находит конец S[j...i] (который уже находится в дереве из-за предыдущей фазы i), а затем расширяет S[j...i], чтобы быть уверенным. суффикс S[j...i+1] находится в дереве. Существует три правила расширения:

  1. Если путь от корня с меткой S[j...i] заканчивается на краю листа (т. е. S[i] является последним символом на краю листа), то символ S[i+1] просто добавляется в конец этикетка на краю листа.
  2. если путь от корня с меткой S[j...i] заканчивается на нелистовом ребре (т. е. после S[i] в ​​пути есть еще символы) и следующий символ не S[i+1], то создается новое ребро листа с меткой S[i+1] и номером j, начиная с символа S[i+1]. Новый внутренний узел также будет создан, если S[1...i] заканчивается внутри (между) нелистового ребра.
  3. Если путь от корня с меткой S[j..i] заканчивается на нелистовом ребре (т. е. после S[i] в ​​пути есть еще символы) и следующим символом является S[i+1] (уже в дереве ), ничего не делать.

Следует отметить один важный момент: от данного узла (корневого или внутреннего) будет одно и только одно ребро, начинающееся с одного символа. Из любого узла, начинающегося с одного и того же символа, не будет выходить более одного ребра.

Время выполнения

[ редактировать ]

Простая реализация для создания суффиксного дерева в дальнейшем требует O ( n 2 ) или даже O ( n 3 ) временная сложность в big O нотации , где n — длина строки. Используя ряд алгоритмических методов, Укконен сократил это время до O ( n ) (линейного) для алфавитов постоянного размера и до O ( n log n ) в целом, что соответствует производительности во время выполнения двух предыдущих алгоритмов.

Пример алгоритма Укконена

[ редактировать ]
Итоговое суффиксное дерево с использованием алгоритма Укконена (пример).

Чтобы лучше проиллюстрировать, как строится суффиксное дерево с использованием алгоритма Укконена, мы можем рассмотреть строку S = xabxac.

  1. Начните с пустого корневого узла.
  2. Построить для S[1] добавив первый символ строки. Применяется правило 2, которое создает новый листовой узел.
  3. Построить для S[1..2] путем добавления суффиксов xa ( xa и a). Применяется правило 1, которое расширяет метку пути на существующем краю листа. Применяется правило 2, которое создает новый листовой узел.
  4. Построить для S[1..3] путем добавления суффиксов xab ( xab, ab и b). Применяется правило 1, которое расширяет метку пути на существующем краю листа. Применяется правило 2, которое создает новый листовой узел.
  5. Построить для S[1..4] путем добавления суффиксов xabx ( xabx, abx, bx и x). Применяется правило 1, которое расширяет метку пути на существующем краю листа. Применяется правило 3: ничего не делайте.
  6. Конструкции для S[1..5] путем добавления суффиксов xabxa ( xabxa, abxa, bxa, xa и a). Применяется правило 1, которое расширяет метку пути на существующем краю листа. Применяется правило 3: ничего не делайте.
  7. Конструкции для S[1..6] путем добавления суффиксов xabxac ( xabxac, abxac, bxac, xac, ac и c). Применяется правило 1, которое расширяет метку пути на существующем краю листа. Применяется правило 2, которое создает новый листовой узел (в этом случае создаются три новых ребра листа и два новых внутренних узла).


  1. ^ Укконен, Э. (1995). «Онлайн-построение суффиксных деревьев» (PDF) . Алгоритмика . 14 (3): 249–260. CiteSeerX   10.1.1.10.751 . дои : 10.1007/BF01206331 . S2CID   6027556 ​​.
  2. ^ Вайнер, Питер (1973). «Алгоритмы сопоставления линейных образцов» (PDF) . 14-й ежегодный симпозиум по теории коммутации и автоматов (SWAT 1973) . стр. 1–11. CiteSeerX   10.1.1.474.9582 . дои : 10.1109/SWAT.1973.13 .
  3. ^ МакКрайт, Эдвард Мейерс (1976). «Алгоритм построения суффиксного дерева с экономикой пространства». Журнал АКМ . 23 (2): 262–272. CiteSeerX   10.1.1.130.8022 . дои : 10.1145/321941.321946 . S2CID   9250303 .
[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5d755d49d4d3446a1c7a4e41286b1d66__1711477020
URL1:https://arc.ask3.ru/arc/aa/5d/66/5d755d49d4d3446a1c7a4e41286b1d66.html
Заголовок, (Title) документа по адресу, URL1:
Ukkonen's algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)