Индекс подстроки
Эта статья нуждается в дополнительных цитатах для проверки . ( декабрь 2021 г. ) |
В информатике индекс подстроки — это структура данных , которая обеспечивает поиск подстроки в тексте или текстовой коллекции в сублинейном времени. Если у вас есть документ длины или комплект документов общей длины , вы можете найти все вхождения шаблона в время. (См. Big O. обозначение )
Фраза « полнотекстовый индекс» также часто используется для индекса всех подстрок текста. Но это неоднозначно, поскольку оно также используется для обычных индексов слов, таких как инвертированные файлы и поиск документов . Смотрите полнотекстовый поиск .
Индексы подстрок включают в себя:
- Суффиксное дерево
- Суффиксный массив
- Индекс N-грамм, инвертированный файл для всех N-грамм текста.
- Сжатый массив суффиксов [1]
- FM-индекс
- Индекс ЛЗ
Ссылки
[ редактировать ]- ^ Р. Гросси и Дж. С. Виттер, Сжатые суффиксные массивы и суффиксные деревья с приложениями к индексированию текста и сопоставлению строк , SIAM Journal on Computing, 35 (2), 2005, 378–407.