Кластеризация суффиксного дерева
Кластеризация суффиксного дерева , часто сокращенно STC, представляет собой подход к кластеризации, в котором используются суффиксные деревья . [ 1 ] Кластер суффиксного дерева отслеживает все n-граммы любой заданной длины, которые должны быть вставлены в заданную строку слов , одновременно позволяя вставлять различные строки постепенно в линейном порядке. Преимущество этого подхода заключается в том, что можно последовательно обрабатывать большое количество кластеров. Однако потенциальным недостатком может быть то, что это также увеличивает количество возможных документов, которые необходимо просмотреть при обработке больших наборов данных . Кластеры суффиксного дерева могут быть декомпозиционными или агломеративными по своей природе, в зависимости от типа обрабатываемых данных. [ 2 ]
Ссылки
[ редактировать ]- ^ Брэнсон, Стив; Гринберг, Ари. «Кластеризация результатов веб-поиска с использованием методов суффиксного дерева, окончательный проект CS276A» (PDF) . www.stanford.edu . Стэнфордский университет . Проверено 2 января 2015 г.
- ^ Дэвис, Эрнест. «Лекция 4: Кластеризация» . www.cs.nyu.edu . Нью-Йоркский университет . Проверено 2 января 2015 г.