ш-черепица
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Март 2023 г. ) |
При обработке естественного языка w - шинлинг представляет собой набор уникальных шинглов (следовательно, -грамм ), каждый из которых состоит из смежных подпоследовательностей токенов n внутри документа , которые затем можно использовать для установления сходства между документами . Символ w обозначает количество жетонов в каждой выбранной или решенной шингле.
Таким образом, документ «роза есть роза есть роза» может быть максимально токенизирован следующим образом:
- (а,роза,есть,а,роза,есть,а,роза)
Набор (таким образом , всех смежных последовательностей из 4 токенов 4 = n , следовательно, 4- граммы ) равен
- { (а,роза,есть,а), (роза,есть,а,роза), (есть,а,роза,есть), (а,роза,есть,а), (роза,есть,а,роза) } Который затем можно сократить или максимально ограничить в данном конкретном случае до { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }.
Сходство
[ редактировать ]Для данного размера гонта степень сходства двух документов A и B друг с другом может быть выражена как отношение величин пересечения и объединения их гонтов , или
где |А| — размер набора A. Сходство — это число в диапазоне [0,1], где 1 указывает на то, что два документа идентичны. Это определение идентично коэффициенту Жаккара, описывающему сходство и разнообразие наборов выборок.
См. также
[ редактировать ]- Модель «Мешок слов»
- Концепция майнинга
- к -больше
- Минхеш
- N-грамм
- Отпечаток пальца Рабина
- Роллинг хеша
- Векторная космическая модель
Ссылки
[ редактировать ]![]() |
- Бродер; Глассман; Манассе; Цвейг (1997). «Синтаксическая кластеризация Интернета» . Техническая нота SRC № 1997-015 .
- Манбер (1993). «Поиск похожих файлов в большой файловой системе» (PDF) . Пока не использует термин «черепица».
- Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (7 июля 2008 г.). "ш-шинглинг" . Введение в поиск информации . Издательство Кембриджского университета. ISBN 978-1-139-47210-4 .