Кластеризация документов

Кластеризация документов (или кластеризация текста ) — это применение кластерного анализа к текстовым документам. Он имеет приложения для автоматической организации документов, извлечения тем и быстрого поиска или фильтрации информации .

Обзор

Кластеризация документов предполагает использование дескрипторов и извлечение дескрипторов. Дескрипторы — это наборы слов, которые описывают содержимое кластера. Кластеризация документов обычно считается централизованным процессом. Примеры кластеризации документов включают кластеризацию веб-документов для пользователей поиска.

Применение кластеризации документов можно разделить на два типа: онлайн и офлайн. Онлайн-приложения обычно ограничены проблемами эффективности по сравнению с автономными приложениями. Кластеризация текста может использоваться для различных задач, таких как группировка похожих документов (новости, твиты и т. д.) и анализ отзывов клиентов/сотрудников, обнаружение значимых неявных тем во всех документах.

В целом существует два распространенных алгоритма. Первый — это иерархический алгоритм, который включает в себя одиночное звено, полное связывание, среднее значение по группе и метод Уорда. Путем агрегирования или разделения документы можно сгруппировать в иерархическую структуру, удобную для просмотра. Однако такой алгоритм обычно страдает от проблем с эффективностью. Другой алгоритм разработан с использованием алгоритма K-средних и его вариантов. Обычно иерархические алгоритмы предоставляют более глубокую информацию для детального анализа, тогда как алгоритмы, основанные на вариантах алгоритма K-средних, более эффективны и предоставляют достаточную информацию для большинства целей. ^[1]^{: Глава 14}

Эти алгоритмы можно далее классифицировать как алгоритмы жесткой и мягкой кластеризации. При жесткой кластеризации выполняется жесткое присвоение: каждый документ является членом ровно одного кластера. Назначение алгоритмов мягкой кластеризации является мягким – назначение документа представляет собой распределение по всем кластерам. При мягком присвоении документ имеет частичное членство в нескольких кластерах. ^[1]^: 499 Методы уменьшения размерности можно считать подтипом мягкой кластеризации; для документов они включают скрытую семантическую индексацию ( разложение усеченного сингулярного значения на гистограммах терминов) ^[2] и тематические модели .

Другие алгоритмы включают кластеризацию на основе графов, онтологий кластеризацию с поддержкой и кластеризацию с учетом порядка.

При наличии кластеризации может быть полезно автоматически получать удобочитаемые метки для кластеров. различные методы Для этой цели существуют .

Кластеризация в поисковых системах

часто Поисковая система в Интернете возвращает тысячи страниц в ответ на широкий запрос, что затрудняет пользователям просмотр или идентификацию соответствующей информации. Методы кластеризации можно использовать для автоматической группировки полученных документов в список значимых категорий.

Процедуры

На практике кластеризация документов часто состоит из следующих шагов:

1. Токенизация

Токенизация — это процесс анализа текстовых данных на более мелкие единицы (токены), такие как слова и фразы. Обычно используемые методы токенизации включают модель «мешка слов» и модель N-граммы .

2. Стемминг и лемматизация

Разные токены могут нести аналогичную информацию (например, токенизация и токенизация). И мы можем избежать повторного вычисления аналогичной информации, приведя все токены к базовой форме, используя различные словари стемминга и лемматизации.

3. Удаление стоп-слов и знаков препинания.

Некоторые токены менее важны, чем другие. Например, общие слова, такие как «the», могут оказаться не очень полезными для раскрытия основных характеристик текста. Поэтому обычно перед дальнейшим анализом рекомендуется удалить стоп-слова и знаки препинания.

4. Вычисление частот терминов или tf-idf

После предварительной обработки текстовых данных мы можем приступить к созданию функций. Для кластеризации документов одним из наиболее распространенных способов создания признаков документа является вычисление частот терминов всех его токенов. Хотя эти частоты и не идеальны, они обычно могут дать некоторые подсказки о теме документа. Иногда также полезно взвешивать частоты терминов по обратным частотам документов. См. tf-idf для подробного обсуждения.

5. Кластеризация

Затем мы можем кластеризовать различные документы на основе созданных нами функций. См. раздел «Алгоритмы» в кластерном анализе, чтобы узнать о различных типах методов кластеризации.

6. Оценка и визуализация

Наконец, модели кластеризации можно оценивать по различным показателям. Иногда бывает полезно визуализировать результаты, отображая кластеры в низкомерном (двумерном) пространстве. Рассматривайте многомерное масштабирование как возможный подход.

Кластеризация против классификации

Алгоритмы кластеризации в вычислительном анализе текста группируют документы в набор текста, который называется подмножеством или кластером , где целью алгоритма является создание внутренне согласованных кластеров, отличных друг от друга. ^[3] Классификация, с другой стороны, представляет собой форму обучения с учителем , при которой характеристики документов используются для прогнозирования «типа» документов.

См. также

Ссылки

^ Перейти обратно: ^а ^б Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press. Кембридж, Массачусетс: май 1999 г.
^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf ^{[ пустой URL PDF ]}
^ «Введение в поиск информации» . nlp.stanford.edu . п. 349 . Проверено 3 мая 2016 г.

Библиография

Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Плоская кластеризация во введении в поиск информации. Издательство Кембриджского университета. 2008 год
Николас О. Эндрюс и Эдвард А. Фокс, Последние достижения в кластеризации документов, 16 октября 2007 г. [1]
Клаудио Карпинето, Станислав Осинский, Джованни Романо, Давид Вайс. Обзор механизмов веб-кластеризации. Обзоры ACM Computing, том 41, выпуск 3 (июль 2009 г.), статья № 17, ISSN 0360-0300
Вуи Ли Чанг, Кай Мэн Тай и Чи Пенг Лим, Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов, письма о нейронной обработке, DOI: 10.1007/s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3

[manning-1] Перейти обратно: ^а ^б Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press. Кембридж, Массачусетс: май 1999 г.

[2] ttp://nlp.stanford.edu/IR-book/pdf/16flat.pdf ^{[ пустой URL PDF ]}

[3] «Введение в поиск информации» . nlp.stanford.edu . п. 349 . Проверено 3 мая 2016 г.

[1]

[2]

[3]