Jump to content

Кластеризация документов

Кластеризация документов (или кластеризация текста ) — это применение кластерного анализа к текстовым документам. Он имеет приложения для автоматической организации документов, извлечения тем и быстрого поиска или фильтрации информации .

Кластеризация документов предполагает использование дескрипторов и извлечение дескрипторов. Дескрипторы — это наборы слов, которые описывают содержимое кластера. Кластеризация документов обычно считается централизованным процессом. Примеры кластеризации документов включают кластеризацию веб-документов для пользователей поиска.

Применение кластеризации документов можно разделить на два типа: онлайн и офлайн. Онлайн-приложения обычно ограничены проблемами эффективности по сравнению с автономными приложениями. Кластеризация текста может использоваться для различных задач, таких как группировка похожих документов (новости, твиты и т. д.) и анализ отзывов клиентов/сотрудников, обнаружение значимых неявных тем во всех документах.

В целом существует два распространенных алгоритма. Первый — это иерархический алгоритм, который включает в себя одиночное звено, полное связывание, среднее значение по группе и метод Уорда. Путем агрегирования или разделения документы можно сгруппировать в иерархическую структуру, удобную для просмотра. Однако такой алгоритм обычно страдает от проблем с эффективностью. Другой алгоритм разработан с использованием алгоритма K-средних и его вариантов. Обычно иерархические алгоритмы предоставляют более глубокую информацию для детального анализа, тогда как алгоритмы, основанные на вариантах алгоритма K-средних, более эффективны и предоставляют достаточную информацию для большинства целей. [1] : Глава 14

Эти алгоритмы можно далее классифицировать как алгоритмы жесткой и мягкой кластеризации. При жесткой кластеризации выполняется жесткое присвоение: каждый документ является членом ровно одного кластера. Назначение алгоритмов мягкой кластеризации является мягким – назначение документа представляет собой распределение по всем кластерам. При мягком присвоении документ имеет частичное членство в нескольких кластерах. [1] : 499  Методы уменьшения размерности можно считать подтипом мягкой кластеризации; для документов они включают скрытую семантическую индексацию ( разложение усеченного сингулярного значения на гистограммах терминов) [2] и тематические модели .

Другие алгоритмы включают кластеризацию на основе графов, онтологий кластеризацию с поддержкой и кластеризацию с учетом порядка.

При наличии кластеризации может быть полезно автоматически получать удобочитаемые метки для кластеров. различные методы Для этой цели существуют .

Кластеризация в поисковых системах

[ редактировать ]

часто Поисковая система в Интернете возвращает тысячи страниц в ответ на широкий запрос, что затрудняет пользователям просмотр или идентификацию соответствующей информации. Методы кластеризации можно использовать для автоматической группировки полученных документов в список значимых категорий.

Процедуры

[ редактировать ]

На практике кластеризация документов часто состоит из следующих шагов:

1. Токенизация

Токенизация — это процесс анализа текстовых данных на более мелкие единицы (токены), такие как слова и фразы. Обычно используемые методы токенизации включают модель «мешка слов» и модель N-граммы .

2. Стемминг и лемматизация

Разные токены могут нести аналогичную информацию (например, токенизация и токенизация). И мы можем избежать повторного вычисления аналогичной информации, приведя все токены к базовой форме, используя различные словари стемминга и лемматизации.

3. Удаление стоп-слов и знаков препинания.

Некоторые токены менее важны, чем другие. Например, общие слова, такие как «the», могут оказаться не очень полезными для раскрытия основных характеристик текста. Поэтому обычно перед дальнейшим анализом рекомендуется удалить стоп-слова и знаки препинания.

4. Вычисление частот терминов или tf-idf

После предварительной обработки текстовых данных мы можем приступить к созданию функций. Для кластеризации документов одним из наиболее распространенных способов создания признаков документа является вычисление частот терминов всех его токенов. Хотя эти частоты и не идеальны, они обычно могут дать некоторые подсказки о теме документа. Иногда также полезно взвешивать частоты терминов по обратным частотам документов. См. tf-idf для подробного обсуждения.

5. Кластеризация

Затем мы можем кластеризовать различные документы на основе созданных нами функций. См. раздел «Алгоритмы» в кластерном анализе, чтобы узнать о различных типах методов кластеризации.

6. Оценка и визуализация

Наконец, модели кластеризации можно оценивать по различным показателям. Иногда бывает полезно визуализировать результаты, отображая кластеры в низкомерном (двумерном) пространстве. Рассматривайте многомерное масштабирование как возможный подход.

Кластеризация против классификации

[ редактировать ]

Алгоритмы кластеризации в вычислительном анализе текста группируют документы в набор текста, который называется подмножеством или кластером , где целью алгоритма является создание внутренне согласованных кластеров, отличных друг от друга. [3] Классификация, с другой стороны, представляет собой форму обучения с учителем , при которой характеристики документов используются для прогнозирования «типа» документов.

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press. Кембридж, Массачусетс: май 1999 г.
  2. ^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf [ пустой URL PDF ]
  3. ^ «Введение в поиск информации» . nlp.stanford.edu . п. 349 . Проверено 3 мая 2016 г.

Библиография

[ редактировать ]
  • Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Плоская кластеризация во введении в поиск информации. Издательство Кембриджского университета. 2008 год
  • Николас О. Эндрюс и Эдвард А. Фокс, Последние достижения в кластеризации документов, 16 октября 2007 г. [1]
  • Клаудио Карпинето, Станислав Осинский, Джованни Романо, Давид Вайс. Обзор механизмов веб-кластеризации. Обзоры ACM Computing, том 41, выпуск 3 (июль 2009 г.), статья № 17, ISSN   0360-0300
  • Вуи Ли Чанг, Кай Мэн Тай и Чи Пенг Лим, Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов, письма о нейронной обработке, DOI: 10.1007/s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f963d3bae79fef47a257470835dcbea6__1680116880
URL1:https://arc.ask3.ru/arc/aa/f9/a6/f963d3bae79fef47a257470835dcbea6.html
Заголовок, (Title) документа по адресу, URL1:
Document clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)