Классификация документов

Классификация документов или категоризация документов является проблемой в библиотечном деле , информатике и информатике . Задача состоит в том, чтобы отнести документ к одному или нескольким классам или категориям . Это можно сделать «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном была прерогативой библиотечного дела, тогда как алгоритмическая классификация документов в основном занималась информатикой и информатикой. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.

Документами, подлежащими классификации, могут быть тексты, изображения, музыка и т. д. Каждый вид документов имеет свои особые проблемы классификации. Если не указано иное, классификация текста подразумевается .

Документы можно классифицировать по их тематике или по другим признакам (например, типу документа, автору, году издания и т. д.). В оставшейся части статьи рассматривается только предметная классификация. Существует две основные философии предметной классификации документов: подход, основанный на содержании, и подход, основанный на запросах.

Классификация «на основе контента» и «на основе запроса»

Классификация на основе содержания — это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому относится документ. Например, общим правилом классификации в библиотеках является то, что не менее 20% содержания книги должно относиться к классу, к которому книга отнесена. ^{[ 1 ]} В автоматической классификации это может быть количество раз, когда данное слово появляется в документе.

Классификация, ориентированная на запросы (или индексация), — это классификация, при которой ожидаемый запрос пользователей влияет на классификацию документов. Классификатор задается вопросом: «По каким дескрипторам следует найти эту сущность?» и «подумайте обо всех возможных запросах и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230). ^{[ 2 ]}).

Классификация, ориентированная на запрос, может быть классификацией, ориентированной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных феминистских исследований могут классифицировать/индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию на основе политик : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно своего рода классификация или индексирование, основанное на исследованиях пользователей. Только если применяются эмпирические данные об использовании или пользователях, классификацию, ориентированную на запросы, следует рассматривать как подход, основанный на пользователях.

Классификация против индексации

Иногда проводится различие между отнесением документов к классам («классификация») и отнесением документов к предметам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие неэффективно. «Эти терминологические различия, — пишет он, — совершенно бессмысленны и служат лишь для того, чтобы вызвать путаницу» (Ланкастер, 2003, с. 21). ^{[ 3 ]}). Мнение о том, что это различие является чисто поверхностным, подтверждается также тем фактом, что классификационная система может быть преобразована в тезаурус и наоборот (ср.: Aitchison, 1986, ^{[ 4 ]} 2004; ^{[ 5 ]} Бротон, 2008 г.; ^{[ 6 ]} Ристуис и Блидунг, 1991 г. ^{[ 7 ]}). Следовательно, действие маркировки документа (скажем, путем присвоения документу термина из контролируемого словаря ) одновременно относит этот документ к классу документов, индексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к тот же класс документов). Другими словами, маркировка документа — это то же самое, что отнесение его к классу документов, индексированных под этой меткой.

Автоматическая классификация документов (ADC)

Задачи автоматической классификации документов можно разделить на три типа: контролируемая классификация документов , когда какой-либо внешний механизм (например, обратная связь от человека) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), когда классификация должна быть выполнена. полностью без ссылки на внешнюю информацию и полуконтролируемую классификацию документов , ^{[ 8 ]} где части документов помечены внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензий. ^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}^{[ 12 ]}^{[ 13 ]}^{[ 14 ]}

Техники

К методам автоматической классификации документов относятся:

Искусственная нейронная сеть
Концепция майнинга
Деревья решений, такие как ID3 или C4.5.
Максимизация ожиданий (ЕМ)
Мгновенно обучаемые нейронные сети
Скрытая семантическая индексация
Многоэкземплярное обучение
Наивный классификатор Байеса
к обработке естественного языка Подходы
Грубый классификатор на основе множеств
мягких множеств Классификатор на основе
Машины опорных векторов (SVM)
Алгоритмы K-ближайшего соседа
tf–idf

Приложения

Методы классификации были применены к

фильтрация спама - процесс, который пытается отличить спам-сообщения электронной почты от законных электронных писем.
электронной почты маршрутизация , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы ^{[ 15 ]}
идентификация языка , автоматическое определение языка текста
жанровая классификация, автоматически определяющая жанр текста ^{[ 16 ]}
оценка читаемости , автоматически определяющая степень читаемости текста либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более широкой упрощения текста. системы
анализ настроений , определяющий отношение говорящего или писателя к какой-либо теме или общей контекстуальной полярности документа.
классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здравоохранением ^{[ 17 ]}
сортировка статей, отбор статей, которые подходят для ручного управления литературой, например, как это делается в качестве первого шага по созданию вручную курируемых баз данных аннотаций по биологии. ^{[ 18 ]}

См. также

Ссылки

^ Библиотека Конгресса (2008). Руководство по предметным рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист Н 180: «Назначать заголовки только тем тем, которые составляют не менее 20% работы.»)
^ Зёргель, Дагоберт (1985). Организация информации: Принципы работы баз данных и поисковых систем . Орландо, Флорида: Academic Press.
^ Ланкастер, ФР (2003). Индексирование и абстрагирование в теории и практике. Библиотечная ассоциация, Лондон.
^ Эйчисон, Дж. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источник терминов и структуры тезауруса». Журнал документации, Vol. 42 № 3, стр. 160-181.
^ Эйчисон, Дж. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, полученном на основе расписания Bliss Music». Классификационный бюллетень Bliss, Vol. 46, стр. 20-26.
^ Бротон, В. (2008). « Фасетная классификация как основа фасетной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блисса (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.
^ Ристуис, GJA и Блидунг, ул. (1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2, стр. 109-117. Индекс Верлаг, Франкфурт.
^ Росси, Р.Г., Лопес, А.д. А. и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52(2):217–257.
^ «Интерактивный прототип автоматической классификации документов» (PDF) . Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 14 ноября 2017 г.
↑ Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.
^ Классификация документов - Артил
^ ABBYY FineReader Engine 11 для Windows
^ Классификатор - Антидот
^ «3 метода классификации документов для сложных проектов» . www.bisok.com . Проверено 4 августа 2021 г.
^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В книге Сергея Ниренбурга, Дугласа Аппельта, Фабио Чиравеньи и Роберта Дейла, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 101-1. 158–165, ПКС.
^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления доступа к информации, Лондон, Великобритания, стр. 54–63, заархивировано из оригинала (PDF) в 2019 г. -11-15 , получено 21 октября 2011 г. {{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здравоохранением: метод кластеризации на основе встраивания слов для классификации твитов», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. 1-7. дои : 10.1109/SECON.2017.7925400
^ Краллингер, М; Лейтнер, Ф; Родригес-Пенагос, центральный; Валенсия, А (2008). «Обзор задачи извлечения аннотаций белок-белкового взаимодействия в Bio Creative II» . Геномная биология . 9 (Приложение 2): S4. дои : 10.1186/gb-2008-9-s2-s4 . ПМК 2559988 . ПМИД 18834495 .

Дальнейшее чтение

Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста . Обзоры вычислений ACM, 34 (1): 1–47, 2002 г.
Стефан Бютчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. Архивировано 5 октября 2020 г. в Wayback Machine . МИТ Пресс, 2010.

Внешние ссылки

Введение в классификацию документов
Библиография по автоматизированной категоризации текста. Архивировано 26 сентября 2019 г. в Wayback Machine.
Библиография по классификации запросов. Архивировано 2 октября 2019 г. в Wayback Machine.
классификации текста Страница анализа
Учимся классифицировать текст - Гл. 6 книги «Обработка естественного языка с помощью Python» (доступно онлайн)
TechTC — Репозиторий наборов данных категоризации текста Технион, заархивированный 14 февраля 2020 г. на Wayback Machine.
Наборы данных Дэвида Д. Льюиса
Набор данных BioCreative III ACT (задача классификации статей)

[1] Библиотека Конгресса (2008). Руководство по предметным рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист Н 180: «Назначать заголовки только тем тем, которые составляют не менее 20% работы.»)

[2] Зёргель, Дагоберт (1985). Организация информации: Принципы работы баз данных и поисковых систем . Орландо, Флорида: Academic Press.

[3] Ланкастер, ФР (2003). Индексирование и абстрагирование в теории и практике. Библиотечная ассоциация, Лондон.

[4] Эйчисон, Дж. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источник терминов и структуры тезауруса». Журнал документации, Vol. 42 № 3, стр. 160-181.

[5] Эйчисон, Дж. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, полученном на основе расписания Bliss Music». Классификационный бюллетень Bliss, Vol. 46, стр. 20-26.

[6] Бротон, В. (2008). « Фасетная классификация как основа фасетной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блисса (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.

[7] Ристуис, GJA и Блидунг, ул. (1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2, стр. 109-117. Индекс Верлаг, Франкфурт.

[8] Росси, Р.Г., Лопес, А.д. А. и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52(2):217–257.

[9] «Интерактивный прототип автоматической классификации документов» (PDF) . Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 14 ноября 2017 г.

[10] Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.

[11] Классификация документов - Артил

[12] ABBYY FineReader Engine 11 для Windows

[13] Классификатор - Антидот

[14] «3 метода классификации документов для сложных проектов» . www.bisok.com . Проверено 4 августа 2021 г.

[15] Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В книге Сергея Ниренбурга, Дугласа Аппельта, Фабио Чиравеньи и Роберта Дейла, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 101-1. 158–165, ПКС.

[16] Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления доступа к информации, Лондон, Великобритания, стр. 54–63, заархивировано из оригинала (PDF) в 2019 г. -11-15 , получено 21 октября 2011 г. {{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[17] X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здравоохранением: метод кластеризации на основе встраивания слов для классификации твитов», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. 1-7. дои : 10.1109/SECON.2017.7925400

[:0-18] Краллингер, М; Лейтнер, Ф; Родригес-Пенагос, центральный; Валенсия, А (2008). «Обзор задачи извлечения аннотаций белок-белкового взаимодействия в Bio Creative II» . Геномная биология . 9 (Приложение 2): S4. дои : 10.1186/gb-2008-9-s2-s4 . ПМК 2559988 . ПМИД 18834495 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]