Jump to content

Классификация документов

Классификация документов или категоризация документов является проблемой в библиотечном деле , информатике и информатике . Задача состоит в том, чтобы отнести документ к одному или нескольким классам или категориям . Это можно сделать «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном находилась в сфере библиотечного дела, тогда как алгоритмическая классификация документов в основном находилась в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.

Документами, подлежащими классификации, могут быть тексты, изображения, музыка и т. д. Каждый вид документов имеет свои особые проблемы классификации. Если не указано иное, классификация текста подразумевается .

Документы можно классифицировать по их тематике или по другим признакам (например, типу документа, автору, году издания и т. д.). В оставшейся части статьи рассматривается только предметная классификация. Существует две основные философии предметной классификации документов: подход, основанный на содержании, и подход, основанный на запросах.

Классификация «на основе контента» и «на основе запроса» [ править ]

Классификация на основе содержания — это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому относится документ. Например, общепринятым правилом классификации в библиотеках является то, что не менее 20% содержания книги должно относиться к классу, к которому книга отнесена. [1] В автоматической классификации это может быть количество раз, когда данное слово появляется в документе.

Классификация, ориентированная на запросы (или индексация), — это классификация, при которой ожидаемый запрос пользователей влияет на классификацию документов. Классификатор задается вопросом: «По каким дескрипторам следует найти эту сущность?» и «подумайте обо всех возможных запросах и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230). [2] ).

Классификация, ориентированная на запрос, может быть классификацией, ориентированной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных феминистских исследований могут классифицировать/индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию на основе политик : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно своего рода классификация или индексирование, основанное на исследованиях пользователей. Только если применяются эмпирические данные об использовании или пользователях, классификацию, ориентированную на запросы, следует рассматривать как подход, основанный на пользователях.

Классификация против индексации [ править ]

Иногда проводится различие между отнесением документов к классам («классификация») и отнесением документов к предметам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие неэффективно. «Эти терминологические различия, — пишет он, — совершенно бессмысленны и служат лишь для того, чтобы вызвать путаницу» (Ланкастер, 2003, с. 21). [3] ). Мнение о том, что это различие является чисто поверхностным, подтверждается также тем фактом, что классификационная система может быть преобразована в тезаурус и наоборот (ср.: Aitchison, 1986, [4] 2004; [5] Бротон, 2008 г.; [6] Ристуис и Блидунг, 1991 г. [7] ). Следовательно, действие маркировки документа (скажем, путем присвоения документу термина из контролируемого словаря ) одновременно относит этот документ к классу документов, индексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к тот же класс документов). Другими словами, маркировка документа — это то же самое, что отнесение его к классу документов, индексированных под этой меткой.

Автоматическая классификация документов (ADC) [ править ]

Задачи автоматической классификации документов можно разделить на три типа: контролируемая классификация документов , когда какой-либо внешний механизм (например, обратная связь от человека) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), когда классификация должна быть выполнена. полностью без ссылки на внешнюю информацию и полуконтролируемую классификацию документов , [8] где части документов помечены внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензий. [9] [10] [11] [12] [13] [14]

Техники [ править ]

К методам автоматической классификации документов относятся:

Приложения [ править ]

Методы классификации были применены к

  • фильтрация спама — процесс, который пытается отличить спам-сообщения электронной почты от законных электронных писем.
  • электронной почты маршрутизация , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы [15]
  • идентификация языка , автоматическое определение языка текста
  • жанровая классификация, автоматически определяющая жанр текста [16]
  • оценка читабельности , автоматически определяющая степень читаемости текста либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более широкой упрощения текста. системы
  • анализ настроений , определяющий отношение говорящего или писателя по отношению к какой-либо теме или общей контекстуальной полярности документа.
  • классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здравоохранением [17]
  • сортировка статей, отбор статей, которые подходят для ручного управления литературой, например, как это делается в качестве первого шага по созданию вручную курируемых баз данных аннотаций по биологии. [18]

См. также [ править ]

Ссылки [ править ]

  1. ^ Библиотека Конгресса (2008). Руководство по предметным рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист Н 180: «Назначать заголовки только тем тем, которые составляют не менее 20% работы.»)
  2. ^ Зёргель, Дагоберт (1985). Организация информации: Принципы работы баз данных и поисковых систем . Орландо, Флорида: Academic Press.
  3. ^ Ланкастер, ФР (2003). Индексирование и абстрагирование в теории и практике. Библиотечная ассоциация, Лондон.
  4. ^ Эйчисон, Дж. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источник терминов и структуры тезауруса». Журнал документации, Vol. 42 № 3, стр. 160-181.
  5. ^ Эйчисон, Дж. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, полученном на основе расписания Bliss Music». Классификационный бюллетень Bliss, Vol. 46, стр. 20-26.
  6. ^ Бротон, В. (2008). « Фасетная классификация как основа фасетной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блисса (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.
  7. ^ Ристуис, GJA и Блидунг, ул. (1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2, стр. 109-117. Индекс Верлаг, Франкфурт.
  8. ^ Росси, Р.Г., Лопес, А.д. А. и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов .Обработка информации и управление, 52(2):217–257.
  9. ^ «Интерактивный прототип автоматической классификации документов» (PDF) . Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 14 ноября 2017 г.
  10. Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.
  11. ^ Классификация документов - Артил
  12. ^ ABBYY FineReader Engine 11 для Windows
  13. ^ Классификатор - Антидот
  14. ^ «3 метода классификации документов для сложных проектов» . www.bisok.com . Проверено 4 августа 2021 г.
  15. ^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В книге Сергея Ниренбурга, Дугласа Аппельта, Фабио Чиравеньи и Роберта Дейла, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158–165, ACL.
  16. ^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления доступа к информации, Лондон, Великобритания, стр. 54–63, заархивировано из оригинала (PDF) в 2019 г. -11-15 , получено 21 октября 2011 г. {{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  17. ^ X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здравоохранением: метод кластеризации на основе встраивания слов для классификации Twitter», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. 1-7. дои : 10.1109/SECON.2017.7925400
  18. ^ Краллингер, М; Лейтнер, Ф; Родригес-Пенагос, центральный; Валенсия, А (2008). «Обзор задачи извлечения аннотаций белок-белкового взаимодействия в Bio Creative II» . Геномная биология . 9 (Приложение 2): S4. дои : 10.1186/gb-2008-9-s2-s4 . ПМК   2559988 . ПМИД   18834495 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c4850ef2d284d1b9394dcc707d34a13a__1714809180
URL1:https://arc.ask3.ru/arc/aa/c4/3a/c4850ef2d284d1b9394dcc707d34a13a.html
Заголовок, (Title) документа по адресу, URL1:
Document classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)