Матрица документ-терминов
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2021 г. ) |
— Матрица терминов документа это математическая матрица , описывающая частоту терминов, встречающихся в каждом документе коллекции. В матрице «документ-термин» строки соответствуют документам в коллекции, а столбцы — терминам. Эта матрица представляет собой конкретный экземпляр матрицы функций документа , где «функции» могут относиться к другим свойствам документа, помимо терминов. [1] Также часто встречается транспонирование или матрица терминов-документов , где документы представляют собой столбцы, а термины — строки. Они полезны в области обработки естественного языка и компьютерного анализа текста . [2]
Хотя значение ячеек обычно представляет собой необработанный счетчик данного термина, существуют различные схемы взвешивания необработанных счетчиков, такие как нормализация строк (т.е. относительная частота/пропорции) и tf-idf .
Термины обычно представляют собой отдельные слова, разделенные пробелами или знаками препинания с обеих сторон (также известные как униграммы). В таком случае это также называется представлением «мешка слов», поскольку сохраняется количество отдельных слов, но не порядок слов в документе.
Общая концепция [ править ]
При создании набора данных терминов , которые появляются в корпусе документов , матрица терминов документа содержит строки, соответствующие документам, и столбцы, соответствующие терминам. Таким образом, каждая ячейка ij представляет собой количество раз, когда слово j встречается в документе i . Таким образом, каждая строка представляет собой вектор количества терминов, который представляет содержимое документа, соответствующего этой строке. Например, если у вас есть следующие два (коротких) документа:
- D1 = «Мне нравятся базы данных»
- D2 = "Я не люблю базы данных",
тогда матрица терминов документа будет такой:
я | нравиться | не нравится | базы данных | |
---|---|---|---|---|
Д1 | 1 | 1 | 0 | 1 |
Д2 | 1 | 0 | 1 | 1 |
который показывает, какие документы какие термины содержат и сколько раз они встречаются. Обратите внимание, что в отличие от представления документа в виде простого списка токенов, матрица терминов документа включает все термины в корпусе (т. е. словарь корпуса), поэтому в корпусе имеются нулевые значения для терминов, которые также не происходят в конкретном документе. По этой причине матрицы терминов документа обычно хранятся в формате разреженной матрицы.
В результате степенного распределения токенов почти в каждом корпусе (см. закон Ципфа ) подсчеты принято взвешивать. Это может быть так же просто, как деление счетчиков на общее количество токенов в документе (так называемая относительная частота или пропорции), деление на максимальную частоту в каждом документе (так называемое prop max) или получение журнала частот (так называемое количество журналов). . Если кто-то желает взвесить слова, наиболее уникальные для отдельного документа, по сравнению с корпусом в целом, обычно используется tf-idf , который делит частоту термина на частоту термина в документе.
История концепции [ править ]
Матрица документ-термин возникла в первые годы компьютеризации текста. Увеличение емкости хранения документов создало проблему эффективного извлечения данного документа. Если раньше работа по классификации и индексированию выполнялась вручную, то исследователи изучили возможность делать это автоматически, используя информацию о частоте слов.
Одна из первых опубликованных матриц терминов документа была в статье Гарольда Борко 1962 года «Построение эмпирически обоснованной, математически выведенной системы классификации» (стр. 282, см. также его статью 1965 года). [3] ). Борко ссылается на две компьютерные программы: «FEAT», что означает «Частота каждого допустимого термина», написанную Джоном К. Олни из System Development Corporation, и программу Descriptor Word Index, написанную Эйлин Стоун , также из System Development Corporation:
После отбора документов, которые должны были составить экспериментальную библиотеку, следующим шагом стала набивка всего текста перед компьютерной обработкой. Для этого анализа использовалась программа FEAT (Частота каждого допустимого термина). он был написан Джоном К. Олни из Корпорации системного развития и предназначен для подсчета частоты и суммарного подсчета отдельных слов и пар слов. Результатом работы этой программы является алфавитный список по частоте встречаемости всех типов слов, встречающихся в тексте. Определенные служебные слова, такие как и, the, at, a и т. д., помещались в таблицу «списка запрещенных слов», а частота встречаемости этих слов записывалась в отдельный список... Специальная компьютерная программа, называемая Дескриптор Программа Word Index была написана для предоставления этой информации и подготовки матрицы терминов документа в форме, подходящей для ввода в программу факторного анализа. Программа Descriptor Word Index была подготовлена Эйлин Стоун из System Development Corporation. [4]
Вскоре после этого Джерард Солтон опубликовал в 1963 году «Некоторые иерархические модели для автоматического поиска документов», которые также включали визуальное изображение матрицы терминов документа. [5] В то время Солтон работал в Гарвардском университете, и его работа была поддержана Кембриджскими исследовательскими лабораториями ВВС и Sylvania Electric Products, Inc. В этой статье Солтон представляет матрицу терминов документа в сравнении с своего рода матрицей терминов-контекста, используемой для измерить сходство между словами:
Если вместо словесных ассоциаций требуется генерировать ассоциации документов или кластеры документов, можно использовать те же процедуры с небольшими изменениями. Вместо того, чтобы начинать с матрицы слов-предложений C ,... теперь удобно построить матрицу слов-документов F, перечисляя частоту появления слова W i в документе D j ... Сходства документов теперь можно вычислить, как и раньше. путем сравнения пар строк и получения коэффициентов сходства, основанных на частоте совместного появления содержательных слов, включенных в данный документ. Эта процедура создает матрицу сходства документов, которую, в свою очередь, можно использовать для создания кластеров документов... [5]
Помимо Борко и Солтона, в 1964 году Ф. В. Ланкастер опубликовал всеобъемлющий обзор автоматизированного индексирования и поиска. Хотя работа была опубликована, когда он работал в Herner and Company в Вашингтоне, округ Колумбия, статья была написана, когда он «занимался исследовательской работой в Аслибе в рамках проекта Аслиб Крэнфилд». [6] Ланкастер приписывает Борко матрицу терминов-документов:
Гарольд Борко из Корпорации системного развития продвинул эту операцию немного дальше. Значительная группа слов-подсказок выбрана из словаря экспериментальной коллекции. Они организованы в матрицу документ/термин, чтобы показать частоту появления каждого термина в каждом документе.... Затем вычисляется коэффициент корреляции для каждой пары слов на основе их совместного появления в наборе документов. Полученная матрица терминов/терминов... затем подвергается факторному анализу и выделяется ряд факторов. Эти факторы, если их интерпретировать и назвать на основе терминов с высокими нагрузками, которые присутствуют в каждом из факторов, становятся классами эмпирической классификации. Термины с высокими нагрузками по каждому фактору являются ключевыми словами или предикторами категорий.
Выбор условий [ править ]
С точки зрения матрицы каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы терминов документа, цель состоит в том, чтобы представить тему документа по частоте семантически значимых терминов. Термины являются смысловыми единицами документов. часто предполагается В индоевропейских языках , что существительные, глаголы и прилагательные являются более значимыми категориями и что слова из этих категорий следует сохранять как термины.Добавление словосочетания в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.
Приложения [ править ]
Улучшение результатов поиска [ править ]
Скрытый семантический анализ (LSA, выполняющий разложение по сингулярным значениям матрицы документа и термина) может улучшить результаты поиска за счет устранения неоднозначности многозначных слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве происходит намного медленнее, чем поиск в стандартной древовидной структуре данных поисковых систем.
Поиск тем [ править ]
Многомерный анализ матрицы документа-термина может выявить темы/темы корпуса. В частности, латентно-семантический анализ и кластеризацию данных можно использовать , а совсем недавно было обнаружено, что вероятностный латентно-семантический анализ с его обобщением «Скрытое распределение Дирихле» и неотрицательная матричная факторизация хорошо справляются с этой задачей.
См. также [ править ]
Реализации [ править ]
- Gensim : среда Python с открытым исходным кодом для моделирования в векторном пространстве. Содержит эффективно использующие память алгоритмы для построения матриц терминов-документов из текста, а также общие преобразования ( tf-idf , LSA , LDA ).
Ссылки [ править ]
- ^ "Матрица функций документа :: Учебники по quanteda" . Tutorials.quanteda.io . Проверено 02 января 2021 г.
- ^ «15 способов создать матрицу документ-термин в R» . Дастин С. Столц . Проверено 02 января 2021 г.
- ^ Борко, Гарольд (1965). «Система классификации психологических отчетов, основанная на факторном анализе» . Перцептивные и моторные навыки . 20 (2): 393–406. дои : 10.2466/pms.1965.20.2.393 . ISSN 0031-5125 . ПМИД 14279310 . S2CID 34230652 .
- ^ Борко, Гарольд (1962). «Построение эмпирически обоснованной математически выведенной системы классификации». Материалы весенней совместной компьютерной конференции AIEE-IRE '62 (весна), состоявшейся 1–3 мая 1962 г. AIEE-IRE '62 (весна). Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 279–289. дои : 10.1145/1460833.1460865 . ISBN 9781450378758 . S2CID 6483337 .
- ↑ Перейти обратно: Перейти обратно: а б Солтон, Джерард (июль 1963 г.). «Некоторые иерархические модели автоматического поиска документов» . Американская документация . 14 (3): 213–222. дои : 10.1002/asi.5090140307 . ISSN 0096-946X .
- ^ ЛАНКАСТЕР, ФРВ (1 января 1964 г.). «МЕХАНИЗИРОВАННЫЙ ДОКУМЕНТНЫЙ КОНТРОЛЬ: Обзор некоторых недавних исследований» . Судебное разбирательство АСЛИБ . 16 (4): 132–152. дои : 10.1108/eb049960 . ISSN 0001-253X .