Векторная космическая модель
Модель векторного пространства или векторная модель терминов — это алгебраическая модель для представления текстовых документов (или, в более общем плане, элементов) в виде векторов , при этом расстояние между векторами представляет релевантность между документами. Он используется для фильтрации информации , поиска информации , индексации и ранжирования релевантности. Его первое использование было в информационно-поисковой системе SMART . [1]
Определения [ править ]
В этом разделе мы рассматриваем конкретную модель векторного пространства, основанную на представлении «мешка слов» . Документы и запросы представлены в виде векторов.
Каждому измерению соответствует отдельный термин. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как веса (терминов). Одна из наиболее известных схем — взвешивание tf-idf (см. пример ниже).
Определение термина зависит от применения. Обычно термины представляют собой отдельные слова, ключевые слова или длинные фразы. Если в качестве терминов выбраны слова, размерность вектора равна количеству слов в словаре (количество отдельных слов, встречающихся в корпусе ) .
Векторные операции можно использовать для сравнения документов с запросами. [2]
Приложения [ править ]

Документы-кандидаты из корпуса можно получить и ранжировать с помощью различных методов. релевантности Рейтинги документов при поиске по ключевым словам можно рассчитать, используя предположения теории сходства документов , путем сравнения отклонения углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор той же размерности, что и векторы, которые представлять другие документы.
На практике проще вычислить косинус угла между векторами, а не сам угол:
Где является пересечением (т. е. скалярным произведением ) векторов документа (d 2 на рисунке справа) и векторов запроса (q на рисунке), — норма вектора d 2 , а – норма вектора q. Норма : вектора рассчитывается следующим образом
Используя косинус, сходство между документом d j и запросом q можно рассчитать как:
Поскольку все векторы, рассматриваемые этой моделью, являются поэлементно неотрицательными, нулевое значение косинуса означает, что вектор запроса и документа ортогональны и не имеют совпадений (т. е. термин запроса не существует в рассматриваемом документе). См. косинусное сходство для получения дополнительной информации. [2]
Веса частоты документов, частоте обратные терминов
В классической модели векторного пространства, предложенной Солтоном , Вонгом и Янгом [3] веса конкретных терминов в векторах документов являются произведениями локальных и глобальных параметров. Модель известна как частотно-обратная модель частоты документа. Весовой вектор для документа d равен , где
и
- частота термина t в документе d (локальный параметр)
- — обратная частота документов (глобальный параметр). – общее количество документов в наборе документов; — количество документов, содержащих термин t .
Преимущества [ править ]
Модель векторного пространства имеет следующие преимущества перед стандартной логической моделью :
- Позволяет ранжировать документы по их возможной релевантности.
- Позволяет извлекать элементы с частичным перекрытием терминов. [2]
Большинство из этих преимуществ являются следствием разницы в плотности представления коллекции документов между логическим подходом и подходом с инверсией частоты документов. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуба . Таким образом, возможные представления документа: а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частоты документа, обратных частоте терминов, обратные частоты терминов в новом документе уменьшаются, а частота оставшихся терминов увеличивается. В среднем по мере добавления документов область, где лежат документы, расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует первоначальную мотивацию Солтона и его коллег о том, что коллекция документов, представленная в регионе с низкой плотностью, может дать лучшие результаты поиска.
Ограничения [ править ]
Модель векторного пространства имеет следующие ограничения:
- Предполагается, что термины запроса независимы, поэтому фразы могут быть плохо представлены в рейтинге.
- Семантическая чувствительность; документы со схожим контекстом, но с разным словарем терминов не будут связаны [2]
Однако многие из этих трудностей можно преодолеть за счет интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным значениям , и лексические базы данных , такие как WordNet .
Модели, основанные на модели векторного пространства и расширяющие ее [ править ]
Модели, основанные на модели векторного пространства и расширяющие ее, включают:
- Обобщенная векторная модель пространства
- Скрытый семантический анализ
- Срок
- Классификация Роккьо
- Случайная индексация
- Поисковая оптимизация
Программное обеспечение, реализующее модель векторного пространства [ править ]
Следующие программные пакеты могут быть интересны желающим поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.
Бесплатное программное обеспечение с открытым исходным кодом [ править ]
- Апач Люсене . Apache Lucene — это высокопроизводительная полнофункциональная библиотека текстовой поисковой системы с открытым исходным кодом, полностью написанная на Java.
- OpenSearch (программное обеспечение) и Solr : две самые известные программы для поисковых систем (существуют и более мелкие), основанные на Lucene.
- Gensim — это платформа Python+ NumPy для моделирования в векторном пространстве. Он содержит инкрементные (эффективные по памяти) алгоритмы для частоты терминов, инверсной частоты документов , скрытого семантического индексирования , случайных проекций и скрытого распределения Дирихле .
- Века . Weka — популярный пакет интеллектуального анализа данных для Java, включая модели WordVectors и Bag Of Words .
- Word2vec . Word2vec использует векторные пространства для встраивания слов.
Дальнейшее чтение [ править ]
- Г. Солтон (1962), « Некоторые эксперименты по созданию ассоциаций слов и документов ». Труды AFIPS '62 (осень). Материалы осенней совместной компьютерной конференции 4–6 декабря 1962 г. , страницы 234–250. (Ранняя статья Солтона с использованием формализации матрицы термин-документ)
- Г. Солтон , А. Вонг и К.С. Ян (1975), « Векторная пространственная модель для автоматического индексирования », Communications of ACM , vol. 18, номер 1. 11, страницы 613–620. (Статья, в которой была представлена модель векторного пространства)
- Дэвид Дубин (2004), Самая влиятельная статья, которую Джерард Солтон никогда не писал (объясняет историю векторной модели пространства и отсутствие часто цитируемой публикации)
- Описание модели векторного пространства
- Описание классической модели векторного пространства доктора Э. Гарсиа
- Связь поиска в векторном пространстве с поиском «k-ближайшего соседа»
См. также [ править ]
Ссылки [ править ]
- ^ Берри, Майкл В.; Дрмац, Златко; Джессап, Элизабет Р. (январь 1999 г.). «Матрицы, векторные пространства и поиск информации». Обзор СИАМ . 41 (2): 335–362. дои : 10.1137/s0036144598347035 .
- ^ Jump up to: Перейти обратно: а б с д Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN 978-0-262-52887-0 .
- ^ Г. Солтон, А. Вонг, К.С. Ян, Модель векторного пространства для автоматического индексирования , Communications of the ACM, v.18 n.11, стр.613–620, ноябрь 1975 г.