Векторная космическая модель

Модель векторного пространства или векторная модель терминов — это алгебраическая модель для представления текстовых документов (или, в более общем плане, элементов) в виде векторов , при этом расстояние между векторами представляет релевантность между документами. Он используется для фильтрации информации , поиска информации , индексации и ранжирования релевантности. Его первое использование было в информационно-поисковой системе SMART . ^[1]

Определения [ править ]

В этом разделе мы рассматриваем конкретную модель векторного пространства, основанную на представлении «мешка слов» . Документы и запросы представлены в виде векторов.

d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{n,j})

q=(w_{1,q},w_{2,q},\dotsc ,w_{n,q})

Каждому измерению соответствует отдельный термин. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как веса (терминов). Одна из наиболее известных схем — взвешивание tf-idf (см. пример ниже).

Определение термина зависит от применения. Обычно термины представляют собой отдельные слова, ключевые слова или длинные фразы. Если в качестве терминов выбраны слова, размерность вектора равна количеству слов в словаре (количество отдельных слов, встречающихся в корпусе ) .

Векторные операции можно использовать для сравнения документов с запросами. ^[2]

Приложения [ править ]

Документы-кандидаты из корпуса можно получить и ранжировать с помощью различных методов. релевантности Рейтинги документов при поиске по ключевым словам можно рассчитать, используя предположения теории сходства документов , путем сравнения отклонения углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор той же размерности, что и векторы, которые представлять другие документы.

На практике проще вычислить косинус угла между векторами, а не сам угол:

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q} }{\left\|\mathbf {d_{2}} \right\|\left\|\mathbf {q} \right\|}}

Где $\mathbf {d_{2}} \cdot \mathbf {q}$ является пересечением (т. е. скалярным произведением ) векторов документа (d ₂ на рисунке справа) и векторов запроса (q на рисунке), $\left\|\mathbf {d_{2}} \right\|$ — норма вектора d ₂ , а $\left\|\mathbf {q} \right\|$ – норма вектора q. Норма : вектора рассчитывается следующим образом

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

Используя косинус, сходство между документом d _j и запросом q можно рассчитать как:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}d_{i,j}q_{i}}{{\sqrt {\sum _{i=1}^{N}d_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}q_{i}^{2}}}}}

Поскольку все векторы, рассматриваемые этой моделью, являются поэлементно неотрицательными, нулевое значение косинуса означает, что вектор запроса и документа ортогональны и не имеют совпадений (т. е. термин запроса не существует в рассматриваемом документе). См. косинусное сходство для получения дополнительной информации. ^[2]

Веса частоты документов, частоте обратные терминов

В классической модели векторного пространства, предложенной Солтоном , Вонгом и Янгом ^[3] веса конкретных терминов в векторах документов являются произведениями локальных и глобальных параметров. Модель известна как частотно-обратная модель частоты документа. Весовой вектор для документа d равен $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$ , где

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

и

$\mathrm {tf} _{t,d}$ частота термина t в документе d (локальный параметр)
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ — обратная частота документов (глобальный параметр). $|D|$ – общее количество документов в наборе документов; $|\{d'\in D\,|\,t\in d'\}|$ — количество документов, содержащих термин t .

Преимущества [ править ]

Модель векторного пространства имеет следующие преимущества перед стандартной логической моделью :

Позволяет ранжировать документы по их возможной релевантности.
Позволяет извлекать элементы с частичным перекрытием терминов. ^[2]

Большинство из этих преимуществ являются следствием разницы в плотности представления коллекции документов между логическим подходом и подходом с инверсией частоты документов. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуба . Таким образом, возможные представления документа: $2^{n}$ а максимальное евклидово расстояние между парами равно ${\sqrt {n}}$ . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частоты документа, обратных частоте терминов, обратные частоты терминов в новом документе уменьшаются, а частота оставшихся терминов увеличивается. В среднем по мере добавления документов область, где лежат документы, расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует первоначальную мотивацию Солтона и его коллег о том, что коллекция документов, представленная в регионе с низкой плотностью, может дать лучшие результаты поиска.

Ограничения [ править ]

Модель векторного пространства имеет следующие ограничения:

Предполагается, что термины запроса независимы, поэтому фразы могут быть плохо представлены в рейтинге.
Семантическая чувствительность; документы со схожим контекстом, но с разным словарем терминов не будут связаны ^[2]

Однако многие из этих трудностей можно преодолеть за счет интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным значениям , и лексические базы данных , такие как WordNet .

Модели, основанные на модели векторного пространства и расширяющие ее [ править ]

Модели, основанные на модели векторного пространства и расширяющие ее, включают:

Программное обеспечение, реализующее модель векторного пространства [ править ]

Следующие программные пакеты могут быть интересны желающим поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом [ править ]

Апач Люсене . Apache Lucene — это высокопроизводительная полнофункциональная библиотека текстовой поисковой системы с открытым исходным кодом, полностью написанная на Java.
OpenSearch (программное обеспечение) и Solr : две самые известные программы для поисковых систем (существуют и более мелкие), основанные на Lucene.
Gensim — это платформа Python+ NumPy для моделирования в векторном пространстве. Он содержит инкрементные (эффективные по памяти) алгоритмы для частоты терминов, инверсной частоты документов , скрытого семантического индексирования , случайных проекций и скрытого распределения Дирихле .
Века . Weka — популярный пакет интеллектуального анализа данных для Java, включая модели WordVectors и Bag Of Words .
Word2vec . Word2vec использует векторные пространства для встраивания слов.

Дальнейшее чтение [ править ]

Г. Солтон (1962), « Некоторые эксперименты по созданию ассоциаций слов и документов ». Труды AFIPS '62 (осень). Материалы осенней совместной компьютерной конференции 4–6 декабря 1962 г. , страницы 234–250. (Ранняя статья Солтона с использованием формализации матрицы термин-документ)
Г. Солтон , А. Вонг и К.С. Ян (1975), « Векторная пространственная модель для автоматического индексирования », Communications of ACM , vol. 18, номер 1. 11, страницы 613–620. (Статья, в которой была представлена модель векторного пространства)
Дэвид Дубин (2004), Самая влиятельная статья, которую Джерард Солтон никогда не писал (объясняет историю векторной модели пространства и отсутствие часто цитируемой публикации)
Описание модели векторного пространства
Описание классической модели векторного пространства доктора Э. Гарсиа
Связь поиска в векторном пространстве с поиском «k-ближайшего соседа»

См. также [ править ]

Ссылки [ править ]

^ Берри, Майкл В.; Дрмац, Златко; Джессап, Элизабет Р. (январь 1999 г.). «Матрицы, векторные пространства и поиск информации». Обзор СИАМ . 41 (2): 335–362. дои : 10.1137/s0036144598347035 .
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN 978-0-262-52887-0 .
^ Г. Солтон, А. Вонг, К.С. Ян, Модель векторного пространства для автоматического индексирования , Communications of the ACM, v.18 n.11, стр.613–620, ноябрь 1975 г.

[1] Берри, Майкл В.; Дрмац, Златко; Джессап, Элизабет Р. (январь 1999 г.). «Матрицы, векторные пространства и поиск информации». Обзор СИАМ . 41 (2): 335–362. дои : 10.1137/s0036144598347035 .

[:0-2] Jump up to: Перейти обратно: ^а ^б ^с ^д Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN 978-0-262-52887-0 .

[3] Г. Солтон, А. Вонг, К.С. Ян, Модель векторного пространства для автоматического индексирования , Communications of the ACM, v.18 n.11, стр.613–620, ноябрь 1975 г.

[1]

[2]

[3]