Jump to content

Векторная космическая модель

Модель векторного пространства или векторная модель терминов — это алгебраическая модель для представления текстовых документов (или, в более общем плане, элементов) в виде векторов , при этом расстояние между векторами представляет релевантность между документами. Он используется для фильтрации информации , поиска информации , индексации и ранжирования релевантности. Его первое использование было в информационно-поисковой системе SMART . [1]

Определения [ править ]

В этом разделе мы рассматриваем конкретную модель векторного пространства, основанную на представлении «мешка слов» . Документы и запросы представлены в виде векторов.

Каждому измерению соответствует отдельный термин. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как веса (терминов). Одна из наиболее известных схем — взвешивание tf-idf (см. пример ниже).

Определение термина зависит от применения. Обычно термины представляют собой отдельные слова, ключевые слова или длинные фразы. Если в качестве терминов выбраны слова, размерность вектора равна количеству слов в словаре (количество отдельных слов, встречающихся в корпусе ) .

Векторные операции можно использовать для сравнения документов с запросами. [2]

Приложения [ править ]

Документы-кандидаты из корпуса можно получить и ранжировать с помощью различных методов. релевантности Рейтинги документов при поиске по ключевым словам можно рассчитать, используя предположения теории сходства документов , путем сравнения отклонения углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор той же размерности, что и векторы, которые представлять другие документы.

На практике проще вычислить косинус угла между векторами, а не сам угол:

Где является пересечением (т. е. скалярным произведением ) векторов документа (d 2 на рисунке справа) и векторов запроса (q на рисунке), — норма вектора d 2 , а – норма вектора q. Норма : вектора рассчитывается следующим образом

Используя косинус, сходство между документом d j и запросом q можно рассчитать как:

Поскольку все векторы, рассматриваемые этой моделью, являются поэлементно неотрицательными, нулевое значение косинуса означает, что вектор запроса и документа ортогональны и не имеют совпадений (т. е. термин запроса не существует в рассматриваемом документе). См. косинусное сходство для получения дополнительной информации. [2]

Веса частоты документов, частоте обратные терминов

В классической модели векторного пространства, предложенной Солтоном , Вонгом и Янгом [3] веса конкретных терминов в векторах документов являются произведениями локальных и глобальных параметров. Модель известна как частотно-обратная модель частоты документа. Весовой вектор для документа d равен , где

и

  • частота термина t в документе d (локальный параметр)
  • — обратная частота документов (глобальный параметр). – общее количество документов в наборе документов; — количество документов, содержащих термин t .

Преимущества [ править ]

Модель векторного пространства имеет следующие преимущества перед стандартной логической моделью :

  1. Позволяет ранжировать документы по их возможной релевантности.
  2. Позволяет извлекать элементы с частичным перекрытием терминов. [2]

Большинство из этих преимуществ являются следствием разницы в плотности представления коллекции документов между логическим подходом и подходом с инверсией частоты документов. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуба . Таким образом, возможные представления документа: а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частоты документа, обратных частоте терминов, обратные частоты терминов в новом документе уменьшаются, а частота оставшихся терминов увеличивается. В среднем по мере добавления документов область, где лежат документы, расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует первоначальную мотивацию Солтона и его коллег о том, что коллекция документов, представленная в регионе с низкой плотностью, может дать лучшие результаты поиска.

Ограничения [ править ]

Модель векторного пространства имеет следующие ограничения:

  1. Предполагается, что термины запроса независимы, поэтому фразы могут быть плохо представлены в рейтинге.
  2. Семантическая чувствительность; документы со схожим контекстом, но с разным словарем терминов не будут связаны [2]

Однако многие из этих трудностей можно преодолеть за счет интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным значениям , и лексические базы данных , такие как WordNet .

Модели, основанные на модели векторного пространства и расширяющие ее [ править ]

Модели, основанные на модели векторного пространства и расширяющие ее, включают:

Программное обеспечение, реализующее модель векторного пространства [ править ]

Следующие программные пакеты могут быть интересны желающим поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом [ править ]

Дальнейшее чтение [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Берри, Майкл В.; Дрмац, Златко; Джессап, Элизабет Р. (январь 1999 г.). «Матрицы, векторные пространства и поиск информации». Обзор СИАМ . 41 (2): 335–362. дои : 10.1137/s0036144598347035 .
  2. ^ Jump up to: Перейти обратно: а б с д Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN  978-0-262-52887-0 .
  3. ^ Г. Солтон, А. Вонг, К.С. Ян, Модель векторного пространства для автоматического индексирования , Communications of the ACM, v.18 n.11, стр.613–620, ноябрь 1975 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e244794d193c11ed83be8166a016b5c1__1716176700
URL1:https://arc.ask3.ru/arc/aa/e2/c1/e244794d193c11ed83be8166a016b5c1.html
Заголовок, (Title) документа по адресу, URL1:
Vector space model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)