Jump to content

Тематическая модель векторного пространства

Тематическая векторная пространственная модель (TVSM) [1] (литература: [1] ) расширяет векторном пространстве в модель поиска информации , удаляя ограничение на ортогональность векторов термов. Предположение об ортогональных терминах неверно в отношении естественных языков, что вызывает проблемы с синонимами и сильно связанными терминами. Это облегчает использование списков стоп-слов, стемминга и тезауруса в TVSM.В отличие от модели обобщенного векторного пространства, TVSM не зависит от сходства между терминами, основанного на совпадении.

Определения [ править ]

Основной предпосылкой TVSM является существование d -мерного пространства R только с положительными пересечениями осей, т. е. R в R. + и d в N + . Каждое измерение R представляет фундаментальную тему. Вектор термов t имеет определенный вес для определенного R . Для расчета этих весов принимаются во внимание содержание документа. В идеале важные термины будут иметь высокий вес, а стоп-слова и термины, не относящиеся к теме, будут иметь низкий вес. Модель документа TVSM получается как сумма векторов терминов, представляющих термины в документе. Сходство между двумя документами Di и Dj определяется как скалярное произведение векторов документов.

тематическая модель пространства Расширенная векторного

Улучшение расширенной тематической модели векторного пространства (eTVSM) [2] (литература: [2] ) — это предложение о том, как получить векторы терминов из онтологии . Использование синонима Ontology, созданного из WordNet Kuropka, показывает хорошие результаты по сходству документов. Если используется тривиальная онтология, результаты аналогичны модели векторного пространства.

Реализации [ править ]

Ссылки [ править ]

  1. ^ Доминик Куропка; Йорг Беккер (2003), Тематическая векторная пространственная модель (PDF)
  2. ^ Доминик Куропка; Артем Поливяный (2007), Количественная оценка расширенной тематической векторной пространственной модели (PDF)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8721422a1e692bbd390fc9f574c5f0f2__1601924580
URL1:https://arc.ask3.ru/arc/aa/87/f2/8721422a1e692bbd390fc9f574c5f0f2.html
Заголовок, (Title) документа по адресу, URL1:
Topic-based vector space model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)