Тематическая модель векторного пространства
Тематическая векторная пространственная модель (TVSM) [1] (литература: [1] ) расширяет векторном пространстве в модель поиска информации , удаляя ограничение на ортогональность векторов термов. Предположение об ортогональных терминах неверно в отношении естественных языков, что вызывает проблемы с синонимами и сильно связанными терминами. Это облегчает использование списков стоп-слов, стемминга и тезауруса в TVSM.В отличие от модели обобщенного векторного пространства, TVSM не зависит от сходства между терминами, основанного на совпадении.
Определения [ править ]
Основной предпосылкой TVSM является существование d -мерного пространства R только с положительными пересечениями осей, т. е. R в R. + и d в N + . Каждое измерение R представляет фундаментальную тему. Вектор термов t имеет определенный вес для определенного R . Для расчета этих весов принимаются во внимание содержание документа. В идеале важные термины будут иметь высокий вес, а стоп-слова и термины, не относящиеся к теме, будут иметь низкий вес. Модель документа TVSM получается как сумма векторов терминов, представляющих термины в документе. Сходство между двумя документами Di и Dj определяется как скалярное произведение векторов документов.
тематическая модель пространства Расширенная векторного
Улучшение расширенной тематической модели векторного пространства (eTVSM) [2] (литература: [2] ) — это предложение о том, как получить векторы терминов из онтологии . Использование синонима Ontology, созданного из WordNet Kuropka, показывает хорошие результаты по сходству документов. Если используется тривиальная онтология, результаты аналогичны модели векторного пространства.
Реализации [ править ]
Ссылки [ править ]
- ^ Доминик Куропка; Йорг Беккер (2003), Тематическая векторная пространственная модель (PDF)
- ^ Доминик Куропка; Артем Поливяный (2007), Количественная оценка расширенной тематической векторной пространственной модели (PDF)