Jump to content

Вероятностный латентно-семантический анализ

Вероятностный латентно-семантический анализ ( PLSA ), также известный как вероятностное латентно-семантическое индексирование ( PLSI , особенно в кругах информационного поиска), представляет собой статистический метод анализа двухрежимных и совместных данных. По сути, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, точно так же, как в скрытом семантическом анализе , из которого произошел PLSA.

По сравнению со стандартным скрытым семантическим анализом , который основан на линейной алгебре и уменьшает размеры таблиц вхождений (обычно посредством разложения по сингулярным значениям ), вероятностный скрытый семантический анализ основан на разложении смеси, полученном из модели скрытого класса .

Обозначение таблички , представляющее модель PLSA («асимметричная» формулировка). — индексная переменная документа, тема слова, взятая из распределения тем документа, , и это слово, взятое из распределения слов темы этого слова, . и являются наблюдаемыми переменными , тема является скрытой переменной .

Рассмотрение наблюдений в форме совпадений слов и документов, PLSA моделирует вероятность каждого совместного появления как смесь условно независимых полиномиальных распределений :

с быть темой слов. Обратите внимание, что количество тем — это гиперпараметр, который необходимо выбрать заранее, а не оценивать на основе данных. Первая формулировка является симметричной формулировкой, где и оба генерируются из скрытого класса аналогичным образом (с использованием условных вероятностей и ), тогда как вторая формулировка является асимметричной , где для каждого документа , скрытый класс выбирается условно к документу согласно , а затем из этого класса генерируется слово в соответствии с . Хотя в этом примере мы использовали слова и документы, одновременное появление любой пары дискретных переменных можно смоделировать точно таким же образом.

Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA является генеративной моделью документов в коллекции, на которой она оценивается, она не является генеративной моделью новых документов.

Их параметры изучаются с помощью алгоритма EM .

Приложение

[ редактировать ]

PLSA может использоваться в дискриминативной настройке через ядра Фишера . [1]

PLSA имеет приложения для информации поиска и фильтрации , обработки естественного языка , машинного обучения на основе текста, биоинформатики , [2] и смежных областях.

Сообщается, что аспектная модель , используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы с переобучением . [3]

Расширения

[ редактировать ]
  • Иерархические расширения:
    • Асимметричный: МАША («Мультиномиальный асимметричный иерархический анализ») [4]
    • Симметричный: HPLSA («Иерархический вероятностный латентно-семантический анализ») [5]
  • Генеративные модели. Следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что он не является подходящей генеративной моделью для новых документов.
  • Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), т.е. он может моделировать совпадающие события по трем или более переменным. В приведенной выше симметричной формулировке это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Это пример модели скрытого класса (см. ссылки в нем), и он связан [6] [7] к неотрицательной матричной факторизации . Современная терминология была придумана в 1999 году Томасом Хофманном. [8]

См. также

[ редактировать ]

Ссылки и примечания

[ редактировать ]
  1. ^ Томас Хофманн, Изучение сходства документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в области нейронных систем обработки информации 12, стр. 914-920, MIT Press , 2000
  2. ^ Пиноли, Пьетро; и др. (2013). «Расширенный вероятностный латентно-семантический анализ со схемами взвешивания для прогнозирования геномных аннотаций». Материалы IEEE BIBE 2013 . 13-я Международная конференция IEEE по биоинформатике и биоинженерии. IEEE. стр. 1–4. дои : 10.1109/BIBE.2013.6701702 . ISBN  978-147993163-7 .
  3. ^ Блей, Дэвид М.; Эндрю Ю. Нг; Майкл И. Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . 3 : 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 .
  4. ^ Алексей Винокуров и Марк Джиролами, Вероятностная основа для иерархической организации и классификации коллекций документов , в «Обработке информации и управлении» , 2002 г.
  5. ^ Эрик Гаусье, Сирил Гутт, Крис Попат и Франсин Чен, Иерархическая модель кластеризации и категоризации документов, заархивированная 4 марта 2016 г. в Wayback Machine , в «Достижениях в области информационного поиска - материалы 24-го европейского коллоквиума BCS-IRSG по IR-исследованиям (ECIR-02)», 2002 г.
  6. ^ Крис Дин, Тао Ли, Вэй Пэн (2006). « Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006»
  7. ^ Крис Дин, Тао Ли, Вэй Пэн (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного латентно-семантического индексирования»
  8. ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование , Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области поиска информации (SIGIR-99), 1999 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e5d9b55cdab61094efbaccb73ce7de52__1681529460
URL1:https://arc.ask3.ru/arc/aa/e5/52/e5d9b55cdab61094efbaccb73ce7de52.html
Заголовок, (Title) документа по адресу, URL1:
Probabilistic latent semantic analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)