Вероятностный латентно-семантический анализ
Вероятностный латентно-семантический анализ ( PLSA ), также известный как вероятностное латентно-семантическое индексирование ( PLSI , особенно в кругах информационного поиска), представляет собой статистический метод анализа двухрежимных и совместных данных. По сути, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, точно так же, как в скрытом семантическом анализе , из которого произошел PLSA.
По сравнению со стандартным скрытым семантическим анализом , который основан на линейной алгебре и уменьшает размеры таблиц вхождений (обычно посредством разложения по сингулярным значениям ), вероятностный скрытый семантический анализ основан на разложении смеси, полученном из модели скрытого класса .
Модель
[ редактировать ]Рассмотрение наблюдений в форме совпадений слов и документов, PLSA моделирует вероятность каждого совместного появления как смесь условно независимых полиномиальных распределений :
с быть темой слов. Обратите внимание, что количество тем — это гиперпараметр, который необходимо выбрать заранее, а не оценивать на основе данных. Первая формулировка является симметричной формулировкой, где и оба генерируются из скрытого класса аналогичным образом (с использованием условных вероятностей и ), тогда как вторая формулировка является асимметричной , где для каждого документа , скрытый класс выбирается условно к документу согласно , а затем из этого класса генерируется слово в соответствии с . Хотя в этом примере мы использовали слова и документы, одновременное появление любой пары дискретных переменных можно смоделировать точно таким же образом.
Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA является генеративной моделью документов в коллекции, на которой она оценивается, она не является генеративной моделью новых документов.
Их параметры изучаются с помощью алгоритма EM .
Приложение
[ редактировать ]PLSA может использоваться в дискриминативной настройке через ядра Фишера . [1]
PLSA имеет приложения для информации поиска и фильтрации , обработки естественного языка , машинного обучения на основе текста, биоинформатики , [2] и смежных областях.
Сообщается, что аспектная модель , используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы с переобучением . [3]
Расширения
[ редактировать ]- Иерархические расширения:
- Генеративные модели. Следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что он не является подходящей генеративной моделью для новых документов.
- Скрытое распределение Дирихле — добавляет априорное распределение Дирихле к распределению по темам каждого документа.
- Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), т.е. он может моделировать совпадающие события по трем или более переменным. В приведенной выше симметричной формулировке это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.
История
[ редактировать ]Это пример модели скрытого класса (см. ссылки в нем), и он связан [6] [7] к неотрицательной матричной факторизации . Современная терминология была придумана в 1999 году Томасом Хофманном. [8]
См. также
[ редактировать ]Ссылки и примечания
[ редактировать ]- ^ Томас Хофманн, Изучение сходства документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в области нейронных систем обработки информации 12, стр. 914-920, MIT Press , 2000
- ^ Пиноли, Пьетро; и др. (2013). «Расширенный вероятностный латентно-семантический анализ со схемами взвешивания для прогнозирования геномных аннотаций». Материалы IEEE BIBE 2013 . 13-я Международная конференция IEEE по биоинформатике и биоинженерии. IEEE. стр. 1–4. дои : 10.1109/BIBE.2013.6701702 . ISBN 978-147993163-7 .
- ^ Блей, Дэвид М.; Эндрю Ю. Нг; Майкл И. Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . 3 : 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 .
- ^ Алексей Винокуров и Марк Джиролами, Вероятностная основа для иерархической организации и классификации коллекций документов , в «Обработке информации и управлении» , 2002 г.
- ^ Эрик Гаусье, Сирил Гутт, Крис Попат и Франсин Чен, Иерархическая модель кластеризации и категоризации документов, заархивированная 4 марта 2016 г. в Wayback Machine , в «Достижениях в области информационного поиска - материалы 24-го европейского коллоквиума BCS-IRSG по IR-исследованиям (ECIR-02)», 2002 г.
- ^ Крис Дин, Тао Ли, Вэй Пэн (2006). « Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006»
- ^ Крис Дин, Тао Ли, Вэй Пэн (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного латентно-семантического индексирования»
- ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование , Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области поиска информации (SIGIR-99), 1999 г.