Динамическая тематическая модель
В статистике динамические тематические модели представляют собой генеративные модели , которые можно использовать для анализа эволюции (ненаблюдаемых) тем коллекции документов с течением времени. Это семейство моделей было предложено Дэвидом Блеем и Джоном Лафферти и является расширением скрытого распределения Дирихле (LDA), которое может обрабатывать последовательные документы. [1]
В LDA модель не учитывает как порядок появления слов в документе, так и порядок появления документов в корпусе. Несмотря на то, что слова по-прежнему считаются взаимозаменяемыми , в динамической тематической модели порядок документов играет фундаментальную роль. Точнее, документы группируются по временным срезам (например, по годам), и предполагается, что документы каждой группы происходят из набора тем, которые развились из набора предыдущего среза.
Темы
[ редактировать ]Подобно LDA и pLSA , в модели динамических тем каждый документ рассматривается как смесь ненаблюдаемых тем. Более того, каждая тема определяет полиномиальное распределение по набору терминов. Таким образом, для каждого слова каждого документа из смеси извлекается тема, а затем из полиномиального распределения, соответствующего этой теме, извлекается термин.
Однако темы со временем меняются. Например, двумя наиболее вероятными терминами темы в момент времени t могут быть «сеть» и «Zipf» (в порядке убывания), тогда как наиболее вероятными терминами в момент времени t+1 могут быть «Zipf» и «проникновение» (в порядке убывания ). заказ).
Модель
[ редактировать ]Определять
- как распределение тем по документам в момент времени t .
- как распределение слов по теме k в момент времени t .
- как распределение тем для документа d во времени t ,
- в качестве темы для n -го слова в документе d за время t , и
- как конкретное слово.
В этой модели полиномиальные распределения и генерируются из и , соответственно.Несмотря на то, что полиномиальные распределения обычно записываются в терминах средних параметров, представлять их в терминах натуральных параметров лучше в контексте динамических тематических моделей.
Первое представление имеет некоторые недостатки из-за того, что параметры должны быть неотрицательными и иметь сумму, равную единице. [2] При определении эволюции этих распределений необходимо убедиться, что такие ограничения выполняются. Поскольку оба распределения относятся к экспоненциальному семейству , одним из решений этой проблемы является представление их через натуральные параметры, которые могут принимать любые действительные значения и индивидуально изменяться.
Используя естественную параметризацию, динамика тематической модели определяется выражением
и
- .
Таким образом, генеративный процесс в интервале времени «t» выглядит следующим образом:
- Рисовать темы
- Нарисуйте модель смеси
- По каждому документу:
- Рисовать
- Для каждого слова:
- Нарисовать тему
- Нарисовать слово
где является отображением естественной параметризации x в среднюю параметризацию, а именно
- .
Вывод
[ редактировать ]В динамической тематической модели только является наблюдаемым. Изучение других параметров представляет собой проблему вывода. Блей и Лафферти утверждают, что применять выборку Гиббса для вывода в этой модели сложнее, чем в статических моделях, из-за несопряженности гауссовского и полиномиального распределений. Они предлагают использовать вариационные методы , в частности, вариационную фильтрацию Калмана и вариационную вейвлет-регрессию.
Приложения
[ редактировать ]В оригинальной статье динамическая тематическая модель применяется к корпусу научных статей, опубликованных между 1881 и 1999 годами, с целью показать, что этот метод можно использовать для анализа тенденций использования слов внутри тем. [1] Авторы также показывают, что модель, обученная на прошлых документах, лучше подходит для документов наступающего года, чем LDA.
Модель непрерывной динамической темы была разработана Wang et al. и применяется для прогнозирования временной метки документов. [3]
Выходя за рамки текстовых документов, динамические тематические модели использовались для изучения музыкального влияния путем изучения музыкальных тем и их развития в новейшей истории. [4]
Ссылки
[ редактировать ]- ^ Jump up to: а б Блей, Дэвид М; Лафферти, Джон Д. (2006). «Динамические тематические модели». Материалы 23-й международной конференции по машинному обучению — ICML '06 . ICML'06. стр. 113–120. дои : 10.1145/1143844.1143859 . ISBN 978-1-59593-383-6 . S2CID 5405229 .
- ^ Ренни, Джейсон Д.М. «Смеси многочленов» (PDF) . Проверено 5 декабря 2011 г.
- ^ Ван, Чонг; Блей, Дэвид; Хеккерман, Дэвид (2008). «Динамические тематические модели непрерывного времени». Труды ИКМЛ . ICML '08.
- ^ Шалит, Ури; Вайншолл, Дафна; Чечик, Галь (2013). «Моделирование музыкального влияния с помощью тематических моделей» (PDF) . Журнал исследований машинного обучения .