Скрытое распределение Дирихле
Эта статья может быть слишком технической для понимания большинства читателей . ( Август 2017 г. ) |
В естественного языка обработке скрытое Дирихле распределение ( LDA ) представляет собой байесовскую сеть (и, следовательно, генеративную статистическую модель ) для моделирования автоматически извлекаемых тем в текстовых корпусах. LDA является примером байесовской тематической модели . При этом наблюдения (например, слова) собираются в документы, и присутствие каждого слова соотносится с одной из тем документа. Каждый документ будет содержать небольшое количество тем.
История
[ редактировать ]В контексте популяционной генетики LDA была предложена Дж. К. Притчардом , М. Стивенсом и П. Доннелли в 2000 году. [ 1 ] [ 2 ]
LDA применили в машинном обучении Дэвид Блей , Эндрю Нг и Майкл И. Джордан в 2003 году. [ 3 ]
Обзор
[ редактировать ]Эволюционная биология и биомедицина
[ редактировать ]В эволюционной биологии и биомедицине модель используется для обнаружения наличия структурированных генетических вариаций в группе людей. Модель предполагает, что аллели , переносимые исследуемыми особями, происходят из различных существующих или прошлых популяций. Модель и различные алгоритмы вывода позволяют ученым оценить частоты аллелей в этих исходных популяциях и происхождение аллелей, переносимых изучаемыми людьми. Исходные популяции можно интерпретировать постфактум с точки зрения различных эволюционных сценариев. В исследованиях ассоциаций обнаружение наличия генетической структуры считается необходимым предварительным шагом, чтобы избежать путаницы .
Клиническая психология, психическое здоровье и социальные науки
[ редактировать ]В исследованиях клинической психологии LDA использовался для выявления общих тем представлений о себе, с которыми сталкиваются молодые люди в социальных ситуациях. [ 4 ] Другие социологи использовали LDA для изучения больших наборов актуальных данных из дискуссий в социальных сетях (например, твитов о рецептурных лекарствах). [ 5 ]
Музыковедение
[ редактировать ]В контексте компьютерного музыкознания LDA использовался для обнаружения тональных структур в различных корпусах. [ 6 ]
Машинное обучение
[ редактировать ]Одно из применений LDA в машинном обучении , в частности обнаружение тем , подзадача обработки естественного языка , заключается в обнаружении тем в коллекции документов, а затем автоматической классификации любого отдельного документа в коллекции с точки зрения того, насколько «релевантным» он является. каждую из обнаруженных тем. Темой . считается набор терминов (т.е. отдельных слов или фраз), которые, взятые вместе, предполагают общую тему
Например, в коллекции документов, связанных с домашними животными, термины «собака» , «спаниель» , «бигль» , « золотистый ретривер » , « щенок » , « лай» « гав» предполагают тему, связанную с DOG_ , а термины «кошка » , «сиамский» , « мейн-кун», «полосатый» , « мэнкс , » и «мяу». , мурлыкать и котенок подскажут тему , связанную с CAT_ . В сборнике может быть еще много тем, например, связанных с питанием, уходом, здравоохранением, поведением и т. д., которые мы для простоты не обсуждаем. (Очень распространенные в языке так называемые стоп-слова – например, «the», «an», «that», «are», «is» и т. д. — не различают темы и обычно отфильтровываются заранее. -обработка перед выполнением LDA также преобразует термины в их «корневые» лексические формы – например, «лай», «лай» и «лай» будут преобразованы в «лай».)
Если коллекция документов достаточно велика, LDA обнаружит такие наборы терминов (т. е. темы) на основе совместного появления отдельных терминов, хотя задача присвоения значимого ярлыка отдельной теме (т. е. того, что все термины DOG_based) зависит от пользователя и часто требует специальных знаний (например, для сбора технической документации). Подход LDA предполагает, что:
- Семантическое содержание документа состоит из объединения одного или нескольких терминов из одной или нескольких тем.
- Некоторые термины неоднозначны и относятся к более чем одной теме с разной вероятностью. (Например, термин «тренировка» может применяться как к собакам, так и к кошкам, но чаще всего он относится к собакам, которые используются в качестве рабочих животных или участвуют в соревнованиях по послушанию или навыкам.) Однако в документе сопутствующее присутствие конкретных соседние термины (которые относятся только к одной теме) устранят неоднозначность их использования.
- Большинство документов будет содержать лишь относительно небольшое количество тем. Например, в коллекции отдельные темы будут встречаться с разной частотой. То есть у них есть распределение вероятностей, так что данный документ с большей вероятностью будет содержать одни темы, чем другие.
- В рамках темы определенные термины будут использоваться гораздо чаще, чем другие. Другими словами, термины внутри темы также будут иметь свое собственное распределение вероятностей.
Когда используется машинное обучение LDA, оба набора вероятностей вычисляются на этапе обучения с использованием байесовских методов и алгоритма максимизации ожиданий .
LDA представляет собой обобщение более старого подхода вероятностного латентно-семантического анализа (pLSA). Модель pLSA эквивалентна LDA при однородном априорном распределении Дирихле. [ 7 ] pLSA опирается только на первые два предположения, приведенные выше, и не заботится об остальных. Хотя оба метода в принципе схожи и требуют от пользователя указания количества тем, которые необходимо обнаружить до начала обучения (как и в случае с кластеризацией K-средних ), LDA имеет следующие преимущества перед pLSA:
- LDA обеспечивает лучшее устранение неоднозначности слов и более точное присвоение документов темам.
- Вычисление вероятностей позволяет использовать «генеративный» процесс, с помощью которого может быть создан набор новых «синтетических документов», который будет точно отражать статистические характеристики исходной коллекции.
- В отличие от LDA, pLSA уязвим к переобучению, особенно при увеличении размера корпуса.
- Алгоритм LDA легче масштабируется для больших наборов данных с использованием подхода MapReduce в вычислительном кластере.
Модель
[ редактировать ]С помощью табличной нотации , которая часто используется для представления вероятностных графических моделей (PGM), можно кратко отразить зависимости между многими переменными. Ящики представляют собой «пластины», представляющие реплики, которые представляют собой повторяющиеся объекты. Внешняя пластина представляет документы, а внутренняя пластина представляет повторяющиеся позиции слов в данном документе; каждая позиция связана с выбором темы и слова. Имена переменных определяются следующим образом:
- M обозначает количество документов
- N — количество слов в данном документе (документ i имеет слова)
- α - параметр априорного распределения Дирихле по темам каждого документа.
- β - параметр априора Дирихле для распределения слов по темам.
- это распределение тем для документа i
- это распределение слов по теме k
- это тема для j -го слова в документе i
- это конкретное слово.
Тот факт, что W выделен серым цветом, означает, что слова являются единственными наблюдаемыми переменными , а остальные переменные являются скрытыми переменными . Как было предложено в оригинальной статье, [ 3 ] разреженный априор Дирихле можно использовать для моделирования распределения тем-слов, следуя интуитивному предположению, что распределение вероятностей слов в теме искажено, так что только небольшой набор слов имеет высокую вероятность. Полученная модель является наиболее широко применяемым на сегодняшний день вариантом LDA. Обозначение таблички для этой модели приведено справа, где обозначает количество тем и являются -мерные векторы, хранящие параметры распределенных по Дирихле распределений тем-слов ( количество слов в словаре).
Полезно подумать о сущностях, представленных и как матрицы, созданные путем разложения исходной матрицы «документ-слово», которая представляет корпус моделируемых документов. С этой точки зрения, состоит из строк, определенных документами, и столбцов, определенных темами, а состоит из строк, определяемых темами, и столбцов, определяемых словами. Таким образом, относится к набору строк или векторов, каждый из которых представляет собой распределение по словам, и относится к набору строк, каждая из которых представляет собой распределение по темам.
Генеративный процесс
[ редактировать ]Чтобы на самом деле сделать вывод о темах в корпусе, мы представляем себе генеративный процесс, в ходе которого создаются документы, чтобы мы могли сделать вывод или перепроектировать его. Мы представляем себе генеративный процесс следующим образом. Документы представлены как случайные смеси по скрытым темам, где каждая тема характеризуется распределением по всем словам. LDA предполагает следующий генеративный процесс для корпуса состоящий из документы каждый длиной :
1. Выберите , где и представляет собой распределение Дирихле с симметричным параметром которого обычно мало ( )
2. Выберите , где и обычно редко
3. Для каждой из позиций слова , где , и
- а) Выберите тему
- (б) Выбери слово
(Обратите внимание, что полиномиальное распределение здесь относится к полиному только с одним испытанием, который также известен как категориальное распределение .)
Длина рассматриваются как независимые от всех других переменных, генерирующих данные ( и ). Нижний индекс часто опускается, как на показанных здесь диаграммах пластин.
Определение
[ редактировать ]Формальное описание LDA выглядит следующим образом:
Переменная | Тип | Значение |
---|---|---|
целое число | количество тем (например, 50) | |
целое число | количество слов в словаре (например, 50 000 или 1 000 000) | |
целое число | количество документов | |
целое число | количество слов в документе d | |
целое число | общее количество слов во всех документах; сумма всех ценности, т.е. | |
позитивный реальный | предшествующий вес темы k в документе; обычно одинаков для всех тем; обычно число меньше 1, например 0,1, чтобы предпочесть разреженное распределение тем, т. е. несколько тем в документе. | |
K -мерный вектор положительных вещественных чисел | сбор всех значения, рассматриваемые как один вектор | |
позитивный реальный | предшествующий вес слова w в теме; обычно один и тот же для всех слов; обычно число намного меньше 1, например 0,001, чтобы настоятельно предпочесть разреженное распределение слов, т.е. несколько слов на тему. | |
V -мерный вектор положительных вещественных чисел | сбор всех значения, рассматриваемые как один вектор | |
вероятность (действительное число от 0 до 1) | вероятность появления слова w в теме k | |
V -мерный вектор вероятностей, сумма которого должна равняться 1 | распределение слов в теме k | |
вероятность (действительное число от 0 до 1) | вероятность появления темы k в документе d | |
K -мерный вектор вероятностей, сумма которого должна равняться 1 | распределение тем в документе d | |
целое число от 1 до K | идентичность темы слова w в документе d | |
N -мерный вектор целых чисел от 1 до K | идентичность темы всех слов во всех документах | |
целое число от 1 до V | идентичность слова w в документе d | |
N -мерный вектор целых чисел от 1 до V | идентичность всех слов во всех документах |
Затем мы можем математически описать случайные величины следующим образом:
Вывод
[ редактировать ]Изучение различных распределений (набора тем, связанных с ними вероятностей слов, темы каждого слова и конкретной смеси тем каждого документа) является проблемой статистического вывода .
Моделирование Монте-Карло
[ редактировать ]Оригинальная статья Pritchard et al. [ 1 ] использовалась аппроксимация апостериорного распределения методом Монте-Карло. Альтернативное предложение методов вывода включает выборку Гиббса . [ 8 ]
Вариационный Байес
[ редактировать ]В оригинальной статье ML использовалась вариационная байесовская аппроксимация апостериорного распределения . [ 3 ]
Максимизация правдоподобия
[ редактировать ]Прямая оптимизация вероятности с помощью алгоритма блочной релаксации оказывается быстрой альтернативой MCMC. [ 9 ]
Неизвестное количество групп/тем
[ редактировать ]На практике оптимальное количество групп или тем заранее не известно. Его можно оценить аппроксимацией апостериорного распределения цепью Маркова с обратимым скачком Монте-Карло . [ 10 ]
Альтернативные подходы
[ редактировать ]Альтернативные подходы включают распространение ожиданий . [ 11 ]
Недавние исследования были сосредоточены на ускорении вывода о скрытом распределении Дирихле для поддержки охвата огромного количества тем в большом количестве документов. Уравнение обновления свернутого семплера Гиббса, упомянутое в предыдущем разделе, имеет естественную разреженность, которой можно воспользоваться. Интуитивно, поскольку каждый документ содержит только подмножество тем. , и слово также появляется только в подмножестве тем , приведенное выше уравнение обновления можно переписать, чтобы воспользоваться этой разреженностью. [ 12 ]
В этом уравнении у нас есть три члена, из которых два разреженных, а другой маленький. Мы называем эти термины и соответственно. Теперь, если мы нормализуем каждый термин, суммируя по всем темам, мы получим:
Здесь мы можем видеть это представляет собой суммирование тем, которые появляются в документе , и также является скудным суммированием тем, о которых говорит слово. присваивается всему корпусу. с другой стороны, является плотным, но из-за малых значений & , значение очень мало по сравнению с двумя другими членами.
Теперь, при выборке темы, если мы равномерно выберем случайную величину из , мы можем проверить, в какую корзину попал наш образец. мал, мы вряд ли попадем в это ведро; однако, если мы попадем в эту категорию, выборка темы займет время (то же, что и в оригинальном Collapsed Gibbs Sampler). Однако если мы попадаем в две другие группы, нам нужно будет проверять лишь часть тем, если мы ведем учет редких тем. Тему можно выбрать из ведро в время, и тему можно выбрать из ведро в время, где и обозначает количество тем, присвоенных текущему документу и текущему типу слов соответственно.
Обратите внимание, что после выборки каждой темы обновление этих сегментов является базовым. арифметические операции.
Аспекты вычислительных деталей
[ редактировать ]Ниже приводится вывод уравнений для свернутой выборки Гиббса , что означает песок s будет интегрирован. Для простоты в этом выводе предполагается, что все документы имеют одинаковую длину. . Вывод одинаково действителен, если длина документа различается.
Согласно модели, полная вероятность модели равна:
где переменные, выделенные жирным шрифтом, обозначают векторную версию переменных. Первый, и необходимо интегрироваться.
Все независимы друг от друга и одинаковы для всех с. Таким образом, мы можем лечить каждого и каждый отдельно. Сейчас мы сосредоточимся только на часть.
Далее мы можем сосредоточиться только на одном как следующее:
На самом деле это скрытая часть модели для документ. Теперь мы заменим вероятности в приведенном выше уравнении выражением истинного распределения, чтобы записать явное уравнение.
Позволять количество словесных токенов в документ с тем же символом слова ( слово в словаре), присвоенное тема. Так, является трехмерным. Если какое-либо из трех измерений не ограничено конкретным значением, мы используем точку в скобках. к обозначить. Например, обозначает количество словесных токенов в документ, закрепленный за тема. Таким образом, правую часть приведенного выше уравнения можно переписать как:
Итак, формулу интегрирования можно изменить на:
Уравнение внутри интегрирования имеет тот же вид, что и распределение Дирихле . Согласно распределению Дирихле ,
Таким образом,
Теперь мы обратим внимание на часть. Собственно, вывод часть очень похожа на часть. Здесь мы лишь перечислим этапы вывода:
Для наглядности запишем здесь окончательное уравнение с обоими и интегрированный выход:
Целью выборки Гиббса здесь является аппроксимация распределения . С неизменен для любого из Z, уравнения выборки Гиббса могут быть получены из напрямую. Ключевым моментом является получение следующей условной вероятности:
где обозначает скрытая переменная словесный токен в документ. И далее мы предполагаем, что слово символом этого является слово в словаре. обозначает все но . Обратите внимание, что выборка Гиббса требует только выборки значения для , согласно приведенной выше вероятности, нам не нужно точное значение
но отношения между вероятностями, которые может иметь значение. Итак, приведенное выше уравнение можно упростить как:
Наконец, позвольте иметь то же значение, что и но с исключено. Приведенное выше уравнение можно еще больше упростить, используя свойство гамма-функции . Сначала мы разделяем сумму, а затем объединяем ее обратно, чтобы получить - независимое суммирование, которое можно опустить:
Обратите внимание, что та же самая формула выведена в статье о мультиномиальном распределении Дирихле как часть более общего обсуждения интеграции априорных значений распределения Дирихле из байесовской сети .
Связанные проблемы
[ редактировать ]Похожие модели
[ редактировать ]Тематическое моделирование — это классическое решение проблемы поиска информации с использованием связанных данных и технологии семантической сети. [ 13 ] Связанными моделями и методами являются, среди прочего, скрытое семантическое индексирование , анализ независимых компонентов , вероятностное скрытое семантическое индексирование , неотрицательная матричная факторизация и распределение Гамма-Пуассона .
Модель LDA является модульной и поэтому может быть легко расширена. Основная область интересов – моделирование связей между темами. Это достигается использованием другого распределения на симплексе вместо Дирихле. Модель коррелированных тем [ 14 ] следует этому подходу, создавая корреляционную структуру между темами, используя логистическое нормальное распределение вместо Дирихле. Другое расширение — иерархический LDA (hLDA), [ 15 ] где темы объединяются в иерархию с помощью вложенного процесса китайского ресторана , структура которого изучается на основе данных. LDA также можно расширить до корпуса, в котором документ включает два типа информации (например, слова и имена), как в модели LDA-dual . [ 16 ] Непараметрические расширения LDA включают иерархическую модель смеси процессов Дирихле , которая позволяет неограниченному количеству тем и обучаться на основе данных.
Как отмечалось ранее, pLSA похож на LDA. Модель LDA по сути является байесовской версией модели pLSA. Байесовская формулировка имеет тенденцию работать лучше на небольших наборах данных, поскольку байесовские методы позволяют избежать переобучения данных. Для очень больших наборов данных результаты двух моделей имеют тенденцию сходиться. Единственное отличие состоит в том, что pLSA использует переменную для представления документа в обучающем наборе. Таким образом, в pLSA при представлении документа, которого модель раньше не видела, мы исправляем - вероятность слов по темам - быть полученной из обучающего набора и использовать тот же алгоритм EM для вывода — распределение тем по . Блей утверждает, что этот шаг является мошенничеством, поскольку вы, по сути, подгоняете модель под новые данные.
Пространственные модели
[ редактировать ]В эволюционной биологии часто естественно предположить, что географическое расположение наблюдаемых особей дает некоторую информацию об их происхождении. В этом суть различных моделей генетических данных с географической привязкой. [ 10 ] [ 17 ]
Вариации LDA использовались для автоматического распределения естественных изображений по категориям, таким как «спальня» или «лес», обрабатывая изображение как документ, а небольшие участки изображения — как слова; [ 18 ] один из вариантов называется пространственным скрытым распределением Дирихле . [ 19 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Причард, Дж. К.; Стивенс, М.; Доннелли, П. (июнь 2000 г.). «Вывод о структуре популяции с использованием данных мультилокусного генотипа» . Генетика . 155 (2): стр. 945–959. дои : 10.1093/генетика/155.2.945 . ISSN 0016-6731 . ПМК 1461096 . ПМИД 10835412 .
- ^ Фалуш, Д.; Стивенс, М.; Причард, Дж. К. (2003). «Вывод о структуре популяции с использованием данных мультилокусного генотипа: связанные локусы и коррелированные частоты аллелей» . Генетика . 164 (4): стр. 1567–1587. дои : 10.1093/генетика/164.4.1567 . ПМЦ 1462648 . ПМИД 12930761 .
- ^ Перейти обратно: а б с Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I (январь 2003 г.). Лафферти, Джон (ред.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 (4–5): стр. 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 . Архивировано из оригинала 1 мая 2012 г. Проверено 19 декабря 2006 г.
- ^ Чиу, Кин; Кларк, Дэвид; Ли, Элеонора (июль 2022 г.). «Характеристика негативных мысленных образов при подростковой социальной тревоге» . Когнитивная терапия и исследования . 46 (5): 956–966. дои : 10.1007/s10608-022-10316-x . ПМЦ 9492563 . ПМИД 36156987 .
- ^ Паркер, Мария А.; Вальдес, Дэнни; Рао, Варун К.; Эдденс, Кэтрин С.; Эгли, Джон (2023). «Результаты и методологические последствия цифровой эпидемиологии упоминаний рецептурных препаратов среди пользователей Твиттера: анализ скрытого распределения Дирихле (LDA)» . Журнал медицинских интернет-исследований . 25 (1): e48405. дои : 10.2196/48405 . ПМЦ 10422173 . ПМИД 37505795 . S2CID 260246078 .
- ^ Лик, Роберт; Мосс, Фабиан С.; Рормайер, Мартин (октябрь 2020 г.). «Модель тональной диффузии» . Труды Международного общества поиска музыкальной информации . 3 (1): стр. 153–164. дои : 10.5334/тисмир.46 . S2CID 225158478 .
- ^ Джиролами, Марк; Кабан, А. (2003). Об эквивалентности между PLSI и LDA . Труды SIGIR 2003. Нью-Йорк: Ассоциация вычислительной техники. ISBN 1-58113-646-3 .
- ^ Гриффитс, Томас Л.; Стиверс, Марк (6 апреля 2004 г.). «Поиск научных тем» . Труды Национальной академии наук . 101 (Приложение 1): 5228–5235. Бибкод : 2004PNAS..101.5228G . дои : 10.1073/pnas.0307752101 . ПМК 387300 . ПМИД 14872004 .
- ^ Александр, Дэвид Х.; Новембре, Джон; Ланге, Кеннет (2009). «Быстрая оценка происхождения неродственных лиц на основе модели» . Геномные исследования . 19 (9): 1655–1664. дои : 10.1101/гр.094052.109 . ПМЦ 2752134 . ПМИД 19648217 .
- ^ Перейти обратно: а б Гийо, Ж.; Эступ, А.; Мортье, Ф.; Коссон, Дж. (2005). «Пространственно-статистическая модель ландшафтной генетики» . Генетика . 170 (3): стр. 1261–1280. doi : 10.1534/genetics.104.033803 . ПМЦ 1451194 . ПМИД 15520263 .
- ^ Минка, Томас; Лафферти, Джон (2002). Распространение ожидания для модели генеративного аспекта (PDF) . Материалы 18-й конференции по неопределенности в искусственном интеллекте. Сан-Франциско, Калифорния: Морган Кауфманн. ISBN 1-55860-897-4 .
- ^ Яо, Лимин; Мимно, Дэвид; МакКаллум, Эндрю (2009). Эффективные методы вывода тематической модели для коллекций потоковых документов . 15-я международная конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных.
- ^ Ламба, Маника; Мадхусудхан, Маргам (2019). «Составление тем в журнале DESIDOC по библиотечным и информационным технологиям, Индия: исследование». Наукометрия . 120 (2): 477–505. дои : 10.1007/s11192-019-03137-5 . S2CID 174802673 .
- ^ Блей, Дэвид М.; Лафферти, Джон Д. (2005). «Модели коррелирующих тем» (PDF) . Достижения в области нейронных систем обработки информации . 18 .
- ^ Блей, Дэвид М.; Джордан, Майкл И .; Гриффитс, Томас Л.; Тененбаум, Джошуа Б. (2004). Иерархические тематические модели и процесс вложенного китайского ресторана (PDF) . Достижения в области нейронных систем обработки информации 16: Материалы конференции 2003 года. МТИ Пресс. ISBN 0-262-20152-6 .
- ^ Шу, Лянцай; Лонг, Бо; Мэн, Вэйи (2009). Модель скрытых тем для полного разрешения сущностей (PDF) . 25-я Международная конференция IEEE по инженерии данных (ICDE 2009).
- ^ Гийо, Ж.; Леблуа, Р.; Кулон, А.; Франц, А. (2009). «Статистические методы в пространственной генетике» . Молекулярная экология . 18 (23): стр. 4734–4756. дои : 10.1111/j.1365-294X.2009.04410.x . ПМИД 19878454 .
- ^ Ли, Фей-Фей; Перона, Пьетро. «Байесовская иерархическая модель для изучения категорий природных сцен». Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR'05) . 2 : 524–531.
- ^ Ван, Сяоган; Гримсон, Эрик (2007). «Пространственное скрытое распределение Дирихле» (PDF) . Материалы конференции по нейронным системам обработки информации (NIPS) .
Внешние ссылки
[ редактировать ] в этой статье Использование внешних ссылок может не соответствовать политике и рекомендациям Википедии . ( июнь 2016 г. ) |
- jLDADMM Пакет Java для моделирования тем на обычных или коротких текстах. jLDADMM включает реализации тематической модели LDA и модели полиномиальной смеси Дирихле «одна тема на документ» . jLDADMM также предоставляет реализацию оценки кластеризации документов для сравнения тематических моделей.
- STTM Пакет Java для моделирования коротких текстовых тем ( https://github.com/qiang2100/STTM ). STTM включает в себя следующие алгоритмы: многочленная смесь Дирихле (DMM) на конференции KDD2014, тематическая модель Biterm (BTM) в журнале TKDE2016, тематическая модель Word Network (WNTM) в журнале KAIS2018, тематическая модель на основе псевдодокументов (PTM) на конференции KDD2016. , Тематическая модель на основе самоагрегации (SATM) на конференции IJCAI2015, (ETM) на конференции PAKDD2017, Обобщенная полиномиальная модель смеси Дирихле на основе урны Поля (GPU) (GPU-DMM) на конференции SIGIR2016, Обобщенная урна Поля (GPU) ) на основе Пуассоновой многочленной модели смеси Дирихле (GPU-PDMM) в журнале TIS2017 и модели скрытых функций с DMM (LF-DMM) в журнале TACL2015. STTM также включает в себя шесть корпусов коротких текстов для оценки. STTM представляет три аспекта оценки производительности алгоритмов (т. е. согласованность тем, кластеризация и классификация).
- Лекция, в которой рассматриваются некоторые обозначения в этой статье: Видеолекция по LDA и тематическому моделированию Дэвида Блея или та же лекция на YouTube.
- Библиография LDA Д. Мимно. Исчерпывающий список ресурсов, связанных с LDA (включая статьи и некоторые реализации).
- Gensim — реализация онлайн-LDA на Python+ NumPy для входных данных, превышающих доступную оперативную память.
- thememodels и lda — это два пакета R для анализа LDA.
- MALLET Пакет на основе Java с открытым исходным кодом из Массачусетского университета в Амхерсте для тематического моделирования с помощью LDA, а также имеет независимо разработанный графический интерфейс - инструмент тематического моделирования.
- LDA в реализации Mahout LDA с использованием MapReduce на Hadoop платформе
- Учебное пособие по скрытому распределению Дирихле (LDA) для платформы машинных вычислений Infer.NET Microsoft Research C# Machine Learning Framework
- LDA в Spark . Начиная с версии 1.3.0, Apache Spark также поддерживает реализацию LDA.
- LDA , пример реализации LDA MATLAB