Распределение Пачинко
В машинном обучении и обработке естественного языка модель распределения патинко (PAM) является тематической моделью . Тематические модели — это набор алгоритмов, позволяющих раскрыть скрытую тематическую структуру коллекции документов. [1] Алгоритм совершенствует более ранние модели тем, такие как скрытое распределение Дирихле (LDA), путем моделирования корреляций между темами в дополнение к корреляциям слов, которые составляют темы. PAM обеспечивает большую гибкость и большую выразительную силу.чем скрытое распределение Дирихле. [2] Хотя алгоритм впервые описан и реализован в контексте обработки естественного языка, он может найти применение и в других областях, таких как биоинформатика .Модель названа в честь автоматов пачинко — популярной в Японии игры, в которой металлические шарики подпрыгиваютсложная коллекция булавок, пока они не попадут в разныеконтейнеры внизу. [3]
История [ править ]
Распределение патинко было впервые описано Вэй Ли и Эндрю МакКаллумом в 2006 году. [3] Идея была расширена за счет иерархического распределения Пачинко Ли, МакКаллумом и Дэвидом Мимно в 2007 году. [4] В 2007 году МакКаллум и его коллеги предложили непараметрический байесовский априор для PAM.по варианту иерархического процесса Дирихле (HDP). [2] Алгоритм был реализован в программном пакете MALLET , опубликованном группой МакКаллума в Массачусетском университете в Амхерсте .
Модель [ править ]
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( июль 2017 г. ) |
PAM соединяет слова в V и темы в T с помощью произвольного направленного ациклического графа (DAG), где узлы тем занимают внутренние уровни, а листьями являются слова.
Вероятность создания всего корпуса — это произведение вероятностей для каждого документа: [3]
См. также [ править ]
- Вероятностное скрытое семантическое индексирование (PLSI), ранняя тематическая модель, предложенная Томасом Хофманном в 1999 году. [5]
- Скрытое распределение Дирихле — обобщение PLSI, разработанное Дэвидом Блей , Эндрю Нг и Майклом Джорданом в 2002 году, позволяющее документам иметь смесь тем. [6]
- MALLET — Java-библиотека с открытым исходным кодом, реализующая распределение Пачинко.
Ссылки [ править ]
- ^ Блей, Дэвид. «Тематическое моделирование» . Архивировано из оригинала 2 октября 2012 года . Проверено 4 октября 2012 г.
- ^ Jump up to: Перейти обратно: а б Ли, Вэй; Блей, Дэвид; МакКаллум, Эндрю (2007). «Непараметрическое распределение Байеса Пачинко». arXiv : 1206.5270 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Jump up to: Перейти обратно: а б с Ли, Вэй; МакКаллум, Эндрю (2006). «Распределение Пачинко: смешанные модели корреляций тем со структурой DAG» (PDF) . Материалы 23-й международной конференции по машинному обучению — ICML '06 . стр. 577–584. дои : 10.1145/1143844.1143917 . ISBN 1595933832 . S2CID 13160178 .
- ^ Мимно, Дэвид; Ли, Вэй; МакКаллум, Эндрю (2007). «Смеси иерархических тем с распределением Пачинко» (PDF) . Материалы 24-й международной конференции по машинному обучению . стр. 633–640. дои : 10.1145/1273496.1273576 . ISBN 9781595937933 . S2CID 6045658 .
{{cite book}}
: CS1 maint: дата и год ( ссылка ) - ^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 года.
- ^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : стр. 993–1022. Архивировано из оригинала 1 мая 2012 года . Проверено 19 июля 2010 г.
Внешние ссылки [ править ]
- Смесь иерархических тем с распределением Пачинко , видеозапись Дэвида Мимно, представляющего HPAM в 2007 году.