Распределение Пачинко

В машинном обучении и обработке естественного языка модель распределения патинко (PAM) является тематической моделью . Тематические модели — это набор алгоритмов, позволяющих раскрыть скрытую тематическую структуру коллекции документов. ^[1] Алгоритм совершенствует более ранние модели тем, такие как скрытое распределение Дирихле (LDA), путем моделирования корреляций между темами в дополнение к корреляциям слов, которые составляют темы. PAM обеспечивает большую гибкость и большую выразительную силу.чем скрытое распределение Дирихле. ^[2] Хотя алгоритм впервые описан и реализован в контексте обработки естественного языка, он может найти применение и в других областях, таких как биоинформатика .Модель названа в честь автоматов пачинко — популярной в Японии игры, в которой металлические шарики подпрыгиваютсложная коллекция булавок, пока они не попадут в разныеконтейнеры внизу. ^[3]

История [ править ]

Распределение патинко было впервые описано Вэй Ли и Эндрю МакКаллумом в 2006 году. ^[3]Идея была расширена за счет иерархического распределения Пачинко Ли, МакКаллумом и Дэвидом Мимно в 2007 году. ^[4] В 2007 году МакКаллум и его коллеги предложили непараметрический байесовский априор для PAM.по варианту иерархического процесса Дирихле (HDP). ^[2] Алгоритм был реализован в программном пакете MALLET , опубликованном группой МакКаллума в Массачусетском университете в Амхерсте .

Модель [ править ]

PAM соединяет слова в V и темы в T с помощью произвольного направленного ациклического графа (DAG), где узлы тем занимают внутренние уровни, а листьями являются слова.

Вероятность создания всего корпуса — это произведение вероятностей для каждого документа: ^[3]

$P(\mathbf {D} |\alpha )=\prod _{d}P(d|\alpha )$

См. также [ править ]

Вероятностное скрытое семантическое индексирование (PLSI), ранняя тематическая модель, предложенная Томасом Хофманном в 1999 году. ^[5]
Скрытое распределение Дирихле — обобщение PLSI, разработанное Дэвидом Блей , Эндрю Нг и Майклом Джорданом в 2002 году, позволяющее документам иметь смесь тем. ^[6]
MALLET — Java-библиотека с открытым исходным кодом, реализующая распределение Пачинко.

Ссылки [ править ]

^ Блей, Дэвид. «Тематическое моделирование» . Архивировано из оригинала 2 октября 2012 года . Проверено 4 октября 2012 г.
^ Jump up to: Перейти обратно: ^а ^б Ли, Вэй; Блей, Дэвид; МакКаллум, Эндрю (2007). «Непараметрическое распределение Байеса Пачинко». arXiv : 1206.5270 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Jump up to: Перейти обратно: ^а ^б ^с Ли, Вэй; МакКаллум, Эндрю (2006). «Распределение Пачинко: смешанные модели корреляций тем со структурой DAG» (PDF) . Материалы 23-й международной конференции по машинному обучению — ICML '06 . стр. 577–584. дои : 10.1145/1143844.1143917 . ISBN 1595933832 . S2CID 13160178 .
^ Мимно, Дэвид; Ли, Вэй; МакКаллум, Эндрю (2007). «Смеси иерархических тем с распределением Пачинко» (PDF) . Материалы 24-й международной конференции по машинному обучению . стр. 633–640. дои : 10.1145/1273496.1273576 . ISBN 9781595937933 . S2CID 6045658 . {{cite book}}: CS1 maint: дата и год ( ссылка )
^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 года.
^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : стр. 993–1022. Архивировано из оригинала 1 мая 2012 года . Проверено 19 июля 2010 г.

Внешние ссылки [ править ]

Смесь иерархических тем с распределением Пачинко , видеозапись Дэвида Мимно, представляющего HPAM в 2007 году.

Эта по информатике статья незавершена . Вы можете помочь Википедии, расширив ее .

[1] Блей, Дэвид. «Тематическое моделирование» . Архивировано из оригинала 2 октября 2012 года . Проверено 4 октября 2012 г.

[mccallum07-2] Jump up to: Перейти обратно: ^а ^б Ли, Вэй; Блей, Дэвид; МакКаллум, Эндрю (2007). «Непараметрическое распределение Байеса Пачинко». arXiv : 1206.5270 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[li2006-3] Jump up to: Перейти обратно: ^а ^б ^с Ли, Вэй; МакКаллум, Эндрю (2006). «Распределение Пачинко: смешанные модели корреляций тем со структурой DAG» (PDF) . Материалы 23-й международной конференции по машинному обучению — ICML '06 . стр. 577–584. дои : 10.1145/1143844.1143917 . ISBN 1595933832 . S2CID 13160178 .

[mimno2007-4] Мимно, Дэвид; Ли, Вэй; МакКаллум, Эндрю (2007). «Смеси иерархических тем с распределением Пачинко» (PDF) . Материалы 24-й международной конференции по машинному обучению . стр. 633–640. дои : 10.1145/1273496.1273576 . ISBN 9781595937933 . S2CID 6045658 . {{cite book}}: CS1 maint: дата и год ( ссылка )

[hofmann1999-5] Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 года.

[blei2003-6] Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : стр. 993–1022. Архивировано из оригинала 1 мая 2012 года . Проверено 19 июля 2010 г.

[1]

[2]

[3]

[4]

[5]

[6]