Jump to content

Распределение Пачинко

В машинном обучении и обработке естественного языка модель распределения патинко (PAM) является тематической моделью . Тематические модели — это набор алгоритмов, позволяющих раскрыть скрытую тематическую структуру коллекции документов. [1] Алгоритм совершенствует более ранние модели тем, такие как скрытое распределение Дирихле (LDA), путем моделирования корреляций между темами в дополнение к корреляциям слов, которые составляют темы. PAM обеспечивает большую гибкость и большую выразительную силу.чем скрытое распределение Дирихле. [2] Хотя алгоритм впервые описан и реализован в контексте обработки естественного языка, он может найти применение и в других областях, таких как биоинформатика .Модель названа в честь автоматов пачинко — популярной в Японии игры, в которой металлические шарики подпрыгиваютсложная коллекция булавок, пока они не попадут в разныеконтейнеры внизу. [3]

История [ править ]

Распределение патинко было впервые описано Вэй Ли и Эндрю МакКаллумом в 2006 году. [3] Идея была расширена за счет иерархического распределения Пачинко Ли, МакКаллумом и Дэвидом Мимно в 2007 году. [4] В 2007 году МакКаллум и его коллеги предложили непараметрический байесовский априор для PAM.по варианту иерархического процесса Дирихле (HDP). [2] Алгоритм был реализован в программном пакете MALLET , опубликованном группой МакКаллума в Массачусетском университете в Амхерсте .

Модель [ править ]

PAM соединяет слова в V и темы в T с помощью произвольного направленного ациклического графа (DAG), где узлы тем занимают внутренние уровни, а листьями являются слова.

Вероятность создания всего корпуса — это произведение вероятностей для каждого документа: [3]

См. также [ править ]

Ссылки [ править ]

  1. ^ Блей, Дэвид. «Тематическое моделирование» . Архивировано из оригинала 2 октября 2012 года . Проверено 4 октября 2012 г.
  2. ^ Jump up to: Перейти обратно: а б Ли, Вэй; Блей, Дэвид; МакКаллум, Эндрю (2007). «Непараметрическое распределение Байеса Пачинко». arXiv : 1206.5270 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  3. ^ Jump up to: Перейти обратно: а б с Ли, Вэй; МакКаллум, Эндрю (2006). «Распределение Пачинко: смешанные модели корреляций тем со структурой DAG» (PDF) . Материалы 23-й международной конференции по машинному обучению — ICML '06 . стр. 577–584. дои : 10.1145/1143844.1143917 . ISBN  1595933832 . S2CID   13160178 .
  4. ^ Мимно, Дэвид; Ли, Вэй; МакКаллум, Эндрю (2007). «Смеси иерархических тем с распределением Пачинко» (PDF) . Материалы 24-й международной конференции по машинному обучению . стр. 633–640. дои : 10.1145/1273496.1273576 . ISBN  9781595937933 . S2CID   6045658 . {{cite book}}: CS1 maint: дата и год ( ссылка )
  5. ^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 года.
  6. ^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : стр. 993–1022. Архивировано из оригинала 1 мая 2012 года . Проверено 19 июля 2010 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0c29a5f8273a3819223f986ec5315187__1692972840
URL1:https://arc.ask3.ru/arc/aa/0c/87/0c29a5f8273a3819223f986ec5315187.html
Заголовок, (Title) документа по адресу, URL1:
Pachinko allocation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)