Jump to content

Параметр концентрации

В теории вероятностей и статистике параметр концентрации — это особый вид числового параметра параметрического семейства вероятностных распределений . Параметры концентрации встречаются в двух видах распределения: в распределении Фон Мизеса-Фишера и в сочетании с распределениями, областью определения которых является вероятностное распределение, например, симметричное распределение Дирихле и процесс Дирихле . Оставшаяся часть статьи посвящена последнему варианту использования.

Чем больше значение параметра концентрации, тем более равномерно распределено полученное распределение (тем больше оно стремится к равномерному распределению ). Чем меньше значение параметра концентрации, тем более разреженным является результирующее распределение, при этом большинство значений или диапазонов значений имеют вероятность, близкую к нулю (другими словами, чем больше оно стремится к распределению, сконцентрированному в одной точке, тем вырожденнее распределение, определяемое дельта-функцией Дирака ).

Распределение Дирихле

[ редактировать ]

В случае многомерных распределений Дирихле возникает некоторая путаница в том, как определить параметр концентрации. В литературе по тематическому моделированию его часто определяют как сумму отдельных параметров Дирихле: [1] при обсуждении симметричных распределений Дирихле (где параметры одинаковы для всех измерений) его часто определяют как значение одного параметра Дирихле, используемого во всех измерениях. [ нужна ссылка ] . Это второе определение меньше в раз, чем размерность распределения.

Параметр концентрации, равный 1 (или k , размерность распределения Дирихле, согласно определению, используемому в литературе по тематическому моделированию), приводит к тому, что все наборы вероятностей одинаково вероятны, т. е. в этом случае распределение Дирихле размерности k эквивалентно равномерное распределение по k-1 -мерному симплексу . Это не то же самое, что происходит, когда параметр концентрации стремится к бесконечности. В первом случае все полученные распределения равновероятны (распределение по распределениям равномерно). В последнем случае вероятны только почти равномерные распределения (распределение по распределениям имеет сильный пик вокруг равномерного распределения). Между тем, в пределе, когда параметр концентрации стремится к нулю, вероятны только распределения, в которых почти вся масса сосредоточена на одном из их компонентов (распределение по распределениям имеет сильный пик вокруг k возможных дельта-распределений Дирака с центром на одном из компонентов, или с точки зрения k -мерный симплекс имеет сильно заостренные углы в углах симплекса).

Редкий априор

[ редактировать ]

В качестве примера использования разреженного априора (параметр концентрации намного меньше 1) рассмотрим модель темы , которая используется для изучения тем, обсуждаемых в наборе документов, где каждая «тема» описывается с использованием категориального распределение по словарю слов. Типичный словарь может состоять из 100 000 слов, что приводит к 100 000-мерному категориальному распределению. Априорное распределение параметров категориального распределения, вероятно, будет симметричным распределением Дирихле . Однако связная тема может состоять всего из нескольких сотен слов со значительной вероятностной массой. Соответственно, разумная настройка параметра концентрации может составлять 0,01 или 0,001. При большем словарном запасе (около 1 000 000 слов) может подойти еще меньшее значение, например 0,0001.

См. также

[ редактировать ]
  1. ^ Уоллах, Ханна М .; Иэн Мюррей; Руслан Салахутдинов; Дэвид Мимно (2009). «Методы оценки тематических моделей». Материалы 26-й ежегодной международной конференции по машинному обучению . ICML '09. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 1105–1112. CiteSeerX   10.1.1.149.771 . дои : 10.1145/1553374.1553515 . ISBN  978-1-60558-516-1 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3e805133ac0a273badfab9b2fad5336a__1703759100
URL1:https://arc.ask3.ru/arc/aa/3e/6a/3e805133ac0a273badfab9b2fad5336a.html
Заголовок, (Title) документа по адресу, URL1:
Concentration parameter - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)