Jump to content

Вариационные байесовские методы

(Перенаправлено из Вариационного вывода )

Вариационные байесовские методы — это семейство методов аппроксимации трудноразрешимых интегралов, возникающих при байесовском выводе и машинном обучении . Они обычно используются в сложных статистических моделях, состоящих из наблюдаемых переменных (обычно называемых «данными»), а также неизвестных параметров и скрытых переменных , с различными видами отношений между тремя типами случайных величин , которые могут быть описаны графической моделью . Как это типично для байесовского вывода, параметры и скрытые переменные группируются вместе как «ненаблюдаемые переменные». Вариационные байесовские методы в основном используются для двух целей:

  1. Обеспечить аналитическую аппроксимацию апостериорной вероятности ненаблюдаемых переменных, чтобы сделать статистические выводы по этим переменным.
  2. Получить нижнюю границу ( предельной вероятности иногда называемой доказательством ) наблюдаемых данных (т. е. предельной вероятности данных с учетом модели с маргинализацией, выполняемой по ненаблюдаемым переменным). Обычно это используется для выбора модели , общая идея заключается в том, что более высокая предельная вероятность для данной модели указывает на лучшее соответствие данных этой моделью и, следовательно, большую вероятность того, что рассматриваемая модель была той, которая сгенерировала данные. (См. также статью о байесовском факторе .)

В первой цели (аппроксимация апостериорной вероятности) вариационный Байес является альтернативой методам выборки Монте-Карло , в частности, методам Монте-Карло с цепью Маркова , таким как выборка Гиббса , для использования полностью байесовского подхода к статистическому выводу по сложным распределениям , которые трудно оценить напрямую или по образцу . В частности, в то время как методы Монте-Карло обеспечивают численную аппроксимацию точной апостериорной функции с использованием набора выборок, вариационный Байес обеспечивает локально оптимальное, точное аналитическое решение для аппроксимации апостериорной функции.

Вариационный Байес можно рассматривать как расширение алгоритма ожидания-максимизации (EM) от максимальной апостериорной оценки (оценка MAP) единственного наиболее вероятного значения каждого параметра до полностью байесовской оценки, которая вычисляет (приближение) всего апостериорного распределения. параметров и скрытых переменных. Как и в EM, он находит набор оптимальных значений параметров и имеет ту же переменную структуру, что и EM, основанную на наборе взаимосвязанных (взаимозависимых) уравнений, которые не могут быть решены аналитически.

Для многих приложений вариационный Байес дает решения, сравнимые по точности с выборкой Гиббса, но с большей скоростью. Однако получение набора уравнений, используемых для итеративного обновления параметров, часто требует большого объема работы по сравнению с получением сопоставимых уравнений выборки Гиббса. Это справедливо даже для многих моделей, которые концептуально довольно просты, как показано ниже в случае базовой неиерархической модели только с двумя параметрами и без скрытых переменных.

Математический вывод

[ редактировать ]

Проблема

[ редактировать ]

В вариационном выводе апостериорное распределение по набору ненаблюдаемых переменных учитывая некоторые данные аппроксимируется так называемым вариационным распределением ,

Распределение ограничивается принадлежностью к семейству распределений более простой формы, чем (например, семейство гауссовских распределений), выбранное с намерением сделать аналогичен истинному заднему, .

Сходство (или несходство) измеряется с помощью функции несходства. и, следовательно, вывод выполняется путем выбора распределения что сводит к минимуму .

Дивергенция КЛ

[ редактировать ]

Наиболее распространенный тип вариационного Байеса использует расхождение Кульбака – Лейблера (KL-дивергенцию) Q от P в качестве функции несходства. Этот выбор делает эту минимизацию осуществимой. KL-дивергенция определяется как

Обратите внимание, что Q и P перевернуты, чего можно было ожидать. Такое использование обратной КЛ-дивергенции концептуально похоже на алгоритм ожидания-максимизации . (Другое использование KL-дивергенции приводит к алгоритму распространения ожиданий .)

несговорчивость

[ редактировать ]

Вариационные методы обычно используются для формирования аппроксимации:

Маргинализация закончилась рассчитать в знаменателе обычно трудноразрешима, потому что, например, пространство поиска является комбинаторно большим. Поэтому мы ищем приближение, используя .

Нижняя граница доказательств

[ редактировать ]

При условии , KL-дивергенция, указанная выше, также может быть записана как

Потому что является константой по отношению к и потому что это дистрибутив, у нас есть

которое согласно определению ожидаемого значения (для дискретной случайной величины ) можно записать следующим образом

который можно переставить так, чтобы он стал

Как журнал- свидетельство фиксируется относительно , максимизируя последний член минимизирует расхождение KL от . При соответствующем выборе , становится доступным для вычислений и максимизации. Следовательно, мы имеем как аналитическое приближение для задней части и нижняя граница для протокола-доказательства (поскольку KL-дивергенция неотрицательна).

Нижняя граница известна как (отрицательная) вариационная свободная энергия по аналогии с термодинамической свободной энергией , поскольку ее также можно выразить как отрицательную энергию. плюс энтропия . Термин также известен как Нижняя граница доказательств , сокращенно ELBO , чтобы подчеркнуть, что это нижняя граница (наихудший случай) логарифмической достоверности данных.

Доказательства

[ редактировать ]

С помощью обобщенной теоремы Пифагора о дивергенции Брегмана , частным случаем которой является KL-дивергенция, можно показать, что: [1] [2]

Обобщенная теорема Пифагора для расхождения Брегмана [2]

где является выпуклым множеством и равенство имеет место, если:

В этом случае глобальный минимизатор с можно найти следующим образом: [1]

в котором нормировочная константа равна:

Термин на практике часто называют нижней границей доказательств ( ELBO ), поскольку , [1] как показано выше.

Поменявшись ролями и мы можем итеративно вычислить приближенное и маргинальных значений истинной модели и соответственно. Хотя эта итерационная схема гарантированно сходится монотонно, [1] конвергентный является лишь локальным минимизатором .

Если ограниченное пространство заключен в независимое пространство, т.е. приведенная выше итерационная схема станет так называемым приближением среднего поля как показано ниже.

Приближение среднего поля

[ редактировать ]

Вариационное распределение обычно предполагается, что факторизуется по некоторому разделу скрытых переменных, т.е. по некоторому разделу скрытых переменных в ,

можно показать, что «лучшее» распределение С помощью вариационного исчисления (отсюда и название «вариационный Байес») по каждому из факторов (с точки зрения распределения, минимизирующего KL-расхождение, как описано выше) удовлетворяет: [3]

где - это математическое ожидание логарифма совместной вероятности данных и скрытых переменных, взятого относительно по всем переменным, не входящим в разбиение: см. лемму 4.1 из [4] для вывода распределения .

На практике мы обычно работаем с логарифмами, т.е.:

Константа в приведенном выше выражении связана с константой нормализации (знаменатель в приведенном выше выражении для ) и обычно восстанавливается при проверке, поскольку остальную часть выражения обычно можно распознать как распределение известного типа (например, Гауссово , гамма и т. д.).

Используя свойства ожиданий, выражение обычно можно упростить до функции фиксированных гиперпараметров предшествующих распределений по скрытым переменным и ожиданий (а иногда и более высоких моментов, таких как дисперсия ) скрытых переменных, не входящих в текущий раздел (т.е. скрытых переменных, не включенных в ). Это создает круговые зависимости между параметрами распределений переменных в одном разделе и ожиданиями переменных в других разделах. Это, естественно, предполагает итерационный алгоритм, очень похожий на EM ( алгоритм максимизации ожидания ), в котором ожидания (и, возможно, более высокие моменты) скрытых переменных инициализируются каким-то образом (возможно, случайным образом), а затем параметры каждого распределения вычисляется, в свою очередь, с использованием текущих значений ожиданий, после чего ожидание вновь вычисленного распределения устанавливается соответствующим образом в соответствии с вычисленными параметрами. Алгоритм такого типа гарантированно сходится . [5]

Другими словами, для каждого из разбиений переменных, упростив выражение распределения по переменным разбиения и исследовав функциональную зависимость распределения от рассматриваемых переменных, обычно можно определить семейство распределения (что, в свою очередь, определяет значение константы). Формула для параметров распределения будет выражаться через гиперпараметры предыдущих распределений (которые являются известными константами), а также через ожидания функций переменных в других разделах. Обычно эти ожидания можно упростить до функций ожиданий самих переменных (т.е. средств ); иногда также появляются ожидания квадратов переменных (которые могут быть связаны с дисперсией переменных) или ожидания более высоких степеней (т.е. более высоких моментов ). В большинстве случаев распределения других переменных будут принадлежать к известным семействам, и можно найти формулы для соответствующих ожиданий. Однако эти формулы зависят от параметров этих распределений, которые, в свою очередь, зависят от ожиданий относительно других переменных. В результате формулы для параметров распределений каждой переменной могут быть выражены в виде серии уравнений с взаимными нелинейные зависимости между переменными. Обычно решить эту систему уравнений напрямую не представляется возможным. Однако, как описано выше, зависимости предполагают простой итерационный алгоритм, который в большинстве случаев гарантированно сходится. Пример сделает этот процесс более понятным.

Формула двойственности для вариационного вывода

[ редактировать ]
Наглядная иллюстрация алгоритма вариационного вывода координат по формуле двойственности [4]

Следующая теорема называется формулой двойственности для вариационного вывода. [4] Это объясняет некоторые важные свойства вариационных распределений, используемых в вариационных методах Байеса.

Теорема. Рассмотрим два вероятностных пространства. и с . Предположим, что существует общая доминирующая вероятностная мера такой, что и . Позволять обозначают любую действительную случайную величину на это удовлетворяет . Тогда имеет место равенство

Далее, верхняя грань в правой части достигается тогда и только тогда, когда выполняется

почти наверняка относительно вероятностной меры , где и обозначим производные Радона–Никодима вероятностных мер и относительно , соответственно.

Базовый пример

[ редактировать ]

Рассмотрим простую неиерархическую байесовскую модель, состоящую из набора наблюдений iid из гауссовского распределения с неизвестными средним значением и дисперсией . [6] Далее мы подробно рассмотрим эту модель, чтобы проиллюстрировать работу вариационного метода Байеса.

Для математического удобства в следующем примере мы работаем с точки зрения точности — то есть обратной величины дисперсии (или в многомерном гауссове, обратной ковариационной матрице ) — а не самой дисперсии. (С теоретической точки зрения точность и дисперсия эквивалентны, поскольку существует взаимно однозначное соответствие между ними .)

Математическая модель

[ редактировать ]

Мы помещаем сопряженные априорные распределения в неизвестное среднее значение и точность т.е. среднее значение также соответствует распределению Гаусса, а точность соответствует гамма-распределению . Другими словами:

Гиперпараметры и в предыдущих распределениях фиксированы заданные значения. Им можно задать небольшие положительные числа, чтобы получить широкие априорные распределения, указывающие на незнание априорных распределений. и .

Нам дано точки данных и наша цель — вывести апостериорное распределение параметров и

Совместная вероятность

[ редактировать ]

Совместную вероятность всех переменных можно переписать как

где отдельные факторы

где

Факторизованное приближение

[ редактировать ]

Предположим, что , т. е. что апостериорное распределение разлагается на независимые факторы для и . Этот тип предположения лежит в основе вариационного байесовского метода. Истинное апостериорное распределение на самом деле не учитывает этот фактор (на самом деле, в этом простом случае известно, что оно представляет собой гамма-распределение Гаусса ), и, следовательно, результат, который мы получим, будет аппроксимацией.

Вывод q ( µ )

[ редактировать ]

Затем

В приведенном выше выводе , и относятся к значениям, которые постоянны по отношению к . Обратите внимание, что термин не является функцией и будет иметь одно и то же значение независимо от значения . Следовательно, в строке 3 мы можем объединить его с постоянным членом в конце. То же самое делаем в строке 7.

Последняя строка представляет собой просто квадратичный полином от . Так как это логарифм , мы можем это видеть само по себе является распределением Гаусса .

С помощью определенного количества утомительных математических вычислений (расширение квадратов внутри фигурных скобок, выделение и группировка терминов, включающих и и квадрат завершаем ), мы можем вывести параметры распределения Гаусса:

Обратите внимание, что все вышеперечисленные шаги можно сократить, используя формулу суммы двух квадратичных дробей .

Другими словами:

Вывод q(τ)

[ редактировать ]

Вывод аналогично предыдущему, хотя для краткости мы опускаем некоторые детали.

Возведя в степень обе стороны, мы увидим, что представляет собой гамма-распределение . Конкретно:

Алгоритм расчета параметров

[ редактировать ]

Подведем итоги предыдущих разделов:

и

В каждом случае параметры распределения по одной из переменных зависят от ожиданий, принятых по отношению к другой переменной. Мы можем расширить ожидания, используя стандартные формулы для математических ожиданий моментов гауссовского и гамма-распределений:

Применение этих формул к приведенным выше уравнениям в большинстве случаев тривиально, но уравнение для требует больше работы:

Затем мы можем записать уравнения параметров следующим образом, без каких-либо ожиданий:

Обратите внимание, что между формулами для и . Это, естественно, предполагает EM -подобный алгоритм:

  1. Вычислить и Используйте эти значения для вычисления и
  2. Инициализировать до некоторого произвольного значения.
  3. Используйте текущее значение наряду с известными значениями других параметров, чтобы вычислить .
  4. Используйте текущее значение наряду с известными значениями других параметров, чтобы вычислить .
  5. Повторяйте последние два шага до тех пор, пока не произойдет сходимость (т. е. пока ни одно из значений не изменится более чем на небольшую величину).

Затем у нас есть значения гиперпараметров аппроксимирующих распределений апостериорных параметров, которые мы можем использовать для вычисления любых желаемых свойств апостериорного показателя — например, его среднего значения и дисперсии, 95%-ной области с самой высокой плотностью (наименьший интервал, включающий 95 % от общей вероятности) и т. д.

Можно показать, что этот алгоритм гарантированно сходится к локальному максимуму.

Отметим также, что апостериорные распределения имеют ту же форму, что и соответствующие априорные распределения. Мы не этого предполагали; единственное предположение, которое мы сделали, заключалось в том, что распределения факторизуются, и форма распределений получается естественным образом. Оказывается (см. ниже), что тот факт, что апостериорные распределения имеют ту же форму, что и априорные распределения, является не совпадением, а общим результатом всякий раз, когда априорные распределения являются членами экспоненциального семейства , что имеет место для большинства стандартные дистрибутивы.

Дальнейшее обсуждение

[ редактировать ]

Пошаговый рецепт

[ редактировать ]

В приведенном выше примере показан метод, с помощью которого вариационно-байесовская аппроксимация апостериорной плотности вероятности в данной байесовской сети выводится :

  1. Опишите сеть с помощью графической модели , определив наблюдаемые переменные (данные). и ненаблюдаемые переменные ( параметры и скрытые переменные ) и их условные распределения вероятностей . Затем вариационный Байес построит аппроксимацию апостериорной вероятности. . Основное свойство аппроксимации состоит в том, что это факторизованное распределение, т.е. произведение двух или более независимых распределений по непересекающимся подмножествам ненаблюдаемых переменных.
  2. Разделите ненаблюдаемые переменные на два или более подмножества, на основе которых будут получены независимые факторы. Для этого не существует универсальной процедуры; создание слишком большого количества подмножеств дает плохую аппроксимацию, а создание слишком малого количества делает всю вариационную процедуру Байеса неразрешимой. Обычно первое разделение заключается в разделении параметров и скрытых переменных; часто этого достаточно, чтобы получить приемлемый результат. Предположим, что разделы называются .
  3. Для данного раздела , запишите формулу наилучшего аппроксимирующего распределения используя основное уравнение .
  4. Заполните формулу совместного распределения вероятностей, используя графическую модель. Любые условные распределения компонентов, которые не включают ни одну из переменных в можно игнорировать; они будут свернуты в постоянный член.
  5. Упростите формулу и примените оператор ожидания, следуя приведенному выше примеру. В идеале это должно упроститься до ожиданий базовых функций переменных, не входящих в (например, первый или второй необработанные моменты , математическое ожидание логарифма и т. д.). Чтобы вариационная процедура Байеса работала хорошо, эти ожидания обычно должны быть выражены аналитически как функции параметров и/или гиперпараметров распределений этих переменных. Во всех случаях эти математические ожидания являются константами по отношению к переменным в текущем разделе.
  6. Функциональная форма формулы относительно переменных текущего раздела указывает на тип распределения. В частности, возведение формулы в степень генерирует функцию плотности вероятности (PDF) распределения (или, по крайней мере, что-то пропорциональное ей с неизвестной константой нормализации ). Чтобы весь метод был управляемым, должна быть возможность распознать, что функциональная форма принадлежит известному распределению. Для преобразования формулы в форму, соответствующую PDF известного распределения, могут потребоваться значительные математические манипуляции. Когда это возможно, константа нормализации может быть восстановлена ​​по определению, а уравнения для параметров известного распределения могут быть получены путем извлечения соответствующих частей формулы.
  7. Когда все ожидания могут быть аналитически заменены функциями переменных, не входящих в текущее разбиение, а PDF-файл представлен в форме, позволяющей идентифицировать его с известным распределением, результатом является набор уравнений, выражающих значения оптимальных параметров как функции параметры переменных в других разделах.
  8. Когда эту процедуру можно применить ко всем разделам, результатом является набор взаимосвязанных уравнений, определяющих оптимальные значения всех параметров.
  9. Затем применяется процедура типа ожидания-максимизации (EM), выбирающая начальное значение для каждого параметра и повторяющаяся серия шагов, где на каждом этапе мы циклически просматриваем уравнения, обновляя каждый параметр по очереди. Это гарантированно сходится.

Наиболее важные моменты

[ редактировать ]

Из-за всех математических манипуляций легко потерять общую картину. Важные вещи:

  1. Идея вариационного Байеса состоит в том, чтобы построить аналитическую аппроксимацию апостериорной вероятности набора ненаблюдаемых переменных (параметров и скрытых переменных) по данным. Это означает, что форма решения аналогична другим методам байесовского вывода , таким как выборка Гиббса — то есть распределение, которое стремится описать все, что известно о переменных. Как и в других байесовских методах – но в отличие, например, от методов максимизации ожидания (EM) или других методов максимального правдоподобия – оба типа ненаблюдаемых переменных (т.е. параметры и скрытые переменные) обрабатываются одинаково, т.е. как случайные величины . Оценки переменных затем можно получить стандартными байесовскими способами, например, вычислив среднее значение распределения для получения одноточечной оценки или выведя достоверный интервал , область с наибольшей плотностью и т. д.
  2. «Аналитическая аппроксимация» означает, что можно записать формулу апостериорного распределения. Формула обычно состоит из произведения известных распределений вероятностей, каждое из которых факторизуется по набору ненаблюдаемых переменных (т.е. оно условно независимо от других переменных с учетом наблюдаемых данных). Эта формула не является истинным апостериорным распределением, а является его приближением; в частности, оно, как правило, довольно близко согласуется в самые низкие моменты ненаблюдаемых переменных, например среднего значения и дисперсии .
  3. Результатом всех математических манипуляций является (1) идентичность распределений вероятностей, составляющих факторы, и (2) взаимозависимые формулы для параметров этих распределений. Фактические значения этих параметров вычисляются численно с помощью поочередной итерационной процедуры, очень похожей на EM.

По сравнению с ожиданием-максимизацией (EM)

[ редактировать ]

Вариационный байесовский метод (ВБ) часто сравнивают с ожиданием-максимизацией (ЕМ). Реальная численная процедура очень похожа, поскольку обе они представляют собой чередующиеся итерационные процедуры, которые последовательно сходятся к оптимальным значениям параметров. Начальные шаги по получению соответствующих процедур также отчасти схожи: оба начинаются с формул для плотностей вероятности и оба включают значительное количество математических манипуляций.

Однако существует ряд различий. Самое главное — то, что вычисляется.

  • EM вычисляет точечные оценки апостериорного распределения тех случайных величин, которые можно отнести к категории «параметров», но только оценки фактических апостериорных распределений скрытых переменных (по крайней мере, в «мягком EM», и часто только тогда, когда скрытые переменные дискретны). ). Вычисленные точечные оценки представляют собой моды этих параметров; никакой другой информации нет.
  • VB, с другой стороны, вычисляет оценки фактического апостериорного распределения всех переменных, как параметров, так и скрытых переменных. Когда необходимо получить точечные оценки, обычно среднее значение используется , а не мода, как это обычно бывает в байесовском выводе. При этом параметры, рассчитанные в VB, не имеют того же значения, что и в EM. EM сама вычисляет оптимальные значения параметров сети Байеса. VB вычисляет оптимальные значения параметров распределений, используемых для аппроксимации параметров и скрытых переменных сети Байеса. Например, типичная модель гауссовой смеси будет иметь параметры для среднего значения и дисперсии каждого из компонентов смеси. ЭМ будет напрямую оценивать оптимальные значения этих параметров. Однако VB сначала подгонял бы распределение под эти параметры — обычно в форме априорного распределения , например, обратного гамма-распределения в нормальном масштабе — и затем вычислял бы значения параметров этого априорного распределения, т.е. гиперпараметры . В этом случае VB вычислит оптимальные оценки четырех параметров обратного гамма-распределения в нормальном масштабе, которое описывает совместное распределение среднего значения и дисперсии компонента.

Более сложный пример

[ редактировать ]
Модель байесовской смеси Гаусса с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Заполненные фигуры обозначают известные значения. Индикация [K] означает вектор размера K ; [ D , D ] означает матрицу размера D × D ; K Только означает категориальную переменную с K результатами. Волнистая линия, идущая от z и заканчивающаяся перекладиной, указывает на переключатель — значение этой переменной выбирает для других входящих переменных, какое значение использовать из size- K . массива возможных значений

Представьте себе модель байесовской смеси Гаусса, описываемую следующим образом: [3]

Примечание:

Интерпретация вышеуказанных переменных следующая:

  • это набор точки данных, каждая из которых представляет собой -мерный вектор, распределенный согласно многомерному распределению Гаусса .
  • представляет собой набор скрытых переменных, по одной на каждую точку данных, определяющих, какому компоненту смеси принадлежит соответствующая точка данных, с использованием векторного представления «один из K» с компонентами для , как описано выше.
  • это пропорции смешивания компоненты смеси.
  • и укажите параметры ( среднее значение и точность ), связанные с каждым компонентом смеси.

Совместную вероятность всех переменных можно переписать как

где отдельные факторы

где

Предположим, что .

Затем [3]

где мы определили

Возведение в степень обеих частей формулы для урожайность

Требование, чтобы это было нормализовано, в конечном итоге требует, чтобы суммировать до 1 по всем значениям , уступая

где

Другими словами, является продуктом полиномиальных распределений одного наблюдения и факторов по каждому отдельному наблюдению. , которое распространяется как полиномиальное распределение одного наблюдения с параметрами для .

Кроме того, отметим, что

что является стандартным результатом для категориальных распределений.

Теперь, учитывая фактор , обратите внимание, что это автоматически учитывается из-за структуры графической модели, определяющей нашу модель гауссовской смеси, указанной выше.

Затем,

Взяв экспоненту обеих сторон, мы узнаем как распределение Дирихле

где

где

Окончательно

Группировка и чтение терминов, включающих и , результатом является распределение Гаусса-Вишарта , определяемое формулой

учитывая определения

Наконец, обратите внимание, что эти функции требуют значений , которые используют , который, в свою очередь, определяется на основе , , и . Теперь, когда мы определили распределения, по которым берутся эти ожидания, мы можем вывести для них формулы:

Эти результаты приводят к

Их можно преобразовать из пропорциональных в абсолютные значения путем нормализации по так что сумма соответствующих значений равна 1.

Обратите внимание, что:

  1. Уравнения обновления параметров , , и переменных и зависит от статистики , , и , а эта статистика, в свою очередь, зависит от .
  2. Уравнения обновления параметров переменной зависит от статистики , что, в свою очередь, зависит от .
  3. Уравнение обновления для имеет прямую круговую зависимость от , , и а также косвенная круговая зависимость от , и через и .

Это предполагает итеративную процедуру, которая чередует два этапа:

  1. E-шаг, который вычисляет значение используя текущие значения всех остальных параметров.
  2. M-шаг, использующий новое значение для вычисления новых значений всех остальных параметров.

Обратите внимание, что эти шаги тесно связаны со стандартным алгоритмом EM для получения максимального правдоподобия или максимального апостериорного (MAP) решения для параметров модели гауссовой смеси . Обязанности на этапе E близко соответствуют апостериорным вероятностям скрытых переменных с учетом данных, т.е. ; расчет статистики , , и близко соответствует вычислению соответствующей статистики «мягкого подсчета» по данным; и использование этой статистики для вычисления новых значений параметров близко соответствует использованию мягких подсчетов для вычисления новых значений параметров в обычной ЭМ по модели гауссовой смеси.

Распределения экспоненциального семейства

[ редактировать ]

Обратите внимание, что в предыдущем примере, когда предполагалось, что распределение по ненаблюдаемым переменным разлагается на распределения по «параметрам» и распределения по «скрытым данным», полученное «лучшее» распределение для каждой переменной находилось в том же семействе, что и соответствующее предварительное распределение по переменной. Это общий результат, который справедлив для всех предыдущих распределений, полученных из экспоненциального семейства .

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с д Тран, Вьет Хунг (2018). «Вариационный байесовский вывод копулы с помощью информационной геометрии». arXiv : 1803.10998 [ cs.IT ].
  2. ^ Перейти обратно: а б Адамчик, Мартин (2014). «Информационная геометрия расхождений Брегмана и некоторые приложения в рассуждениях с участием нескольких экспертов» . Энтропия . 16 (12): 6338–6381. Бибкод : 2014Entrp..16.6338A . дои : 10.3390/e16126338 .
  3. ^ Перейти обратно: а б с Нгуен, Дуй (15 августа 2023 г.). «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ» . дои : 10.2139/ssrn.4541076 . ССНР   4541076 . Проверено 15 августа 2023 г.
  4. ^ Перейти обратно: а б с Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1–21. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214 . S2CID   220935477 .
  5. ^ Бойд, Стивен П.; Ванденберге, Ливен (2004). Выпуклая оптимизация (PDF) . Издательство Кембриджского университета. ISBN  978-0-521-83378-3 . Проверено 15 октября 2011 г.
  6. ^ Бишоп, Кристофер М. (2006). «Глава 10». Распознавание образов и машинное обучение . Спрингер. ISBN  978-0-387-31073-2 .
  7. ^ Сотириос П. Чацис, « Бесконечные машины дискриминации с максимальной энтропией с марковским переключением », Proc. 30-я Международная конференция по машинному обучению (ICML). Журнал исследований машинного обучения: материалы семинаров и конференций, том. 28, нет. 3, стр. 729–737, июнь 2013 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b587e5991de98c103a498c9533a0065b__1716836460
URL1:https://arc.ask3.ru/arc/aa/b5/5b/b587e5991de98c103a498c9533a0065b.html
Заголовок, (Title) документа по адресу, URL1:
Variational Bayesian methods - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)