Jump to content

Нижняя граница доказательств

В вариационных байесовских методах ( нижняя граница доказательства часто сокращенно ELBO , также иногда называемая вариационной нижней границей) [1] или отрицательная вариационная свободная энергия ) является полезной нижней границей логарифмического правдоподобия некоторых наблюдаемых данных.

ELBO полезен, поскольку он обеспечивает гарантию логарифмической вероятности некоторого распределения в наихудшем случае (например, ), который моделирует набор данных. Фактическое логарифмическое правдоподобие может быть выше (что указывает на еще лучшее соответствие распределению), поскольку ELBO включает в себя термин расхождения Кульбака-Лейблера (расхождение KL), который уменьшает ELBO из-за неточной внутренней части модели, несмотря на хорошее соответствие модель в целом. Таким образом, улучшение показателя ELBO указывает либо на повышение правдоподобия модели. или соответствие внутреннего компонента модели, или и то, и другое, и оценка ELBO представляет собой хорошую функцию потерь , например, для обучения глубокой нейронной сети для улучшения как модели в целом, так и внутреннего компонента. (Внутренний компонент , подробно определено далее в этой статье.)

Определение

[ редактировать ]

Позволять и быть случайными величинами , распределенными совместно с распределением . Например, представляет собой предельное распределение , и это условное распределение данный . Тогда для образца и любое распределение , ELBO определяется как ELBO эквивалентно можно записать как [2]

В первой строке это энтропия , что связывает ELBO со свободной энергией Гельмгольца . [3] Во второй строке называется доказательством , и это расхождение Кульбака-Лейблера между и . Поскольку расходимость Кульбака-Лейблера неотрицательна, образует нижнюю границу доказательств ( неравенство ELBO )

Мотивация

[ редактировать ]

Вариационный байесовский вывод

[ редактировать ]

Предположим, у нас есть наблюдаемая случайная величина , и мы хотим найти его истинное распределение . Это позволило бы нам генерировать данные путем выборки и оценивать вероятности будущих событий. В общем, невозможно найти. именно, что заставляет нас искать хорошее приближение .

То есть мы определяем достаточно большое параметрическое семейство распределений, затем найдите для некоторой функции потерь . Один из возможных способов решения этой проблемы — рассмотрение небольших отклонений от к и решить для . Это задача вариационного исчисления , поэтому она называется вариационным методом .

Поскольку существует не так много явно параметризованных семейств распределений (все классические семейства распределений, такие как нормальное распределение, распределение Гамбеля и т. д., слишком упрощены для моделирования истинного распределения), мы рассматриваем неявно параметризованные распределения вероятностей:

  • Сначала определим простое распределение над скрытой случайной величиной . Обычно достаточно нормального или равномерного распределения.
  • Далее определим семейство сложных функций (например, глубокая нейронная сеть ), параметризованная .
  • Наконец, определите способ преобразования любого в простое распределение по наблюдаемой случайной величине . Например, пусть имеют два выхода, то мы можем определить соответствующее распределение по быть нормальным распределением .

Это определяет семейство совместных распределений над . Очень легко примерить : просто образец , затем вычислить и, наконец, образец с использованием .

Другими словами, у нас есть генеративная модель как для наблюдаемого, так и для скрытого.Теперь рассмотрим распределение хорошо, если это близкое приближение к : так как распределение в правой части закончилось только распределение в левой части должно маргинализировать скрытую переменную прочь.
В общем, невозможно выполнить интеграл , что вынуждает нас выполнить еще одно приближение.

С ( правило Байеса ), достаточно найти хорошее приближение . Итак, определите другое семейство дистрибутива. и использовать его для аппроксимации . Это дискриминационная модель для скрытых.

Вся ситуация сведена в следующую таблицу:

: наблюдаемый : латентный
приблизительный , легкий
, легкий
приблизительный , легкий

На байесовском языке является наблюдаемым свидетельством, и является скрытым/ненаблюдаемым. Распределение над это априорное распределение по , - функция правдоподобия, и это апостериорное распределение по .

Учитывая наблюдение , мы можем сделать вывод , что вероятно, послужило причиной путем вычисления . Обычный байесовский метод заключается в оценке интеграла , затем вычисляем по правилу Байеса . В целом это дорого обходится, но если мы просто сможем найти хорошее приближение для большинства , то мы можем сделать вывод от дешево. Таким образом, поиск хорошего также называется амортизированным выводом .

В общем, мы нашли проблему вариационного байесовского вывода .

Получение ELBO

[ редактировать ]

Основной результат вариационного вывода состоит в том, что минимизация расхождения Кульбака – Лейблера (KL-дивергенция) эквивалентна максимизации логарифмического правдоподобия: где энтропия истинного распределения. Итак, если мы сможем максимизировать , мы можем минимизировать , и, следовательно, найти точное приближение .

Чтобы максимизировать , мы просто пробуем множество , то есть использовать выборку по важности где — количество выборок, взятых из истинного распределения. Это приближение можно рассматривать как переобучение. [примечание 1]

Чтобы максимизировать , необходимо найти : Обычно это не имеет закрытой формы и требует оценки. Обычным способом оценки интегралов является интегрирование Монте-Карло с выборкой по важности : где представляет собой выборочное распределение по который мы используем для выполнения интеграции Монте-Карло.

Итак, мы видим, что если мы возьмем образец , затем является несмещенной оценкой . К сожалению, это не дает нам объективной оценки , потому что является нелинейным. имеем Действительно, по неравенству Йенсена : Фактически, все очевидные оценки смещены в сторону уменьшения, поскольку независимо от количества выборок возьмем, имеем по неравенству Йенсена: Вычитая правую часть, мы видим, что проблема сводится к смещенной оценке нуля: На этом этапе мы могли бы перейти к разработке автокодировщика, взвешенного по важности. [примечание 2] , но вместо этого мы продолжим рассматривать простейший случай с : Плотность неравенства имеет замкнутый вид: Таким образом, мы получили функцию ELBO:

Максимизация ELBO

[ редактировать ]

Для фиксированного , оптимизация одновременно пытается максимизировать и свести к минимуму . Если параметризация для и достаточно гибки, мы получим некоторые , такой, что мы имеем одновременно

С у нас есть и так Другими словами, максимизация ELBO одновременно позволила бы нам получить точную генеративную модель. и точная дискриминационная модель . [5]

Основные формы

[ редактировать ]

У ELBO есть много возможных выражений, каждое из которых имеет разный акцент.

Эта форма показывает, что если мы выберем образец , затем является несмещенной оценкой ELBO.

Эта форма показывает, что ELBO является нижней границей доказательств. , и что максимизация ELBO относительно эквивалентно минимизации КЛ-дивергенции от к .

Эта форма показывает, что максимизация ELBO одновременно пытается сохранить близко к и сконцентрироваться на тех это максимизирует . То есть приблизительный задний баланс между пребыванием рядом с предыдущим и двигаемся к максимальной вероятности .

Эта форма показывает, что максимизация ELBO одновременно пытается сохранить энтропию высокий и сконцентрироваться на тех это максимизирует . То есть приблизительный задний баланс между равномерным распределением и апостериорным движением к максимуму .

Неравенство в обработке данных

[ редактировать ]

Предположим, мы возьмем независимые образцы из и соберите их в набор данных , то мы имеем эмпирическое распределение .


Примерка к можно сделать, как обычно, максимизируя логарифмическое правдоподобие : Теперь, используя неравенство ELBO, мы можем оценить , и таким образом Правая часть упрощается до KL-расхождения, и мы получаем: Этот результат можно интерпретировать как частный случай неравенства обработки данных .

В этой интерпретации максимизация сводит к минимуму , что ограничивает сверху реальное количество процентов через неравенство обработки данных. То есть мы добавляем скрытое пространство к наблюдаемому пространству, платя за более слабое неравенство ради более эффективной в вычислительном отношении минимизации КЛ-дивергенции. [6]

  1. ^ Кингма, Дидерик П.; Веллинг, Макс (01 мая 2014 г.). «Автокодирование вариационного Байеса». arXiv : 1312.6114 [ stat.ML ].
  2. ^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон (2016). «Глава 19». Глубокое обучение . Адаптивные вычисления и машинное обучение. Кембридж, Массачусетс: Пресса Массачусетского технологического института. ISBN  978-0-262-03561-3 .
  3. ^ Хинтон, Джеффри Э; Земель, Ричард (1993). «Автоэнкодеры, минимальная длина описания и свободная энергия Гельмгольца» . Достижения в области нейронных систем обработки информации . 6 . Морган-Кауфманн.
  4. ^ Бурда, Юрий; Гросс, Роджер; Салахутдинов, Руслан (01 сентября 2015 г.). «Автоэнкодеры, взвешенные по важности». arXiv : 1509.00519 [ stat.ML ].
  5. ^ Нил, Рэдфорд М.; Хинтон, Джеффри Э. (1998), «Взгляд на алгоритм Em, который оправдывает инкрементные, разреженные и другие варианты» , Обучение на графических моделях , Дордрехт: Springer Нидерланды, стр. 355–368, doi : 10.1007/978-94 -011-5014-9_12 , ISBN  978-94-010-6104-9 , S2CID   17947141
  6. ^ Кингма, Дидерик П.; Веллинг, Макс (27 ноября 2019 г.). «Введение в вариационные автоэнкодеры» . Основы и тенденции в машинном обучении . 12 (4). Раздел 2.7. arXiv : 1906.02691 . дои : 10.1561/2200000056 . ISSN   1935-8237 . S2CID   174802445 .

Примечания

[ редактировать ]
  1. ^ Фактически, по неравенству Йенсена , Оценка смещена вверх. Это можно рассматривать как переобучение: для некоторого конечного набора выборочных данных , обычно есть что-то это подходит им лучше, чем все распределение.
  2. ^ По методу дельта имеем Если мы продолжим это делать, мы получим автокодировщик, взвешенный по важности. [4]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4811aee9164a662a2cfc4de1784133f1__1719280440
URL1:https://arc.ask3.ru/arc/aa/48/f1/4811aee9164a662a2cfc4de1784133f1.html
Заголовок, (Title) документа по адресу, URL1:
Evidence lower bound - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)