Эмпирический метод Байеса
Часть серии о |
Байесовская статистика |
---|
Апостериорный = Вероятность × Априорный ÷ Доказательства |
Фон |
Модельное здание |
Апостериорное приближение |
Оценщики |
Приближение доказательств |
Оценка модели |
Эмпирические методы Байеса — это процедуры статистического вывода , в которых априорное распределение вероятностей оценивается на основе данных. Этот подход отличается от стандартных байесовских методов , для которых априорное распределение фиксируется до того, как будут наблюдаться какие-либо данные. Несмотря на эту разницу во взглядах, эмпирический Байес можно рассматривать как приближение к полностью байесовской трактовке иерархической модели , в которой параметрам на самом высоком уровне иерархии присваиваются наиболее вероятные значения, а не интегрируются. [1] Эмпирический Байес, также известный как максимальное предельное правдоподобие , [2] представляет собой удобный подход для установки гиперпараметров , но с 2000-х годов по большей части был вытеснен полностью байесовским иерархическим анализом с ростом доступности хорошо эффективных методов вычислений. Однако он по-прежнему широко используется для вариационных методов глубокого обучения, таких как вариационные автоэнкодеры , где пространства скрытых переменных являются многомерными.
Введение
[ редактировать ]Эмпирические байесовские методы можно рассматривать как приближение к полностью байесовской трактовке иерархической байесовской модели .
Например, в двухэтапной иерархической модели Байеса наблюдаемые данные предполагается, что они генерируются из ненаблюдаемого набора параметров согласно распределению вероятностей . В свою очередь, параметры можно считать выборками, взятыми из популяции, характеризующейся гиперпараметрами согласно распределению вероятностей . В иерархической модели Байеса, но не в эмпирическом приближении Байеса, гиперпараметры считаются взятыми из непараметризованного распределения .
Информация о конкретном интересующем количестве следовательно, исходит не только из свойств этих данных которые напрямую зависят от него, но и от свойств совокупности параметров в целом, выведено из данных в целом, суммировано по гиперпараметрам .
Используя теорему Байеса ,
В общем, этот интеграл не поддается аналитическому или символическому анализу и должен вычисляться численными методами. Могут использоваться стохастические (случайные) или детерминированные аппроксимации. Примерами стохастических методов являются цепи Маркова Монте-Карло и выборка Монте-Карло . Детерминированные аппроксимации обсуждаются в квадратурах .
Альтернативно выражение можно записать как
а последний множитель в интеграле, в свою очередь, может быть выражен как
Они предполагают итерационную схему, качественно аналогичную по структуре пробоотборнику Гиббса , для разработки последовательно улучшаемых приближений к и . Сначала вычислите начальное приближение к игнорируя зависимость полная; затем вычислите приближение к на основе первоначального приблизительного распределения ; тогда используй это обновить приближение для ; затем обновите ; и так далее.
Когда истинное распределение имеет резкий пик, интеграл, определяющий можно не сильно изменить, заменив распределение вероятностей по с точечной оценкой представляющий пик распределения (или, альтернативно, его среднее значение),
При таком приближении приведенная выше итерационная схема становится EM-алгоритмом .
Термин «эмпирический Байес» может охватывать широкий спектр методов, но большинство из них можно рассматривать как раннее усечение либо приведенной выше схемы, либо чего-то очень похожего на нее. Для параметра (параметров) обычно используются точечные оценки, а не все распределение. . Смета на обычно производятся в первом приближении без последующей доработки. Эти оценки для обычно производятся без учета соответствующего предварительного распределения для .
Оценка баллов
[ редактировать ]Метод Роббинса: непараметрический эмпирический Байес (NPEB)
[ редактировать ]Роббинс [3] рассмотрен случай выборки из смешанного распределения , где вероятность для каждого (при условии ) определяется распределением Пуассона ,
в то время как априорное значение θ не указано, за исключением того, что оно также относится к неизвестному распределению с кумулятивной функцией распределения . Выборка соединений возникает при решении различных задач статистической оценки, таких как частота несчастных случаев и клинические испытания. [ нужна ссылка ] Мы просто ищем точечное предсказание с учетом всех наблюдаемых данных. Поскольку априор не определен, мы пытаемся сделать это без знания G . [4]
При квадратичной потере ошибок (SEL) условное ожидание E ( θ i | Y i = y i ) является разумной величиной, которую можно использовать для прогнозирования. Для модели выборки соединений Пуассона эта величина равна
Это можно упростить, умножив числитель и знаменатель на , уступая
где p G полученная путем интегрирования θ по G. — предельная массовая функция вероятности ,
Чтобы воспользоваться этим, Роббинс [3] предложил оценивать маргиналы с помощью их эмпирических частот ( ), что дает полностью непараметрическую оценку как:
где обозначает «количество». (См. также оценку частоты Гуда – Тьюринга .)
- Пример – Уровень аварийности
Предположим, что каждый клиент страховой компании имеет «аварийность» Θ и застрахован от несчастных случаев; распределение вероятностей Θ является основным распределением и неизвестно. Количество несчастных случаев, произошедших с каждым клиентом за определенный период времени, имеет распределение Пуассона с ожидаемым значением, равным частоте несчастных случаев с конкретным клиентом. Фактическое количество несчастных случаев, с которыми столкнулся клиент, является наблюдаемой величиной. Грубый способ оценить основное вероятностное распределение частоты несчастных случаев Θ состоит в том, чтобы оценить долю членов всего населения, пострадавших от 0, 1, 2, 3, ... несчастных случаев в течение указанного периода времени, как соответствующую долю в наблюдаемых случайная выборка. После этого желательно спрогнозировать уровень несчастных случаев для каждого клиента в выборке. Как и выше, можно использовать условное ожидаемое значение аварийности Θ, учитывая наблюдаемое количество несчастных случаев в течение базового периода. Таким образом, если с клиентом произошло шесть несчастных случаев в течение базового периода, расчетный уровень несчастных случаев для этого клиента составит 7 × [доля выборки, в которой произошло 7 несчастных случаев] / [доля выборки, в которой произошло 6 несчастных случаев]. Обратите внимание, что если доля людей, страдающих k происшествий является убывающей функцией k , прогнозируемый уровень несчастных случаев с клиентом часто будет ниже, чем наблюдаемое количество происшествий.
Этот эффект сжатия типичен для эмпирического байесовского анализа.
Параметрический эмпирический Байес
[ редактировать ]Если правдоподобие и его априор принимают простые параметрические формы (такие как 1- или 2-мерные функции правдоподобия с простыми сопряженными априорными значениями ), то эмпирическая проблема Байеса состоит только в оценке маргинальной и гиперпараметры используя полный набор эмпирических измерений. Например, один из распространенных подходов, называемый параметрической эмпирической байесовской оценкой, заключается в аппроксимации маргинального значения с использованием оценки максимального правдоподобия (MLE) или разложения моментов , которое позволяет выразить гиперпараметры. с точки зрения эмпирического среднего и дисперсии. Этот упрощенный маргинальный показатель позволяет включить эмпирические средние значения в точечную оценку предшествующего периода. . Полученное уравнение для априорного значительно упрощается, как показано ниже.
Существует несколько распространенных параметрических эмпирических моделей Байеса, в том числе гамма-модель Пуассона (ниже), бета-биномиальная модель , модель Гаусса-Гаусса , мультиномиальная модель Дирихле , а также специальные модели для байесовской линейной регрессии (см. ниже) и Байесовская многомерная линейная регрессия . Более продвинутые подходы включают иерархические модели Байеса и модели байесовской смеси .
Гауссово-гауссова модель
[ редактировать ]Пример эмпирической оценки Байеса с использованием модели Гаусса-Гаусса см. в разделе Эмпирические оценки Байеса .
Пуассон-гамма-модель
[ редактировать ]Например, в приведенном выше примере пусть вероятность будет распределением Пуассона , и пусть априор теперь задается сопряженным априором , который является гамма-распределением ( ) (где ):
Несложно показать, что апостериорное распределение также является гамма-распределением. Писать
где предельное распределение опущено, поскольку оно не зависит явно от .Расширение терминов, которые действительно зависят от дает заднюю часть как:
Таким образом, апостериорная плотность также является гамма-распределением. , где , и . Также обратите внимание, что маргинальная часть — это просто интеграл задней части по всем , что оказывается отрицательным биномиальным распределением .
Чтобы применить эмпирический метод Байеса, мы аппроксимируем маргинальное значение, используя оценку максимального правдоподобия (MLE). Но поскольку апостериорное распределение представляет собой гамма-распределение, MLE маргинального значения оказывается просто средним значением апостериорного распределения, что является точечной оценкой. нам нужно. Напоминая, что среднее гамма-распределения это просто , у нас есть
Чтобы получить значения и , эмпирический Байес предписывает оценку среднего значения и дисперсия используя полный набор эмпирических данных.
Полученная точечная оценка поэтому это похоже на средневзвешенное значение выборочного среднего и априорное среднее . Оказывается, это общая черта эмпирического Байеса; точечные оценки априорных значений (т. е. среднего значения) будут выглядеть как средневзвешенные значения выборочной оценки и априорной оценки (аналогично для оценок дисперсии).
См. также
[ редактировать ]- Байесовский оценщик
- Байесовская сеть
- Гиперпараметр
- Гиперприор
- Лучший линейный несмещенный прогноз
- Лемма Роббинса
- Выбор переменных шипа и плиты
Ссылки
[ редактировать ]Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( февраль 2012 г. ) |
- ^ Карлин, Брэдли П.; Луи, Томас А. (2002). «Эмпирический Байес: прошлое, настоящее и будущее». В Рафтери, Адриан Э.; Таннер, Мартин А.; Уэллс, Мартин Т. (ред.). Статистика в 21 веке . Чепмен и Холл. стр. 312–318. ISBN 1-58488-272-7 .
- ^ CM Бишоп (2005). Нейронные сети для распознавания образов . Издательство Оксфордского университета ISBN 0-19-853864-2
- ^ Jump up to: а б Роббинс, Герберт (1956). «Эмпирический байесовский подход к статистике» . Труды третьего симпозиума Беркли по математической статистике и вероятности, Том 1: Вклад в теорию статистики . Серия Спрингера по статистике: 157–163. дои : 10.1007/978-1-4612-0919-5_26 . ISBN 978-0-387-94037-3 . МР 0084919 .
- ^ Карлин, Брэдли П.; Луи, Томас А. (2000). Байес и эмпирические байесовские методы анализа данных (2-е изд.). Чепмен и Холл/CRC. стр. гл. 3.2 и Приложение Б. ISBN 978-1-58488-170-4 .
Дальнейшее чтение
[ редактировать ]- Питер Э. Росси; Грег М. Алленби; Роб Маккалок (14 мая 2012 г.). Байесовская статистика и маркетинг . Джон Уайли и сыновья. ISBN 978-0-470-86368-8 .
- Казелла, Джордж (май 1985 г.). «Введение в эмпирический анализ байесовских данных» (PDF) . Американский статистик . 39 (2): 83–87. дои : 10.2307/2682801 . hdl : 1813/32886 . JSTOR 2682801 . МР 0789118 .
- Никулин, Михаил (1987). «Условия регулярности Бернштейна в задаче эмпирического байесовского подхода» . Журнал советской математики . 36 (5): 596–600. дои : 10.1007/BF01093293 . S2CID 122405908 .
Внешние ссылки
[ редактировать ]- Использование эмпирического метода Байеса для оценки безопасности дорожного движения (Северная Америка)
- Эмпирические байесовские методы анализа отсутствующих данных
- Использование бета-биномиального распределения для оценки производительности устройства биометрической идентификации.
- Иерархические наивные байесовские классификаторы (для непрерывных и дискретных переменных).