Сопряжение до
Часть серии о |
Байесовская статистика |
---|
Апостериорный = Вероятность × Априорный ÷ Доказательства |
Фон |
Модельное здание |
Апостериорное приближение |
Оценщики |
Приближение доказательств |
Оценка модели |
В байесовской теории вероятностей, если для функции правдоподобия , апостериорное распределение находится в том же семействе распределений вероятностей, что и предыдущее распределение вероятностей , априорное и апостериорное распределения затем называются сопряженными распределениями относительно этой функции правдоподобия, а априорное распределение называется сопряженным априорным распределением для функции правдоподобия. .
Сопряженное априорное значение является алгебраическим удобством, дающим выражение в замкнутой форме апостериорное ; в противном случае численное интегрирование может потребоваться . Кроме того, сопряженные априорные значения могут дать интуитивное представление, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.
Понятие, а также термин «сопряженный априор» были введены Говардом Райффой и Робертом Шлайфером в их работе над байесовской теорией принятия решений . [1] Подобная концепция была открыта независимо Джорджем Альфредом Барнардом . [2]
Пример
[ редактировать ]Форму сопряженного априора обычно можно определить путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , состоящую из количества успехов. в Испытания Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида
Обычным сопряженным априором является бета-распределение с параметрами ( , ):
где и выбираются для отражения любого существующего убеждения или информации ( и дало бы равномерное распределение ) и — бета-функция, действующая как нормализующая константа .
В этом контексте и называются гиперпараметрами (параметрами предшествующей модели), чтобы отличить их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметра будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См. общую статью об экспоненциальном семействе , а также рассмотрите распределение Уишарта , сопряженное априорно с ковариационной матрицей многомерного нормального распределения , в качестве примера, когда задействована большая размерность.)
Если мы выберем эту случайную величину и получим успехи и неудачи, то мы имеем
это еще один бета-дистрибутив с параметрами . Это апостериорное распределение затем можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли бы каждую дополнительную порцию информации по мере ее поступления.
Интерпретации
[ редактировать ]Псевдо-наблюдения
[ редактировать ]Часто полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, заданными параметрами. Например, значения и бета -распределения можно рассматривать как соответствующее успехи и сбои, если апостериорный режим используется для выбора оптимальной настройки параметра, или успехи и неудачи, если апостериорное среднее используется для выбора оптимальной настройки параметра. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать с точки зрения псевдонаблюдений. Это может помочь получить интуитивное представление о часто запутанных уравнениях обновления и помочь выбрать разумные гиперпараметры для априорных вычислений.
Динамическая система
[ редактировать ]Можно думать, что обусловленность сопряженными априорными значениями определяет своего рода динамическую систему (с дискретным временем) : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» система, соответствующая «обучению». Старт в разных точках со временем приводит к разным потокам. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а скорее от данных с течением времени. Связанные подходы см. в разделах «Рекурсивная байесовская оценка» и «Ассимиляция данных» .
Практический пример
[ редактировать ]Предположим, в вашем городе работает служба проката автомобилей. Водители могут оставлять и забирать автомобили в любом месте в черте города. Найти и арендовать автомобили можно с помощью приложения.
Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль недалеко от вашего домашнего адреса в любое время суток.
За три дня вы заходите в приложение и обнаруживаете следующее количество автомобилей недалеко от вашего домашнего адреса:
Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая равна Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в данный день будет доступен хотя бы один автомобиль:
Это распределение Пуассона, которое, скорее всего, привело к получению наблюдаемых данных. . Но данные могли быть получены и из другого распределения Пуассона, например, с , или и т. д. На самом деле существует бесконечное количество распределений Пуассона, которые могли бы сгенерировать наблюдаемые данные. Учитывая относительно небольшое количество точек данных, мы должны быть совершенно не уверены в том, какое именно распределение Пуассона привело к получению этих данных. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенных по вероятности каждого из них, учитывая данные, которые мы наблюдали .
Обычно эта величина известна как апостериорное прогнозируемое распределение. где это новая точка данных, это наблюдаемые данные и являются параметрами модели. Используя теорему Байеса, мы можем расширить поэтому Как правило, этот интеграл трудно вычислить. Однако если вы выберете сопряженное априорное распределение , можно получить выражение в замкнутой форме. Это апостериорный столбец прогнозирования в таблицах ниже.
Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве априорного распределения по скорости распределений Пуассона, то апостериорным прогнозом будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами. , который нам предстоит выбрать. Глядя на графики гамма-распределения, мы выбираем , что кажется разумным априорным показателем для среднего количества автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.
Учитывая предыдущие гиперпараметры и мы можем вычислить апостериорные гиперпараметры и
Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз
Эта гораздо более консервативная оценка отражает неопределенность в параметрах модели, которую учитывает апостериорный прогноз.
Таблица сопряженных распределений
[ редактировать ]Пусть n обозначает количество наблюдений. Во всех приведенных ниже случаях предполагается, что данные состоят из n точек. (которые будут случайными векторами в многомерных случаях).
Если функция правдоподобия принадлежит экспоненциальному семейству , то существует сопряженный априор, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .
Когда функция правдоподобия является дискретным распределением
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( Август 2020 г. ) |
Вероятность | Параметры модели | Сопряженное априорное (и апостериорное) распределение | Предыдущие гиперпараметры | Задние гиперпараметры [примечание 1] | Интерпретация гиперпараметров | Задний прогнозирующий [примечание 2] |
---|---|---|---|---|---|---|
Бернулли | р (вероятность) | Бета | успехи, неудачи [примечание 3] | ( Бернулли ) | ||
Биномиальный при известном количестве испытаний, м | р (вероятность) | Бета | успехи, неудачи [примечание 3] | ( бета-биномиальный ) | ||
Отрицательный бином с известным номером отказа, r | р (вероятность) | Бета | сплошные успехи, неудачи [примечание 3] (т.е. эксперименты, предполагая остается фиксированным) | |||
Пуассон | λ (ставка) | Гамма | общее количество случаев в интервалы | ( отрицательный бином ) | ||
[примечание 4] | общее количество случаев в интервалы | ( отрицательный бином ) | ||||
Категорический | p (вектор вероятности), k (количество категорий; т. е. размер p ) | Дирихле | где количество наблюдений в категории i | вхождения категории [примечание 3] | ( категоричный ) | |
Полиномиальный | p (вектор вероятности), k (количество категорий; т. е. размер p ) | Дирихле | вхождения категории [примечание 3] | ( Дирихле-многочлен ) | ||
Гипергеометрический при известной общей численности популяции, N | M (количество целевых членов) | Бета-биномиальный [3] | успехи, неудачи [примечание 3] | |||
Геометрический | р 0 (вероятность) | Бета | эксперименты, полные неудачи [примечание 3] |
Когда функция правдоподобия является непрерывным распределением
[ редактировать ]Вероятность | Параметры модели | Сопряженное априорное (и апостериорное) распределение | Предыдущие гиперпараметры | Задние гиперпараметры [примечание 1] | Интерпретация гиперпараметров | Задний прогнозирующий [примечание 5] |
---|---|---|---|---|---|---|
Нормальный с известной дисперсией σ 2 | μ (среднее) | Нормальный | среднее значение оценивалось на основе наблюдений с полной точностью (сумма всех отдельных погрешностей) и с выборочным средним | [4] | ||
Нормальный с известной точностью τ | μ (среднее) | Нормальный | среднее значение оценивалось на основе наблюдений с полной точностью (сумма всех отдельных погрешностей) и с выборочным средним | [4] | ||
Нормальный с известным средним значением μ | п 2 (дисперсия) | Обратная гамма | [примечание 6] | дисперсия оценивалась по наблюдения с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) | [4] | |
Нормальный с известным средним значением μ | п 2 (дисперсия) | Масштабированный обратный хи-квадрат | дисперсия оценивалась по наблюдения с выборочной дисперсией | [4] | ||
Нормальный с известным средним значением μ | τ (точность) | Гамма | [примечание 4] | точность оценивалась по наблюдения с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) | [4] | |
Нормальный [примечание 7] | м и с 2 Предполагая взаимозаменяемость | Нормально-обратная гамма |
| среднее значение оценивалось по наблюдения с выборочным средним ; дисперсия оценивалась по наблюдения с выборочным средним и сумма квадратов отклонений | [4] | |
Нормальный | м и т Предполагая взаимозаменяемость | Нормальная гамма |
| среднее значение оценивалось по наблюдения с выборочным средним , а точность оценивалась по формуле наблюдения с выборочным средним и сумма квадратов отклонений | [4] | |
Многомерная нормаль с известной ковариационной матрицей Σ | μ (средний вектор) | Многомерный нормальный |
| среднее значение оценивалось на основе наблюдений с полной точностью (сумма всех отдельных погрешностей) и с выборочным средним | [4] | |
Многомерная нормаль с матрицей известной точности Λ | μ (средний вектор) | Многомерный нормальный |
| среднее значение оценивалось на основе наблюдений с полной точностью (сумма всех отдельных погрешностей) и с выборочным средним | [4] | |
Многомерный нормальный с известным средним значением μ | Σ (ковариационная матрица) | Обратный-Wishart | ковариационная матрица оценивалась по формуле наблюдения с суммой произведений попарных отклонений | [4] | ||
Многомерный нормальный с известным средним значением μ | Λ (матрица точности) | Уишарт | ковариационная матрица оценивалась по формуле наблюдения с суммой произведений попарных отклонений | [4] | ||
Многомерный нормальный | μ (средний вектор) и Σ (ковариационная матрица) | нормальный-обратный-Wishart |
| среднее значение оценивалось по наблюдения с выборочным средним ; ковариационная матрица оценивалась по формуле наблюдения с выборочным средним и с суммой произведений попарных отклонений | [4] | |
Многомерный нормальный | μ (средний вектор) и Λ (матрица точности) | нормальный-Wishart |
| среднее значение оценивалось по наблюдения с выборочным средним ; ковариационная матрица оценивалась по формуле наблюдения с выборочным средним и с суммой произведений попарных отклонений | [4] | |
Униформа | Парето | наблюдения с максимальным значением | ||||
Парето с известным минимумом x м | к (форма) | Гамма | наблюдения с суммой порядка величины каждого наблюдения (т.е. логарифм отношения каждого наблюдения к минимальному ) | |||
Вейбулл с известной формой β | θ (масштаб) | Обратная гамма [3] | наблюдения с суммой степени β'-й каждого наблюдения | |||
Логнормальный | То же, что и для нормального распределения, после применения натурального логарифма к данным для апостериорных гиперпараметров. Пожалуйста, обратитесь к Fink (1997 , стр. 21–22), чтобы увидеть подробности. | |||||
Экспоненциальный | λ (ставка) | Гамма | [примечание 4] | наблюдения, которые в сумме [5] | ( распределение Ломакса ) | |
Гамма с известной формой α | β (ставка) | Гамма | наблюдения с суммой | [примечание 8] | ||
Обратная гамма с известной формой α | β (обратная шкала) | Гамма | наблюдения с суммой | |||
Гамма с известной скоростью β | α (форма) | или наблюдения ( для оценки , для оценки ) с продуктом | ||||
Гамма [3] | α (форма), β (обратный масштаб) | было оценено от наблюдения за продуктом ; было оценено от наблюдения с суммой | ||||
Бета | а , б | и были оценены из наблюдения за продуктом и продукт дополнений |
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Перейти обратно: а б Обозначается теми же символами, что и предыдущие гиперпараметры, с добавлением штрихов ('). Например обозначается
- ^ Это апостериорное прогнозируемое распределение новой точки данных. параметрами с учетом наблюдаемых точек данных, с маргинализированными . Переменные со штрихами обозначают апостериорные значения параметров.
- ^ Перейти обратно: а б с д и ж г Точная интерпретация параметров бета-распределения с точки зрения количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения равно что соответствует успехи и сбои, пока режим что соответствует успехи и неудачи. Байесианцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду в качестве точечной оценки, оправданной квадратичной функцией потерь, и использованием и математически удобнее, а использование и имеет то преимущество, что униформа априор соответствует 0 успехам и 0 неудачам. Те же проблемы применимы и к распределению Дирихле .
- ^ Перейти обратно: а б с β — скорость или обратная шкала. При параметризации распределения гамма - θ = 1/ β и k = α .
- ^ Это апостериорное прогнозируемое распределение новой точки данных. параметрами с учетом наблюдаемых точек данных, с маргинализированными . Переменные со штрихами обозначают апостериорные значения параметров. и относятся к нормальному распределению и t-распределению Стьюдента соответственно или к многомерному нормальному распределению и многомерному t-распределению в многомерных случаях.
- ^ Что касается обратной гаммы , параметр масштаба
- ^ Другой сопряженный априор для неизвестных среднего и дисперсии, но с фиксированной линейной связью между ними, находится в нормальной смеси дисперсии и среднего с обобщенным обратным гауссианом в качестве распределения сопряженного смешивания.
- ^ — сложное гамма-распределение ; вот обобщенное бета-распределение простых чисел .
Ссылки
[ редактировать ]- ^ Говард Райффа и Роберт Шлайфер . Прикладная статистическая теория принятия решений . Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961 год.
- ^ Джефф Миллер и др. Самые ранние известные варианты использования некоторых математических слов : «сопряженные априорные распределения» . Электронный документ, редакция от 13 ноября 2005 г., получено 2 декабря 2005 г.
- ^ Перейти обратно: а б с Финк, Дэниел (1997). «Сборник сопряженных априорных значений» (PDF) . CiteSeerX 10.1.1.157.5540 . Архивировано из оригинала (PDF) 29 мая 2009 г.
- ^ Перейти обратно: а б с д и ж г час я дж к л м Мерфи, Кевин П. (2007), Сопряженный байесовский анализ гауссовского распределения (PDF)
- ^ Лю, Хан; Вассерман, Ларри (2014). Статистическое машинное обучение (PDF) . п. 314.