Байесовский оценщик

В теории оценивания и теории принятия решений байесовская оценка или действие Байеса — это оценка или правило принятия решения , которое минимизирует апостериорное ожидаемое значение функции потерь (т. е. апостериорную ожидаемую потерю ). Эквивалентно, это максимизирует апостериорное математическое ожидание функции полезности . Альтернативным способом формулирования оценки в байесовской статистике является максимальная апостериорная оценка .

Определение

Предположим, неизвестный параметр $\theta$ известно, что оно имеет предварительное распространение $\pi$ . Позволять ${\widehat {\theta }}={\widehat {\theta }}(x)$ быть оценщиком $\theta$ (на основе некоторых измерений x ), и пусть $L(\theta ,{\widehat {\theta }})$ быть функцией потерь , например, квадратичной ошибкой. Байесовский риск ${\widehat {\theta }}$ определяется как $E_{\pi }(L(\theta ,{\widehat {\theta }}))$ , где математическое ожидание берется за распределение вероятностей $\theta$ : определяет функцию риска как функцию ${\widehat {\theta }}$ . Оценщик ${\widehat {\theta }}$ называется байесовской оценкой, если она минимизирует байесовский риск среди всех оценщиков. Эквивалентно, оценка, которая минимизирует апостериорную ожидаемую потерю $E(L(\theta ,{\widehat {\theta }})|x)$ для каждого $x$ также минимизирует риск Байеса и, следовательно, является оценщиком Байеса. ^[1]

Если априорное значение неверно, то используется оценка, которая минимизирует апостериорные ожидаемые потери для каждого $x$ называется обобщенной оценкой Байеса . ^[2]

Примеры

Оценка минимальной среднеквадратической ошибки

Наиболее распространенной функцией риска, используемой для байесовской оценки, является среднеквадратическая ошибка (MSE), также называемая риском квадратичной ошибки . MSE определяется

\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],

где ожидание принимается за совместное распределение $\theta$ и $x$ .

Апостериорное среднее

Используя MSE в качестве риска, байесовская оценка неизвестного параметра представляет собой просто среднее апостериорного распределения , ^[3]

{\widehat {\theta }}(x)=E[\theta |x]=\int \theta \,p(\theta |x)\,d\theta .

Это известно как оценка минимальной среднеквадратической ошибки (MMSE).

Байесовские оценки для сопряженных априорных значений

Если нет внутренней причины предпочитать одно априорное распределение вероятностей другому, сопряженное априорное распределение для простоты иногда выбирается . Сопряженное априорное распределение определяется как априорное распределение, принадлежащее некоторому параметрическому семейству , для которого результирующее апостериорное распределение также принадлежит тому же семейству. Это важное свойство, поскольку оценка Байеса, а также ее статистические свойства (дисперсия, доверительный интервал и т. д.) могут быть получены из апостериорного распределения.

Сопряженные априорные значения особенно полезны для последовательной оценки, когда апостериорное значение текущего измерения используется в качестве априорного в следующем измерении. При последовательной оценке, если не используется сопряженное априорное распределение, апостериорное распределение обычно становится более сложным с каждым добавленным измерением, и оценку Байеса обычно невозможно рассчитать, не прибегая к численным методам.

Ниже приведены некоторые примеры сопряженных априорных значений.

Если $x|\theta$ это нормально , $x|\theta \sim N(\theta ,\sigma ^{2})$ , а априор нормальный, $\theta \sim N(\mu ,\tau ^{2})$ , то апостериорная часть также является нормальной, а оценка Байеса при MSE определяется выражением

{\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.

Если $x_{1},...,x_{n}$ являются iid Пуассона случайными величинами $x_{i}|\theta \sim P(\theta )$ , и если априорным является гамма-распределение $\theta \sim G(a,b)$ , то апостериорная часть также имеет гамма-распределение, а оценка Байеса при MSE определяется выражением

{\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+b}}.

Если $x_{1},...,x_{n}$ распределены равномерно $x_{i}|\theta \sim U(0,\theta )$ , и если априорное распределение распределено по Парето $\theta \sim Pa(\theta _{0},a)$ , то апостериорная функция также распределяется по Парето, а оценка Байеса при MSE определяется выражением

{\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.

Альтернативные функции риска

Функции риска выбираются в зависимости от того, как измеряется расстояние между оценкой и неизвестным параметром. MSE является наиболее распространенной функцией риска, прежде всего из-за ее простоты. Однако иногда используются и альтернативные функции риска. Ниже приведены несколько примеров таких альтернатив. Обозначим апостериорную обобщенную функцию распределения через $F$ .

Задняя медиана и другие квантили

«Линейная» функция потерь, с $a>0$ , что дает апостериорную медиану как оценку Байеса:

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Еще одна «линейная» функция потерь, которая присваивает разные «веса». $a,b>0$ к завышенной или заниженной оценке. Он дает квантиль из апостериорного распределения и является обобщением предыдущей функции потерь:

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Задний режим

Следующая функция потерь сложнее: она дает либо апостериорную моду , либо точку, близкую к ней, в зависимости от кривизны и свойств апостериорного распределения. Малые значения параметра $K>0$ рекомендуются, чтобы использовать режим в качестве приближения ( $L>0$ ):

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Можно придумать и другие функции потерь, хотя среднеквадратическая ошибка является наиболее широко используемой и проверенной. Другие функции потерь используются в статистике, особенно в робастной статистике .

Обобщенные оценки Байеса

Предыдущее распределение $p$ до сих пор считалось истинным распределением вероятностей, поскольку

\int p(\theta )d\theta =1.

Однако иногда это может быть ограничительным требованием. Например, не существует распределения (охватывающего множество R всех действительных чисел), для которого каждое действительное число равновероятно. Тем не менее, в некотором смысле такое «распределение» кажется естественным выбором неинформативного априорного распределения , т. е. априорного распределения, которое не подразумевает предпочтения какого-либо конкретного значения неизвестного параметра. Еще можно определить функцию $p(\theta )=1$ , но это не было бы правильным распределением вероятностей, поскольку оно имеет бесконечную массу,

\int {p(\theta )d\theta }=\infty .

Такие меры $p(\theta )$ , которые не являются распределениями вероятностей, называются неправильными априорными значениями .

Использование неправильного априорного значения означает, что байесовский риск не определен (поскольку априорное значение не является распределением вероятностей, и мы не можем принять под него математическое ожидание). Как следствие, больше не имеет смысла говорить об байесовской оценке, которая минимизирует байесовский риск. Тем не менее во многих случаях можно определить апостериорное распределение

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta }}.

Это определение, а не применение теоремы Байеса , поскольку теорему Байеса можно применять только тогда, когда все распределения правильные. Однако нередко полученное «апостериорное» распределение оказывается действительным распределением вероятностей. В этом случае апостериорные ожидаемые потери

\int {L(\theta ,a)p(\theta |x)d\theta }

обычно четко определена и конечна. Напомним, что для правильного априора оценка Байеса минимизирует апостериорные ожидаемые потери. Когда априорная оценка неверна, оценка, которая минимизирует апостериорные ожидаемые потери, называется обобщенной оценкой Байеса . ^[2]

Пример

Типичным примером является оценка параметра местоположения с помощью функции потерь типа $L(a-\theta )$ . Здесь $\theta$ является параметром местоположения, т.е. $p(x|\theta )=f(x-\theta )$ .

Обычно используется неправильное предшествующее $p(\theta )=1$ в этом случае, особенно когда нет другой, более субъективной информации. Это дает

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}={\frac {f(x-\theta )}{p(x)}}

так что апостериорная ожидаемая потеря

E[L(a-\theta )|x]=\int {L(a-\theta )p(\theta |x)d\theta }={\frac {1}{p(x)}}\int L(a-\theta )f(x-\theta )d\theta .

Обобщенная оценка Байеса - это значение $a(x)$ которое минимизирует это выражение для данного $x$ . Это эквивалентно минимизации

\int L(a-\theta )f(x-\theta )d\theta

для данного

x.

(1)

В этом случае можно показать, что обобщенная оценка Байеса имеет вид $x+a_{0}$ , для некоторой константы $a_{0}$ . Чтобы увидеть это, позвольте $a_{0}$ быть значением, минимизирующим (1), когда $x=0$ . Тогда, учитывая другое значение $x_{1}$ , мы должны минимизировать

\int L(a-\theta )f(x_{1}-\theta )d\theta =\int L(a-x_{1}-\theta ')f(-\theta ')d\theta '.

(2)

Это идентично (1), за исключением того, что $a$ был заменен на $a-x_{1}$ . Таким образом, минимизация выражения имеет вид $a-x_{1}=a_{0}$ , так что оптимальная оценка имеет вид

a(x)=a_{0}+x.\,\!

Эмпирические оценки Байеса

Оценка Байеса, полученная с помощью эмпирического метода Байеса, называется эмпирической оценкой Байеса . Эмпирические методы Байеса позволяют использовать вспомогательные эмпирические данные из наблюдений за связанными параметрами при разработке оценки Байеса. Это делается в предположении, что оцененные параметры получены из общего априора. Например, если проводятся независимые наблюдения за различными параметрами, то эффективность оценки конкретного параметра иногда можно улучшить, используя данные других наблюдений.

Существуют как параметрические , так и непараметрические подходы к эмпирической оценке Байеса. ^[4]

Пример

Ниже приведен простой пример параметрической эмпирической байесовской оценки. Учитывая прошлые наблюдения $x_{1},\ldots ,x_{n}$ имеющий условное распределение $f(x_{i}|\theta _{i})$ , интересует оценка $\theta _{n+1}$ на основе $x_{n+1}$ . Предположим, что $\theta _{i}$ у нас есть общий опыт $\pi$ которая зависит от неизвестных параметров. Например, предположим, что $\pi$ нормально с неизвестным средним значением $\mu _{\pi }\,\!$ и дисперсия $\sigma _{\pi }\,\!.$ Затем мы можем использовать прошлые наблюдения, чтобы определить среднее значение и дисперсию $\pi$ следующим образом.

Сначала мы оцениваем среднее значение $\mu _{m}\,\!$ и дисперсия $\sigma _{m}\,\!$ предельного распределения $x_{1},\ldots ,x_{n}$ используя подход максимального правдоподобия :

{\widehat {\mu }}_{m}={\frac {1}{n}}\sum {x_{i}},

{\widehat {\sigma }}_{m}^{2}={\frac {1}{n}}\sum {(x_{i}-{\widehat {\mu }}_{m})^{2}}.

Далее мы используем закон полного ожидания для вычисления $\mu _{m}$ и закон полной дисперсии для вычисления $\sigma _{m}^{2}$ такой, что

\mu _{m}=E_{\pi }[\mu _{f}(\theta )]\,\!,

\sigma _{m}^{2}=E_{\pi }[\sigma _{f}^{2}(\theta )]+E_{\pi }[(\mu _{f}(\theta )-\mu _{m})^{2}],

где $\mu _{f}(\theta )$ и $\sigma _{f}(\theta )$ – моменты условного распределения $f(x_{i}|\theta _{i})$ , которые считаются известными. В частности, предположим, что $\mu _{f}(\theta )=\theta$ и это $\sigma _{f}^{2}(\theta )=K$ ; тогда у нас есть

\mu _{\pi }=\mu _{m}\,\!,

\sigma _{\pi }^{2}=\sigma _{m}^{2}-\sigma _{f}^{2}=\sigma _{m}^{2}-K.

Наконец, мы получаем оценки моментов априора:

{\widehat {\mu }}_{\pi }={\widehat {\mu }}_{m},

{\widehat {\sigma }}_{\pi }^{2}={\widehat {\sigma }}_{m}^{2}-K.

Например, если $x_{i}|\theta _{i}\sim N(\theta _{i},1)$ , и если мы предполагаем нормальный априор (который в данном случае является сопряженным априором), мы заключаем, что $\theta _{n+1}\sim N({\widehat {\mu }}_{\pi },{\widehat {\sigma }}_{\pi }^{2})$ , из которого байесовская оценка $\theta _{n+1}$ на основе $x_{n+1}$ можно рассчитать.

Характеристики

Приемлемость

Обычно допустимы правила Байеса, имеющие конечный байесовский риск . Ниже приведены некоторые конкретные примеры теорем о допустимости.

Если правило Байеса уникально, то оно допустимо. ^[5] Например, как указано выше, при среднеквадратической ошибке (MSE) правило Байеса уникально и поэтому допустимо.
Если θ принадлежит дискретному множеству , то все правила Байеса допустимы.
Если θ принадлежит непрерывному (недискретному) множеству и если функция риска R(θ,δ) непрерывна по θ для любого δ, то все правила Байеса допустимы.

Напротив, обобщенные правила Байеса часто имеют неопределенный байесовский риск в случае неправильных априорных значений. Эти правила часто являются неприемлемыми, и проверка их приемлемости может быть затруднена. Например, обобщенная байесовская оценка параметра местоположения θ на основе гауссовских выборок (описанная выше в разделе «Обобщенная байесовская оценка») недопустима для $p>2$ ; это известно как феномен Штейна .

Асимптотическая эффективность

Пусть θ — неизвестная случайная величина и предположим, что $x_{1},x_{2},\ldots$ представляют собой iid- образцы с плотностью $f(x_{i}|\theta )$ . Позволять $\delta _{n}=\delta _{n}(x_{1},\ldots ,x_{n})$ быть последовательностью байесовских оценок θ, основанных на возрастающем количестве измерений. Нас интересует анализ асимптотической эффективности этой последовательности оценок, т. е. производительности $\delta _{n}$ для большого n .

С этой целью принято рассматривать θ как детерминированный параметр, истинное значение которого равно $\theta _{0}$ . В особых условиях, ^[6] для больших выборок (большие значения n ) апостериорная плотность θ примерно нормальна. Другими словами, при больших n влияние априорной вероятности на апостериорную незначительно. Более того, если δ является байесовской оценкой риска MSE, то она асимптотически несмещена и сходится по распределению к нормальному распределению :

{\sqrt {n}}(\delta _{n}-\theta _{0})\to N\left(0,{\frac {1}{I(\theta _{0})}}\right),

где I (θ ₀ ) — информация Фишера для θ ₀ .Отсюда следует, что оценка Байеса δ _n при MSE асимптотически эффективна .

Другая оценка, которая является асимптотически нормальной и эффективной, — это оценка максимального правдоподобия (MLE). Связь между оценками максимального правдоподобия и байесовскими оценками можно показать на следующем простом примере.

Пример: оценка p в биномиальном распределении

Рассмотрим оценку θ на основе биномиальной выборки x ~ b(θ, n ), где θ обозначает вероятность успеха. Предполагая, что θ распределяется в соответствии с сопряженным априорным распределением, которое в данном случае является бета-распределением B( a , b ), известно, что апостериорное распределение равно B(a+x,b+nx). Таким образом, оценка Байеса при MSE равна

\delta _{n}(x)=E[\theta |x]={\frac {a+x}{a+b+n}}.

MLE в этом случае равен x/n, поэтому мы получаем:

\delta _{n}(x)={\frac {a+b}{a+b+n}}E[\theta ]+{\frac {n}{a+b+n}}\delta _{MLE}.

Из последнего уравнения следует, что при n → ∞ байесовская оценка (в описанной задаче) близка к MLE.

С другой стороны, когда n мало, априорная информация по-прежнему актуальна для проблемы принятия решения и влияет на оценку. Чтобы увидеть относительный вес априорной информации, предположим, что a = b ; в этом случае каждое измерение приносит 1 новый бит информации; формула выше показывает, что предыдущая информация имеет тот же вес, что и a+b бит новой информации. В приложениях часто очень мало известно о мелких деталях предшествующего распределения; в частности, нет оснований предполагать, что оно в точности совпадает с B( a , b ). В таком случае одна из возможных интерпретаций этого расчета такова: «существует непатологическое априорное распределение со средним значением 0,5 и стандартным отклонением d , которое дает вес априорной информации, равный 1/(4 d ²)-1 бит новой информации».

Другим примером того же явления является случай, когда априорная оценка и измерение нормально распределены. Если априорное значение центрировано в точке B с отклонением Σ, а измерение центрировано в точке b с отклонением σ, то апостериорное значение центрируется в точке ${\frac {\alpha }{\alpha +\beta }}B+{\frac {\beta }{\alpha +\beta }}b$ , с весами в этом средневзвешенном значении α=σ², β=Σ². При этом квадрат заднего отклонения равен Σ²+σ². Другими словами, априорное измерение объединяется с измерением точно так же, как если бы это было дополнительное измерение, которое необходимо учитывать.

Например, если Σ=σ/2, то объединенное отклонение 4 измерений соответствует отклонению предыдущего (при условии, что ошибки измерений независимы). И веса α,β в формуле для апостериорного измерения соответствуют этому: вес априорного измерения в 4 раза превышает вес измерения. Объединение этого предшествующего измерения с n измерениями со средним значением v приводит к получению заднего изображения с центром в точке ${\frac {4}{4+n}}V+{\frac {n}{4+n}}v$ ; в частности, априор играет ту же роль, что и 4 измерения, сделанные заранее. В общем, априор имеет вес измерений (σ/Σ)².

Сравните с примером биномиального распределения: там априор имеет вес (σ/Σ)²−1 измерений. Видно, что точный вес действительно зависит от деталей распределения, но когда σ≫Σ, разница становится небольшой.

Практический пример байесовских оценок

База данных фильмов в Интернете использует формулу для расчета и сравнения рейтингов фильмов, выставленных пользователями, включая их 250 наименований с самым высоким рейтингом , которая, как утверждается, дает «истинную байесовскую оценку». ^[7] Следующая байесовская формула первоначально использовалась для расчета средневзвешенного балла для топ-250, хотя с тех пор формула изменилась:

W={Rv+Cm \over v+m}\

где:

W\

= взвешенный рейтинг

R\

= средний рейтинг фильма в виде числа от 1 до 10 (среднее) = (Рейтинг)

v\

= количество голосов/рейтингов фильма = (голосов)

m\

= вес, присвоенный предварительной оценке (в данном случае количество голосов, которые IMDB считает необходимыми для того, чтобы средний рейтинг приблизился к статистической достоверности)

C\

= средний голос по всему пулу (сейчас 7,0)

что W — это просто взвешенное среднее арифметическое R C и Обратите внимание , с весовым вектором (v, m) . Поскольку количество оценок превышает m , достоверность среднего рейтинга превышает достоверность среднего голоса для всех фильмов (C), а взвешенный байесовский рейтинг (W) приближается к прямому среднему значению (R). Чем ближе v (количество оценок фильма) к нулю, тем ближе W к C , где W — взвешенный рейтинг, а C — средний рейтинг всех фильмов. Таким образом, проще говоря, чем меньше оценок/голосов отдано за фильм, тем больше взвешенный рейтинг этого фильма будет смещаться в сторону среднего значения по всем фильмам, в то время как фильмы с большим количеством оценок/голосов будут иметь рейтинг, приближающийся к чистому среднему арифметическому рейтингу.

Подход IMDb гарантирует, что фильм с несколькими рейтингами, все из которых равны 10, не будет иметь рейтинг выше «Крестного отца», например, со средним баллом 9,2 из более чем 500 000 оценок.

См. также

Примечания

^ Леманн и Казелла, Теорема 4.1.1
^ Перейти обратно: ^а ^б Леманн и Казелла, Определение 4.2.9.
^ Джейнс, ET (2007). Теория вероятностей: Логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН 978-0-521-59271-0 .
^ Бергер (1980), раздел 4.5.
^ Леманн и Казелла (1998), Теорема 5.2.4.
^ Леманн и Казелла (1998), раздел 6.8.
^ Топ-250 IMDb

Ссылки

Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. ISBN 0-387-96098-8 . МР 0804611 .
Леманн, Эль; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). Спрингер. ISBN 0-387-98502-6 .
Пильц, Юрген (1991). «Байесовская оценка». Байесовская оценка и планирование экспериментов в моделях линейной регрессии . Чичестер: Джон Уайли и сыновья. стр. 38–117. ISBN 0-471-91732-Х .

Внешние ссылки

«Байесовский оценщик» , Математическая энциклопедия , EMS Press , 2001 [1994]

[1] Леманн и Казелла, Теорема 4.1.1

[L&C-2] Перейти обратно: ^а ^б Леманн и Казелла, Определение 4.2.9.

[3] Джейнс, ET (2007). Теория вероятностей: Логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. п. 172. ИСБН 978-0-521-59271-0 .

[4] Бергер (1980), раздел 4.5.

[5] Леманн и Казелла (1998), Теорема 5.2.4.

[6] Леманн и Казелла (1998), раздел 6.8.

[7] Топ-250 IMDb

[1]

[2]

[3]

[4]

[5]

[6]

[7]