Байесовская линейная регрессия

Байесовская линейная регрессия — это тип условного моделирования , при котором среднее значение одной переменной описывается линейной комбинацией других переменных с целью получения апостериорной вероятности коэффициентов регрессии (а также других параметров, описывающих распределение регрессии). ) и в конечном итоге позволяет за пределами выборки прогнозировать регрессию как (часто обозначаемую $y$ ) при условии наблюдаемых значений регрессоров (обычно $X$ ). Самая простая и наиболее широко используемая версия этой модели — нормальная линейная модель , в которой $y$ данный $X$ распределяется по Гауссу . В этой модели и при определенном выборе априорных вероятностей параметров — так называемых сопряженных априорных вероятностей — апостериорная вероятность может быть найдена аналитически. При более произвольно выбранных априорных значениях апостериорные значения обычно приходится аппроксимировать.

Настройка модели [ править ]

Рассмотрим стандартную задачу линейной регрессии , в которой для $i=1,\ldots ,n$ мы указываем среднее распределения условного $y_{i}$ учитывая $k\times 1$ вектор-предиктор $\mathbf {x} _{i}$ :

y_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},

где ${\boldsymbol {\beta }}$ это $k\times 1$ вектор и $\varepsilon _{i}$ являются независимыми и одинаково нормально распределенными случайными величинами:

\varepsilon _{i}\sim N(0,\sigma ^{2}).

Это соответствует следующей функции правдоподобия :

\rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).

Обычное решение методом наименьших квадратов используется для оценки вектора коэффициентов с использованием псевдообратного метода Мура – Пенроуза :

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}

где $\mathbf {X}$ это $n\times k$ матрица проектирования , каждая строка которой является вектором-предсказателем $\mathbf {x} _{i}^{\mathsf {T}}$ ; и $\mathbf {y}$ это столбец $n$ -вектор $[y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}$ .

Это частотный подход, который предполагает, что имеется достаточно измерений, чтобы сказать что-то значимое о ${\boldsymbol {\beta }}$ . В байесовском подходе данные дополняются дополнительной информацией в виде априорного распределения вероятностей . Априорное убеждение о параметрах объединяется с функцией правдоподобия данных в соответствии с теоремой Байеса, чтобы получить апостериорное убеждение о параметрах. ${\boldsymbol {\beta }}$ и $\sigma$ . Априорное значение может принимать различные функциональные формы в зависимости от предметной области и информации, которая доступна априорно .

Поскольку данные включают в себя как $\mathbf {y}$ и $\mathbf {X}$ внимание сосредоточено только на распределении $\mathbf {y}$ при условии $\mathbf {X}$ нуждается в обосновании. Фактически, «полный» байесовский анализ потребовал бы совместного определения правдоподобия. $\rho (\mathbf {y} ,\mathbf {X} \mid {\boldsymbol {\beta }},\sigma ^{2},\gamma )$ вместе с предшествующим $\rho (\beta ,\sigma ^{2},\gamma )$ , где $\gamma$ символизирует параметры распределения для $\mathbf {X}$ . Только в предположении (слабой) экзогенности можно учитывать совместную вероятность. $\rho (\mathbf {y} \mid {\boldsymbol {\mathbf {X} }},\beta ,\sigma ^{2})\rho (\mathbf {X} \mid \gamma )$ . ^[1] Последняя часть обычно игнорируется в предположении непересекающихся наборов параметров. Более того, при классических предположениях $\mathbf {X}$ считаются выбранными (например, в спланированном эксперименте) и поэтому имеют известную вероятность без параметров. ^[2]

С сопряженными априорами [ править ]

априорное распределение Сопряженное

Для произвольного априорного распределения может не существовать аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение , для которого апостериорное распределение можно получить аналитически.

Предыдущий $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ сопряжена этой функции правдоподобия , если она имеет ту же функциональную форму относительно ${\boldsymbol {\beta }}$ и $\sigma$ . Поскольку логарифмическое правдоподобие квадратично по ${\boldsymbol {\beta }}$ , логарифмическое правдоподобие перезаписывается так, что правдоподобие становится нормальным в $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$ . Писать

{\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _{=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned}}

Вероятность теперь переписывается как

\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-{\frac {n-v}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),

где

vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ and }}\quad v=n-k,

где

k

– количество коэффициентов регрессии.

Это предполагает форму предшествующего:

\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2}),

где

\rho (\sigma ^{2})

представляет собой обратное гамма-распределение

\rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).

В обозначениях, введенных в статье об обратном гамма-распределении , это плотность ${\text{Inv-Gamma}}(a_{0},b_{0})$ распространение с $a_{0}={\tfrac {v_{0}}{2}}$ и $b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}$ с $v_{0}$ и $s_{0}^{2}$ как априорные значения $v$ и $s^{2}$ , соответственно. Эквивалентно, его также можно описать как масштабированное обратное распределение хи-квадрат : ${\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Далее условная априорная плотность $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$ это нормальное распределение ,

\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).

В обозначениях нормального распределения условное априорное распределение имеет вид ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}{\boldsymbol {\Lambda }}_{0}^{-1}\right).$

Заднее распределение

Теперь, когда априорное значение указано, апостериорное распределение можно выразить как

{\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )&\propto \rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\sigma ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2}}}\right)\end{aligned}}

С некоторой перестановкой, ^[3] апостериорное значение можно переписать так, чтобы апостериорное среднее значение ${\boldsymbol {\mu }}_{n}$ вектора параметров ${\boldsymbol {\beta }}$ может быть выражено через оценку наименьших квадратов ${\hat {\boldsymbol {\beta }}}$ и априорное среднее ${\boldsymbol {\mu }}_{0}$ , при этом сила априора указана матрицей априорной точности ${\boldsymbol {\Lambda }}_{0}$

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).

Чтобы оправдать это ${\boldsymbol {\mu }}_{n}$ действительно является апостериорным средним, квадратичные члены в экспоненте можно переставить в квадратичную форму в ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$ . ^[4]

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.

Теперь апостериорное распределение можно выразить как произведение нормального распределения на обратное гамма-распределение :

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)(\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right).

Следовательно, апостериорное распределение можно параметризовать следующим образом.

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} ),

где два множителя соответствуют плотности

{\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,

и

{\text{Inv-Gamma}}\left(a_{n},b_{n}\right)

распределения, параметры которых определяются выражением

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\mathsf {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

который иллюстрирует, что байесовский вывод является компромиссом между информацией, содержащейся в априоре, и информацией, содержащейся в выборке.

Модель доказательства

Модель доказательства $p(\mathbf {y} \mid m)$ - вероятность данных с учетом модели $m$ . Он также известен как предельное правдоподобие и априорная плотность прогнозирования . Здесь модель определяется функцией правдоподобия $p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ и априорное распределение по параметрам, т.е. $p({\boldsymbol {\beta }},\sigma )$ . Доказательства модели отражают в одном числе, насколько хорошо такая модель объясняет наблюдения. Доказательства модели байесовской линейной регрессии, представленные в этом разделе, можно использовать для сравнения конкурирующих линейных моделей путем сравнения байесовских моделей . Эти модели могут различаться количеством и значениями переменных-предсказателей, а также их априорными значениями параметров модели. Сложность модели уже учтена в доказательствах модели, поскольку она исключает параметры путем интегрирования $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma \mid \mathbf {X} )$ по всем возможным значениям ${\boldsymbol {\beta }}$ и $\sigma$ .

p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma

Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении. ^[5]

p(\mathbf {y} \mid m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}

Здесь $\Gamma$ обозначает гамма-функцию . Поскольку мы выбрали сопряженный априор, предельное правдоподобие также можно легко вычислить, вычислив следующее равенство для произвольных значений ${\boldsymbol {\beta }}$ и $\sigma$ .

p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y} ,\mathbf {X} ,m)}}

Обратите внимание, что это уравнение представляет собой не что иное, как переформулировку теоремы Байеса . Вставка формул для априорного значения, правдоподобия и апостериорного значения и упрощение полученного выражения приводит к аналитическому выражению, приведенному выше.

Другие случаи [ править ]

В общем, аналитическое определение апостериорного распределения может оказаться невозможным или непрактичным. Однако апостериорное значение можно аппроксимировать с помощью приближенного метода байесовского вывода, такого как выборка Монте-Карло. ^[6] или вариационный Байес .

Особый случай ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$ называется гребневой регрессией .

Подобный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовскую многомерную линейную регрессию .

См. также [ править ]

Примечания [ править ]

^ См. Джекман (2009), с. 101.
^ См. Гельман и др. (2013), с. 354.
^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы о линейных моделях.
^ Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
^ Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Ссылки [ править ]

Коробка, ГЭП ; Тяо, GC (1973). Байесовский вывод в статистическом анализе . Уайли. ISBN 0-471-57428-7 .
Карлин, Брэдли П.; Луи, Томас А. (2008). Байесовские методы анализа данных (Третье изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. ISBN 1-58488-697-8 .
Фармейр, Л.; Кнейб, Т.; Ланг, С. (2009). Регрессия. Модели, методы и приложения (второе изд.). Гейдельберг: Спрингер. дои : 10.1007/978-3-642-01837-4 . ISBN 978-3-642-01836-7 .
Гельман, Эндрю ; и др. (2013). «Введение в регрессионные модели». Байесовский анализ данных (Третье изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. стр. 353–380. ISBN 978-1-4398-4095-5 .
Джекман, Саймон (2009). «Регрессионные модели». Байесовский анализ для социальных наук . Уайли. стр. 99–124. ISBN 978-0-470-01154-6 .
Росси, Питер Э.; Алленби, Грег М.; Маккалок, Роберт (2006). Байесовская статистика и маркетинг . Джон Уайли и сыновья. ISBN 0470863676 .
О'Хаган, Энтони (1994). Байесовский вывод . Продвинутая теория статистики Кендалла. Том. 2Б (Первое изд.). Холстед. ISBN 0-340-52922-9 .

Внешние ссылки [ править ]

Байесовская оценка линейных моделей (викибук по программированию на R) . реализованная в R. Байесовская линейная регрессия ,

[1] См. Джекман (2009), с. 101.

[2] См. Гельман и др. (2013), с. 354.

[3] Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы о линейных моделях.

[4] Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.

[5] Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.

[6] Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

[1]

[2]

[3]

[4]

[5]

[6]