Регрессия шипов и плит

Регрессия с пиками и плитами — это тип байесовской линейной регрессии , в которой определенное иерархическое априорное распределение коэффициентов регрессии выбирается таким образом, что только подмножество возможных регрессоров сохраняется . Этот метод особенно полезен, когда количество возможных предикторов превышает количество наблюдений. ^[1] Идея модели «шип и плита» была первоначально предложена Митчеллом и Бошампом (1988). ^[2] В дальнейшем этот подход был значительно развит Мэдиганом и Рафтери (1994). ^[3] и Джордж и Маккалок (1997). ^[4] Недавним и важным вкладом в эту литературу является Ишваран и Рао (2005). ^[5]

Описание модели

Предположим, у нас есть P возможных предикторов в некоторой модели. Вектор γ имеет длину, равную P , и состоит из нулей и единиц. Этот вектор указывает, включена ли конкретная переменная в регрессию или нет. Если конкретная априорная информация о начальных вероятностях включения определенных переменных недоступна, априорное распределение Бернулли является распространенным выбором по умолчанию. ^[6] При условии, что предиктор присутствует в регрессии, мы определяем априорное распределение коэффициента модели, которое соответствует этой переменной ( β ). Обычным выбором на этом этапе является использование нормального априорного значения со средним значением, равным нулю, и большой дисперсией, рассчитанной на основе $(X^{T}X)^{-1}$ (где $X$ – матрица расчета объясняющих переменных модели). ^[7]

Получение γ из его предыдущего распределения представляет собой список переменных, включенных в регрессию. В зависимости от этого набора выбранных переменных мы извлекаем результат из предварительного распределения коэффициентов регрессии (если γ _i = 1, то β _i ≠ 0, а если γ _i = 0, то β _i = 0). βγ обозначает подмножество β , для которого γ _i = 1. На следующем этапе мы вычисляем апостериорную вероятность как для включения, так и для коэффициентов, применяя стандартную статистическую процедуру. ^[8] Все шаги описанного алгоритма повторяются тысячи раз с использованием метода цепей Маркова Монте-Карло (MCMC). В результате мы получаем апостериорное распределение γ (включение переменных в модель), β (значения коэффициента регрессии) и соответствующий прогноз y .

Модель получила свое название (шип и плита) из-за формы двух предыдущих распределений. «Всплеск» — это вероятность того, что определенный коэффициент модели будет равен нулю. «Плита» — это априорное распределение значений коэффициента регрессии.

Преимущество методов выбора байесовских переменных заключается в том, что они могут использовать предварительные знания о модели. При отсутствии таких знаний можно использовать некоторые разумные значения по умолчанию; цитируем Скотта и Вэриана (2013): «Для аналитика, который предпочитает простоту за счет некоторых разумных допущений, полезная априорная информация может быть уменьшена до ожидаемого размера модели, ожидаемого R ²и размер выборки ν, определяющий вес, придаваемый предположению в R ²." ^[6] Некоторые исследователи предлагают следующие значения по умолчанию: R ² = 0,5, ν = 0,01 и $π$ = 0,5 (параметр априорного распределения Бернулли). ^[6]

См. также

Ссылки

^ Вариан, Хэл Р. (2014). «Большие данные: новые приемы эконометрики» . Журнал экономических перспектив . 28 (2): 3–28. дои : 10.1257/jep.28.2.3 .
^ Митчелл, Ти Джей; Бошан, Джей Джей (1988). «Выбор байесовской переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. дои : 10.1080/01621459.1988.10478694 .
^ Мэдиган, Дэвид; Рафтери, Адриан Э. (1994). «Выбор модели и учет неопределенности модели в графических моделях с использованием окна Оккама». Журнал Американской статистической ассоциации . 89 (428): 1535–1546. дои : 10.1080/01621459.1994.10476894 .
^ Джордж, Эдвард И.; Маккалок, Роберт Э. (1997). «Подходы к выбору байесовской переменной». Статистика Синица . 7 (2): 339–373. JSTOR 24306083 .
^ Ишваран, Хемант; Рао, Дж. Сунил (2005). «Выбор переменных шипа и плиты: частотная и байесовская стратегии». Анналы статистики . 33 (2): 730–773. arXiv : math/0505633 . Бибкод : 2005math......5633I . дои : 10.1214/009053604000001147 . S2CID 9004248 .
^ Jump up to: ^а ^б ^с Скотт, Стивен Л.; Вариан, Хэл Р. (2014). «Прогнозирование настоящего с помощью байесовских структурных временных рядов». Международный журнал математического моделирования и численной оптимизации . 5 (1–2): 4–23. CiteSeerX 10.1.1.363.2973 . дои : 10.1504/IJMMNO.2014.059942 .
^ «Выбор байесовской переменной для прогнозирования экономических временных рядов» (PDF) .
^ Бродерсен, Кей Х.; Галлуссер, Фабиан; Келер, Джим; Реми, Николас; Скотт, Стивен Л. (2015). «Вывод о причинном воздействии с использованием байесовских моделей структурных временных рядов» . Анналы прикладной статистики . 9 : 247–274. arXiv : 1506.00356 . дои : 10.1214/14-AOAS788 . S2CID 2879370 .

Дальнейшее чтение

Конгдон, Питер Д. (2020). «Методы регрессии с использованием иерархических априорных значений». Байесовские иерархические модели (2-е изд.). Бока-Ратон: CRC Press. стр. 253–315. ISBN 978-1-03-217715-1 .

[1] Вариан, Хэл Р. (2014). «Большие данные: новые приемы эконометрики» . Журнал экономических перспектив . 28 (2): 3–28. дои : 10.1257/jep.28.2.3 .

[2] Митчелл, Ти Джей; Бошан, Джей Джей (1988). «Выбор байесовской переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. дои : 10.1080/01621459.1988.10478694 .

[3] Мэдиган, Дэвид; Рафтери, Адриан Э. (1994). «Выбор модели и учет неопределенности модели в графических моделях с использованием окна Оккама». Журнал Американской статистической ассоциации . 89 (428): 1535–1546. дои : 10.1080/01621459.1994.10476894 .

[4] Джордж, Эдвард И.; Маккалок, Роберт Э. (1997). «Подходы к выбору байесовской переменной». Статистика Синица . 7 (2): 339–373. JSTOR 24306083 .

[5] Ишваран, Хемант; Рао, Дж. Сунил (2005). «Выбор переменных шипа и плиты: частотная и байесовская стратегии». Анналы статистики . 33 (2): 730–773. arXiv : math/0505633 . Бибкод : 2005math......5633I . дои : 10.1214/009053604000001147 . S2CID 9004248 .

[:0-6] Jump up to: ^а ^б ^с Скотт, Стивен Л.; Вариан, Хэл Р. (2014). «Прогнозирование настоящего с помощью байесовских структурных временных рядов». Международный журнал математического моделирования и численной оптимизации . 5 (1–2): 4–23. CiteSeerX 10.1.1.363.2973 . дои : 10.1504/IJMMNO.2014.059942 .

[7] «Выбор байесовской переменной для прогнозирования экономических временных рядов» (PDF) .

[8] Бродерсен, Кей Х.; Галлуссер, Фабиан; Келер, Джим; Реми, Николас; Скотт, Стивен Л. (2015). «Вывод о причинном воздействии с использованием байесовских моделей структурных временных рядов» . Анналы прикладной статистики . 9 : 247–274. arXiv : 1506.00356 . дои : 10.1214/14-AOAS788 . S2CID 2879370 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]