Регрессия шипов и плит
Регрессия с пиками и плитами — это тип байесовской линейной регрессии , в которой определенное иерархическое априорное распределение коэффициентов регрессии выбирается таким образом, что только подмножество возможных регрессоров сохраняется . Этот метод особенно полезен, когда количество возможных предикторов превышает количество наблюдений. [1] Идея модели «шип и плита» была первоначально предложена Митчеллом и Бошампом (1988). [2] В дальнейшем этот подход был значительно развит Мэдиганом и Рафтери (1994). [3] и Джордж и Маккалок (1997). [4] Недавним и важным вкладом в эту литературу является Ishwaran & Rao (2005). [5]
Описание модели
[ редактировать ]Предположим, у нас есть P возможных предикторов в некоторой модели. Вектор γ имеет длину, равную P , и состоит из нулей и единиц. Этот вектор указывает, включена ли конкретная переменная в регрессию или нет. Если конкретная априорная информация о начальных вероятностях включения определенных переменных недоступна, априорное распределение Бернулли является распространенным выбором по умолчанию. [6] При условии, что предиктор присутствует в регрессии, мы определяем априорное распределение коэффициента модели, которое соответствует этой переменной ( β ). Обычным выбором на этом этапе является использование нормального априорного значения со средним значением, равным нулю, и большой дисперсией, рассчитанной на основе (где – матрица расчета объясняющих переменных модели). [7]
Получение γ из его предыдущего распределения представляет собой список переменных, включенных в регрессию. В зависимости от этого набора выбранных переменных мы извлекаем результат из предварительного распределения коэффициентов регрессии (если γ i = 1, то β i ≠ 0, а если γ i = 0, то β i = 0). βγ обозначает подмножество β , для которого γ i = 1. На следующем этапе мы вычисляем апостериорную вероятность как для включения, так и для коэффициентов, применяя стандартную статистическую процедуру. [8] Все шаги описанного алгоритма повторяются тысячи раз с использованием метода цепей Маркова Монте-Карло (MCMC). В результате мы получаем апостериорное распределение γ (включение переменных в модель), β (значения коэффициента регрессии) и соответствующий прогноз y .
Модель получила свое название (шип и плита) из-за формы двух предыдущих распределений. «Всплеск» — это вероятность того, что определенный коэффициент модели будет равен нулю. «Плита» — это априорное распределение значений коэффициента регрессии.
Преимущество методов выбора байесовских переменных заключается в том, что они могут использовать предварительные знания о модели. При отсутствии таких знаний можно использовать некоторые разумные значения по умолчанию; цитируем Скотта и Вэриана (2013): «Для аналитика, который предпочитает простоту за счет некоторых разумных допущений, полезная априорная информация может быть уменьшена до ожидаемого размера модели, ожидаемого R 2 и размер выборки ν, определяющий вес, придаваемый предположению в R 2 ." [6] Некоторые исследователи предлагают следующие значения по умолчанию: R 2 = 0,5, ν = 0,01 и π = 0,5 (параметр априорного распределения Бернулли). [6]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Вариан, Хэл Р. (2014). «Большие данные: новые приемы эконометрики» . Журнал экономических перспектив . 28 (2): 3–28. дои : 10.1257/jep.28.2.3 .
- ^ Митчелл, Ти Джей; Бошан, Джей Джей (1988). «Выбор байесовской переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. дои : 10.1080/01621459.1988.10478694 .
- ^ Мэдиган, Дэвид; Рафтери, Адриан Э. (1994). «Выбор модели и учет неопределенности модели в графических моделях с использованием окна Оккама». Журнал Американской статистической ассоциации . 89 (428): 1535–1546. дои : 10.1080/01621459.1994.10476894 .
- ^ Джордж, Эдвард И.; Маккалок, Роберт Э. (1997). «Подходы к выбору байесовской переменной». Статистика Синица . 7 (2): 339–373. JSTOR 24306083 .
- ^ Ишваран, Хемант; Рао, Дж. Сунил (2005). «Выбор переменных шипа и плиты: частотная и байесовская стратегии». Анналы статистики . 33 (2): 730–773. arXiv : math/0505633 . Бибкод : 2005math......5633I . дои : 10.1214/009053604000001147 . S2CID 9004248 .
- ^ Jump up to: а б с Скотт, Стивен Л.; Вариан, Хэл Р. (2014). «Прогнозирование настоящего с помощью байесовских структурных временных рядов». Международный журнал математического моделирования и численной оптимизации . 5 (1–2): 4–23. CiteSeerX 10.1.1.363.2973 . дои : 10.1504/IJMMNO.2014.059942 .
- ^ «Выбор байесовской переменной для прогнозирования экономических временных рядов» (PDF) .
- ^ Бродерсен, Кей Х.; Галлюссер, Фабиан; Келер, Джим; Реми, Николас; Скотт, Стивен Л. (2015). «Вывод о причинном воздействии с использованием байесовских моделей структурных временных рядов» . Анналы прикладной статистики . 9 : 247–274. arXiv : 1506.00356 . дои : 10.1214/14-AOAS788 . S2CID 2879370 .
Дальнейшее чтение
[ редактировать ]- Конгдон, Питер Д. (2020). «Методы регрессии с использованием иерархических априорных значений». Байесовские иерархические модели (2-е изд.). Бока-Ратон: CRC Press. стр. 253–315. ISBN 978-1-03-217715-1 .