Байесовский информационный критерий
Часть серии о |
Байесовская статистика |
---|
Апостериорный = Вероятность × Априорный ÷ Доказательства |
Фон |
Модельное здание |
Апостериорное приближение |
Оценщики |
Приближение доказательств |
Оценка модели |
В статистике Байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием выбора модели среди конечного набора моделей; обычно предпочтительнее модели с более низким BIC. Он частично основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).
При подборе моделей можно увеличить максимальную вероятность путем добавления параметров, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член за количество параметров в модели; срок штрафа больше в BIC, чем в AIC, для размеров выборки больше 7. [1]
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года. [2] где он привел байесовский аргумент в пользу его принятия.
Определение
[ редактировать ]BIC формально определяется как [3] [а]
где
- = максимальное значение функции правдоподобия модели , то есть , где значения параметров, которые максимизируют функцию правдоподобия и – наблюдаемые данные;
- = количество точек данных в , количество наблюдений или, что то же самое, размер выборки;
- = количество параметров, оцениваемых моделью. Например, в множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; таким образом, .
Вывод
[ редактировать ]BIC можно получить путем интегрирования параметров модели с использованием метода Лапласа , начиная со следующих данных модели : [5] [6] : 217
где является предшествующим для по модели .
Логарифмическая вероятность, , затем расширяется до ряда Тейлора второго порядка о MLE , , предполагая, что оно дважды дифференцируемо следующим образом:
где — средняя наблюдаемая информация за наблюдение , и обозначает остаточный член. В той степени, в которой является ничтожным и относительно линейна вблизи , мы можем интегрировать чтобы получить следующее:
Как увеличивается, мы можем игнорировать и как они есть . Таким образом,
где BIC определен, как указано выше, и либо (а) является байесовской апостериорной модой, либо (б) используется MLE и априорный режим. имеет ненулевой наклон на MLE. Затем задняя часть
Использование
[ редактировать ]При выборе из нескольких моделей обычно предпочтительнее модели с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки. и возрастающая функция k . То есть необъяснимое изменение зависимой переменной и количества объясняющих переменных увеличивает значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку BIC предполагает приближения, он представляет собой всего лишь эвристику. В частности, различия в BIC никогда не следует рассматривать как преобразованные факторы Байеса.
Важно иметь в виду, что BIC можно использовать для сравнения оцененных моделей только тогда, когда числовые значения зависимой переменной [б] одинаковы для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ нужна ссылка ]
Характеристики
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( Ноябрь 2011 г. ) |
- BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
- Оно не зависит от предыдущего.
- Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он наказывает за сложность модели, где сложность относится к количеству параметров в модели.
- Он примерно равен критерию минимальной длины описания , но с отрицательным знаком.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
- Он тесно связан с другими критериями штрафного правдоподобия, такими как информационный критерий отклонения и информационный критерий Акаике .
Ограничения
[ редактировать ]BIC имеет два основных ограничения. [7]
- приведенное выше приближение справедливо только для размера выборки намного больше, чем число параметров в модели.
- BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора признаков ) в больших измерениях. [7]
Гауссовский особый случай
[ редактировать ]В предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением и граничным условием, что производная логарифмического правдоподобия по отношению к истинной дисперсии равна нулю, это становится ( с точностью до аддитивной константы , которая зависит только по n а не по модели): [8]
где – это дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
что является смещенной оценкой истинной дисперсии .
С точки зрения остаточной суммы квадратов (RSS) BIC равен
При тестировании нескольких линейных моделей с насыщенной моделью BIC можно переписать в терминах отклонение как: [9]
где — количество параметров модели в тесте.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ AIC, AICc и BIC, определенные Класкенсом и Хьортом. [4] являются отрицательными по сравнению с теми, которые определены в этой статье и в большинстве других стандартных ссылок.
- ^ Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .
Ссылки
[ редактировать ]- ^ См. обзорный документ: Стойка, П.; Селен, Ю. (2004), «Выбор порядка модели: обзор правил информационных критериев», журнал IEEE Signal Processing Magazine (июль): 36–47, doi : 10.1109/MSP.2004.1311138 , S2CID 17338979 .
- ^ Шварц, Гидеон Э. (1978), «Оценка размерности модели», Анналы статистики , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR 0468014 .
- ^ Остроумие, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « Все модели неверны…»: введение в неопределенность модели» (PDF) . Статистика Неерландики . 66 (3): 217–236. дои : 10.1111/j.1467-9574.2012.00530.x . S2CID 7793470 .
- ^ Класкенс, Г. ; Хьорт, Нидерланды (2008), Выбор модели и усреднение модели , издательство Кембриджского университета.
- ^ Рафтери, А.Е. (1995). «Выбор байесовской модели в социальных исследованиях». Социологическая методология . 25 : 111–196. дои : 10.2307/271063 . JSTOR 271063 .
- ^ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Спрингер. ISBN 978-0-387-71886-6 .
- ^ Перейти обратно: а б Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл/CRC. ISBN 9781482237948 .
- ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN 978-0-12-564922-3 . (с. 375).
- ^ Касс, Роберт Э.; Рафтери, Адриан Э. (1995), «Факторы Байеса», Журнал Американской статистической ассоциации , 90 (430): 773–795, doi : 10.2307/2291091 , ISSN 0162-1459 , JSTOR 2291091 .
Дальнейшее чтение
[ редактировать ]- Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинала (PDF) 28 марта 2012 года.
- Финдли, Д.Ф. (1991). «Противоположные примеры бережливости и BIC». Летопись Института статистической математики . 43 (3): 505–514. дои : 10.1007/BF00053369 . S2CID 58910242 .
- Касс, Р.Э.; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. дои : 10.2307/2291327 . JSTOR 2291327 .
- Лиддл, Арканзас (2007). «Информационные критерии выбора астрофизической модели» . Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74–L78. arXiv : astro-ph/0701113 . Бибкод : 2007MNRAS.377L..74L . дои : 10.1111/j.1745-3933.2007.00306.x . S2CID 2884450 .
- МакКуорри, АДР; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . Всемирная научная .