Байесовский информационный критерий

Из Википедии, бесплатной энциклопедии

В статистике Байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием выбора модели среди конечного набора моделей; обычно предпочтительнее модели с более низким BIC. Он частично основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подборе моделей можно увеличить максимальную вероятность путем добавления параметров, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член за количество параметров в модели; срок штрафа больше в BIC, чем в AIC, для размеров выборки больше 7. [1]

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года. [2] где он привел байесовский аргумент в пользу его принятия.

Определение [ править ]

BIC формально определяется как [3] [а]

где

  • = максимальное значение функции правдоподобия модели , то есть , где значения параметров, которые максимизируют функцию правдоподобия и – наблюдаемые данные;
  • = количество точек данных в , количество наблюдений или, что то же самое, размер выборки;
  • = количество параметров, оцениваемых моделью. Например, в множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; таким образом, .

Вывод [ править ]

BIC можно получить путем интегрирования параметров модели с использованием метода Лапласа , начиная со следующих данных модели : [5] [6] : 217 

где является предшествующим для по модели .

Логарифмическая вероятность, , затем расширяется до ряда Тейлора второго порядка о MLE , , предполагая, что оно дважды дифференцируемо следующим образом:

где — средняя наблюдаемая информация за наблюдение , и обозначает остаточный член. До такой степени, что является ничтожным и относительно линейна вблизи , мы можем интегрировать чтобы получить следующее:

Как увеличивается, мы можем игнорировать и как они есть . Таким образом,

где BIC определен, как указано выше, и либо (а) является байесовской апостериорной модой, либо (б) используется MLE и априорный режим. имеет ненулевой наклон на MLE. Затем задний

Использование [ править ]

При выборе из нескольких моделей обычно предпочтительнее модели с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки. и возрастающая функция k . То есть необъяснимое изменение зависимой переменной и количества объясняющих переменных увеличивает значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку BIC предполагает приближения, он представляет собой всего лишь эвристику. В частности, различия в BIC никогда не следует рассматривать как преобразованные факторы Байеса.

Важно иметь в виду, что BIC можно использовать для сравнения оцененных моделей только тогда, когда числовые значения зависимой переменной [б] одинаковы для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ нужна цитата ]

Свойства [ править ]

  • BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
  • Оно не зависит от предыдущего.
  • Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
  • Он наказывает за сложность модели, где сложность относится к количеству параметров в модели.
  • Он примерно равен критерию минимальной длины описания , но с отрицательным знаком.
  • Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью конкретного набора данных.
  • Он тесно связан с другими критериями штрафного правдоподобия, такими как информационный критерий отклонения и информационный критерий Акаике .

Ограничения [ править ]

BIC имеет два основных ограничения. [7]

  1. приведенное выше приближение справедливо только для размера выборки намного больше, чем число параметров в модели.
  2. BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора признаков ) в больших измерениях. [7]

Гауссовский особый случай [ править ]

В предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением и граничным условием, что производная логарифмического правдоподобия по отношению к истинной дисперсии равна нулю, это становится ( с точностью до аддитивной константы , которая зависит только по n а не по модели): [8]

где – это дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

что является смещенной оценкой истинной дисперсии .

С точки зрения остаточной суммы квадратов (RSS) BIC равен

При тестировании нескольких линейных моделей с насыщенной моделью BIC можно переписать в терминах отклонение как: [9]

где — количество параметров модели в тесте.

См. также [ править ]

Примечания [ править ]

  1. ^ AIC, AICc и BIC, определенные Класкенсом и Хьортом. [4] являются отрицательными по сравнению с теми, которые определены в этой статье и в большинстве других стандартных ссылок.
  2. ^ Зависимая переменная также называется переменной ответа или переменной результата . См. Регрессионный анализ .

Ссылки [ править ]

  1. ^ См. обзорный документ: Стойка, П.; Селен, Ю. (2004), «Выбор порядка модели: обзор правил информационных критериев», журнал IEEE Signal Processing Magazine (июль): 36–47, doi : 10.1109/MSP.2004.1311138 , S2CID   17338979 .
  2. ^ Шварц, Гидеон Э. (1978), «Оценка размерности модели», Анналы статистики , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR   0468014 .
  3. ^ Остроумие, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). « Все модели неверны…»: введение в неопределенность модели» (PDF) . Статистика Неерландики . 66 (3): 217–236. дои : 10.1111/j.1467-9574.2012.00530.x . S2CID   7793470 .
  4. ^ Класкенс, Г. ; Хьорт, Нидерланды (2008), Выбор модели и усреднение модели , издательство Кембриджского университета.
  5. ^ Рафтери, А.Е. (1995). «Выбор байесовской модели в социальных исследованиях». Социологическая методология . 25 : 111–196. дои : 10.2307/271063 .
  6. ^ Кониси, Саданори; Китагава, Генширо (2008). критерии и статистическое моделирование . Информационные  978-0-387-71886-6 .
  7. ^ Перейти обратно: а б Жиро, К. (2015). Введение в многомерную статистику . Чепмен и Холл/CRC. ISBN  9781482237948 .
  8. ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Академическая пресса . ISBN  978-0-12-564922-3 . (с. 375).
  9. ^ Касс, Роберт Э.; Рафтери, Адриан Э. (1995), «Факторы Байеса», Журнал Американской статистической ассоциации , 90 (430): 773–795, doi : 10.2307/2291091 , ISSN   0162-1459 , JSTOR   2291091 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]