Критерий сфокусированной информации
В статистике критерий сфокусированной информации (FIC) — это метод выбора наиболее подходящей модели среди множества конкурентов для данного набора данных. В отличие от большинства других выбора модели стратегий , таких как информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) и информационный критерий отклонений (DIC), FIC не пытается оценить общее соответствие моделей-кандидатов, а фокусирует внимание непосредственно на параметр, представляющий основной интерес при статистическом анализе, скажем , для которого конкурирующие модели приводят к разным оценкам, скажем для модели . Метод FIC состоит в том, чтобы сначала разработать точное или приблизительное выражение для точности или качества каждой оценки , скажем для , а затем использовать данные для оценки этих показателей точности, скажем . В конечном итоге выбирается модель с наилучшей оцененной точностью. Методология FIC была разработана Гердой Класкенс и Нильсом Лидом Хьортом сначала в двух дискуссионных статьях 2003 года в Журнале Американской статистической ассоциации , а затем в других статьях и в их книге 2008 года.
Конкретные формулы и реализация FIC зависят, во-первых, от конкретного интересующего параметра, выбор которого зависит не от математики, а от научного и статистического контекста. Таким образом, устройство FIC может выбирать одну модель как наиболее подходящую для оценки квантиля распределения, но предпочитать другую модель как лучшую для оценки среднего значения. Во-вторых, формулы FIC зависят от особенностей моделей, используемых для наблюдаемых данных, а также от того, как следует измерять точность. Самый очевидный случай — это когда точность принимается за среднеквадратичную ошибку , скажем с точки зрения квадрата смещения и дисперсии для средства оценки, связанного с моделью . Формулы FIC затем доступны в различных ситуациях, как для обработки параметрических , полупараметрических , так и непараметрических ситуаций, включая отдельную оценку квадрата смещения и дисперсии, что приводит к оценке точности. . В конце концов FIC выбирает модель с наименьшей оценочной среднеквадратической ошибкой.
С использованием FIC для выбора хорошей модели связан график FIC , предназначенный для того, чтобы дать четкое и информативное представление обо всех оценках по всем моделям-кандидатам и их достоинствах. Он отображает оценки на оси вместе с оценками FIC на ось; таким образом, оценки, находящиеся слева на графике, связаны с лучшими моделями, а оценки, находящиеся в середине и справа, относятся к моделям, которые менее или неадекватны для целей оценки рассматриваемого параметра фокуса.
Вообще говоря, сложные модели (со многими параметрами относительно размера выборки ) обычно приводят к оценкам с небольшой погрешностью, но высокой дисперсией; более экономные модели (с меньшим количеством параметров) обычно дают оценки с большей погрешностью, но меньшей дисперсией. Метод FIC оптимальным образом уравновешивает два желаемых данных: небольшое смещение и небольшую дисперсию. Основная трудность заключается в предвзятости , поскольку оно включает в себя расстояние от ожидаемого значения средства оценки до истинной базовой величины, подлежащей оценке, а истинный механизм генерации данных может находиться за пределами каждой из моделей-кандидатов.
В ситуациях, когда существует не уникальный фокусный параметр, а скорее их семейство, существуют версии среднего FIC (AFIC или wFIC), которые находят лучшую модель с точки зрения надлежащим образом взвешенных показателей производительности, например, при поиске регрессионной модели для особенно хорошо работают в части ковариатного пространства.
Также возможно сохранить несколько лучших моделей, завершив статистический анализ полученным на основе данных средневзвешенным значением оценок лучших оценок FIC, обычно придавая наивысший вес оценкам, связанным с лучшими оценками FIC. Такие схемы усреднения моделей расширяют метод прямого выбора FIC.
Методология FIC применяется, в частности, для выбора переменных в различных формах регрессионного анализа , включая структуру обобщенных линейных моделей и полупараметрических моделей пропорциональных рисков (т. е. регрессии Кокса).
См. также
[ редактировать ]- Информационный критерий Акаике
- Байесовский информационный критерий
- Информационный критерий отклонения
- Информационный критерий Ханнана – Куинна
- Информационный критерий Сибата
Ссылки
[ редактировать ]Эта статья может чрезмерно полагаться на источники, слишком тесно связанные с предметом , что потенциально препятствует тому, чтобы статья была проверяемой и нейтральной . ( Март 2012 г. ) |
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Май 2015 г. ) |
- Класкенс Г. и Хьорт Н.Л. (2003). «Критерий сфокусированной информации» (с обсуждением). Журнал Американской статистической ассоциации , том 98, стр. 879–899. дои : 10.1198/016214503000000819
- Хьорт, Н.Л. и Класкенс, Г. (2003). «Оценки средних значений частотной модели» (с обсуждением). Журнал Американской статистической ассоциации , том 98, стр. 900–916. дои : 10.1198/016214503000000828
- Хьорт, Н.Л. и Класкенс, Г. (2006). «Целевые информационные критерии и усреднение модели для модели регрессии опасности Кокса». Журнал Американской статистической ассоциации , том 101, стр. 1449–1464. дои : 10.1198/016214506000000069
- Класкенс Г. и Хьорт Н.Л. (2008). Выбор модели и усреднение модели. Издательство Кембриджского университета .
Внешние ссылки
[ редактировать ]- Интервью об усреднении частотной модели с помощью Essential Science Indicators
- Веб-страница для выбора модели и усреднения модели, книга Класкенса и Хьорта