Информационный критерий Акаике

Информационный критерий Акаике ( AIC ) — это оценка и ошибки прогнозирования , следовательно, относительного качества статистических моделей для данного набора данных. ^[1]^[2]^[3] Учитывая набор моделей данных, AIC оценивает качество каждой модели по сравнению с каждой из других моделей. Таким образом, AIC предоставляет средства выбора модели .

AIC основан на теории информации . Когда статистическая модель используется для представления процесса, в результате которого были получены данные, представление почти никогда не будет точным; поэтому некоторая информация будет потеряна при использовании модели для представления процесса. AIC оценивает относительный объем информации, потерянной данной моделью: чем меньше информации теряет модель, тем выше качество этой модели.

Оценивая объем информации, потерянной моделью, AIC ищет компромисс между степенью соответствия модели и ее простотой. Другими словами, AIC имеет дело как с риском переоснащения , так и с риском недостаточного оснащения.

Информационный критерий Акаике назван в честь японского статистика Хироцугу Акаике , который его сформулировал. В настоящее время он составляет основу парадигмы основ статистики , а также широко используется для статистических выводов .

Определение [ править ]

Предположим, что у нас есть статистическая модель некоторых данных. Пусть $k$ — количество оцениваемых параметров в модели. Позволять ${\hat {L}}$ быть максимальным значением функции правдоподобия для модели. Тогда значение AIC модели будет следующим. ^[4]^[5]

\mathrm {AIC} \,=\,2k-2\ln({\hat {L}})

Учитывая набор моделей-кандидатов для данных, предпочтительной является модель с минимальным значением AIC. Таким образом, AIC вознаграждает степень соответствия (оцененную функцией правдоподобия), но также включает в себя штраф, который является возрастающей функцией количества оцениваемых параметров. Штраф препятствует переоснащению , которое желательно, поскольку увеличение количества параметров в модели почти всегда улучшает качество подгонки.

AIC основан на теории информации . Предположим, что данные генерируются каким-то неизвестным процессом f . Мы рассматриваем две модели-кандидата для представления f : g ₁ и g ₂ . Если бы мы знали f , то мы могли бы найти информацию, потерянную из-за использования g ₁ для представления f , вычислив расхождение Кульбака-Лейблера , D _KL ( f ‖ g ₁ ) ; аналогично, информация, потерянная из-за использования g ₂ для представления f, может быть найдена путем вычисления D _KL ( f ‖ g ₂ ) . Тогда мы, как правило, выбираем модель-кандидат, которая минимизирует потерю информации.

Мы не можем сделать выбор с уверенностью, потому что не знаем f . Акаике (1974) , насколько больше (или меньше) информации теряется при g1 _, чем при g2 _. показал, однако, что с помощью AIC мы можем оценить Однако эта оценка справедлива только асимптотически ; если количество точек данных невелико, то часто необходима некоторая коррекция (см. AICc ниже).

Обратите внимание, что AIC ничего не говорит об абсолютном качестве модели, а только о качестве по сравнению с другими моделями. Таким образом, если все возможные модели подходят плохо, AIC не предупредит об этом. Следовательно, после выбора модели через AIC обычно рекомендуется проверить абсолютное качество модели. модели Такая проверка обычно включает в себя проверку остатков (чтобы определить, кажутся ли остатки случайными) и проверку предсказаний модели. Дополнительную информацию по этой теме см. в разделе «Проверка статистической модели» .

Как использовать AIC на практике [ править ]

Чтобы применить AIC на практике, мы начинаем с набора моделей-кандидатов, а затем находим соответствующие значения AIC моделей. Почти всегда информация будет потеряна из-за использования модели-кандидата для представления «истинной модели», то есть процесса, который сгенерировал данные. Мы хотим выбрать среди моделей-кандидатов ту модель, которая минимизирует потери информации. Мы не можем сделать выбор с уверенностью, но мы можем минимизировать предполагаемую потерю информации.

Предположим, что существует R моделей-кандидатов. Обозначим значения AIC этих моделей через AIC ₁ , AIC ₂ , AIC ₃ , ..., AIC _R . Пусть AIC _min будет минимальным из этих значений. Тогда величину exp((AIC _min − AIC _i )/2) можно интерпретировать как пропорциональную вероятности того, что i -я модель минимизирует (расчетную) потерю информации. ^[6]

В качестве примера предположим, что существуют три модели-кандидата, чьи значения AIC равны 100, 102 и 110. Тогда вторая модель $exp((100 - 102)/2) = 0,368$ раза более вероятна, чем первая модель, для минимизации потеря информации. Аналогично, третья модель $exp((100 - 110)/2) = 0,007$ раз более вероятна, чем первая модель, чтобы минимизировать потерю информации.

В этом примере мы исключим третью модель из дальнейшего рассмотрения. Тогда у нас есть три варианта: (1) собрать больше данных в надежде, что это позволит четко различить первые две модели; (2) просто сделать вывод, что данных недостаточно для выбора одной модели из первых двух; (3) взять средневзвешенное значение первых двух моделей с весами, пропорциональными 1 и 0,368 соответственно, а затем сделать статистический вывод на основе взвешенной мультимодели . ^[7]

Величина $exp((AIC min - AIC i)/2)$ известна как относительное правдоподобие модели i . Оно тесно связано с отношением правдоподобия, используемым в тесте отношения правдоподобия . Действительно, если все модели в наборе кандидатов имеют одинаковое количество параметров, то использование AIC на первый взгляд может показаться очень похожим на использование теста отношения правдоподобия. Однако есть важные различия. В частности, тест отношения правдоподобия действителен только для вложенных моделей , тогда как AIC (и AICc) не имеет такого ограничения. ^[8]^[9]

Проверка гипотез [ править ]

Любую проверку статистической гипотезы можно сформулировать как сравнение статистических моделей. Следовательно, каждая проверка статистической гипотезы может быть воспроизведена через AIC. Два примера кратко описаны в подразделах ниже. Подробности этих и многих других примеров приведены Сакамото, Исигуро и Китагава (1986 , часть II) и Кониси и Китагава (2008 , глава 4).

Стьюдента t критерия Воспроизведение -

В качестве примера проверки гипотезы рассмотрим t -критерий для сравнения средних значений двух нормально распределенных популяций. Входные данные для t -критерия включают случайную выборку из каждой из двух совокупностей.

Чтобы сформулировать тест как сравнение моделей, мы построим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные средние значения и стандартные отклонения. Таким образом, функция правдоподобия для первой модели является произведением вероятностей двух различных нормальных распределений; поэтому он имеет четыре параметра: $µ 1, σ 1, µ 2, σ 2$ . Чтобы быть явным, функция правдоподобия выглядит следующим образом (обозначая размеры выборки $n 1$ и $n 2$ ).

{\mathcal {L}}(\mu _{1},\sigma _{1},\mu _{2},\sigma _{2})\,=\,

\;\;\;\;\;\;\;\;\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}\right)

Вторая модель моделирует две популяции как имеющие одинаковые средние значения, но потенциально разные стандартные отклонения. Таким образом, функция правдоподобия для второй модели устанавливает $µ 1 = µ 2$ в приведенном выше уравнении; поэтому он имеет три параметра.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем функции логарифмического правдоподобия); после этого легко рассчитать значения AIC моделей. Далее мы вычисляем относительную вероятность. Например, если бы вторая модель была всего лишь в 0,01 раза более вероятной, чем первая модель, то мы исключили бы вторую модель из дальнейшего рассмотрения: таким образом, мы бы пришли к выводу, что две популяции имеют разные средние значения.

- критерий T предполагает, что две популяции имеют одинаковые стандартные отклонения; тест имеет тенденцию быть ненадежным, если предположение неверно и размеры двух выборок сильно различаются ( Уэлча t -критерий лучше использовать ). Сравнение средних значений совокупностей посредством AIC, как в приведенном выше примере, имеет то преимущество, что не делает таких допущений.

Сравнение категориальных наборов данных [ править ]

В качестве другого примера проверки гипотезы предположим, что у нас есть две популяции, и каждый член каждой популяции относится к одной из двух категорий — категории №1 или категории №2. Каждая популяция распределена биномиально . Мы хотим знать, одинаково ли распределение двух популяций. Нам дана случайная выборка из каждой из двух популяций.

Пусть $m$ — размер выборки из первой совокупности. Пусть $m 1$ — количество наблюдений (в выборке) в категории №1; поэтому количество наблюдений в категории №2 равно $m - m 1$ . Аналогично, пусть $n$ — размер выборки из второй совокупности. Пусть $n 1$ — количество наблюдений (в выборке) в категории №1.

Пусть $p$ — вероятность того, что случайно выбранный член первой популяции относится к категории №1. Следовательно, вероятность того, что случайно выбранный член первой популяции относится к категории №2, равна $1 - p$ . Обратите внимание, что распределение первой популяции имеет один параметр. Пусть $q$ — вероятность того, что случайно выбранный член второй популяции относится к категории №1. Обратите внимание, что распределение второй популяции также имеет один параметр.

Чтобы сравнить распределение двух популяций, мы строим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные распределения. Таким образом, функция правдоподобия для первой модели является произведением вероятностей двух различных биномиальных распределений; поэтому он имеет два параметра: $p$ , $q$ . Чтобы быть явным, функция правдоподобия выглядит следующим образом.

{\mathcal {L}}(p,q)\,=\,{\frac {m!}{m_{1}!(m-m_{1})!}}p^{m_{1}}(1-p)^{m-m_{1}}\;\,{\boldsymbol {\cdot }}\;\;{\frac {n!}{n_{1}!(n-n_{1})!}}q^{n_{1}}(1-q)^{n-n_{1}}

Вторая модель моделирует две популяции как имеющие одинаковое распределение. Таким образом, функция правдоподобия для второй модели устанавливает $p = q$ в приведенном выше уравнении; поэтому вторая модель имеет один параметр.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем функции логарифмического правдоподобия); после этого легко рассчитать значения AIC моделей. Далее мы вычисляем относительную вероятность. Например, если бы вторая модель была всего в 0,01 раза более вероятной, чем первая модель, то мы исключили бы вторую модель из дальнейшего рассмотрения: таким образом, мы бы пришли к выводу, что две популяции имеют разные распределения.

Основы статистики [ править ]

Статистический вывод обычно рассматривается как включающий проверку и оценку гипотез . Проверка гипотез может осуществляться через AIC, как обсуждалось выше. Что касается оценки, существует два типа: точечная оценка и интервальная оценка . Точечную оценку можно выполнить в рамках парадигмы AIC: она обеспечивается оценкой максимального правдоподобия . Интервальную оценку также можно выполнить в рамках парадигмы AIC: она обеспечивается интервалами правдоподобия . Следовательно, статистические выводы обычно можно сделать в рамках парадигмы AIC.

Наиболее часто используемые парадигмы статистического вывода — это частотный вывод и байесовский вывод . Однако AIC можно использовать для статистических выводов, не полагаясь ни на частотную парадигму, ни на байесовскую парадигму: потому что AIC можно интерпретировать без помощи уровней значимости или байесовских априорных значений . ^[10] Другими словами, AIC можно использовать для формирования основы статистики , отличной как от частотности, так и от байесовства. ^[11]^[12]

Модификация для небольшого размера выборки [ править ]

Когда размер выборки невелик, существует значительная вероятность того, что AIC выберет модели со слишком большим количеством параметров, т. е. что AIC переобучится. ^[13]^[14]^[15] Чтобы устранить такое потенциальное переоснащение, был разработан AICc: AICc — это AIC с поправкой на небольшие размеры выборки.

Формула AICc зависит от статистической модели. Если предположить, что модель является одномерной , линейной по своим параметрам и имеет нормально распределенные остатки (при условии наличия регрессоров), то формула для AICc будет следующей. ^[16]^[17]^[18]^[19]

\mathrm {AICc} \,=\,\mathrm {AIC} +{\frac {2k^{2}+2k}{n-k-1}}

— где $n$ обозначает размер выборки, а $k$ обозначает количество параметров. Таким образом, AICc по сути является AIC с дополнительным штрафным сроком за количество параметров. Обратите внимание, что при $n \to \infty$ дополнительный штрафной член сходится к 0, и, таким образом, AICc сходится к AIC. ^[20]

Если предположение о том, что модель является одномерной и линейной с нормальными остатками, не выполняется, то формула для AICc обычно будет отличаться от приведенной выше формулы. Для некоторых моделей формулу может быть сложно определить. Однако для каждой модели, в которой имеется AICc, формула для AICc задается слагаемыми AIC плюс члены, включающие как $k,$ так и $k.$ ². Для сравнения, формула для AIC включает $k$ , но не $k.$ ². Другими словами, AIC — это оценка первого порядка (потерь информации), тогда как AICc — это оценка второго порядка . ^[21]

Дальнейшее обсуждение формулы с примерами других допущений дано Бернхэмом и Андерсоном (2002 , глава 7) и Кониси и Китагавой (2008 , главы 7–8). В частности, при других предположениях часто возможна бутстреп-оценка формулы.

Подводя итог, AICc имеет то преимущество, что имеет тенденцию быть более точным, чем AIC (особенно для небольших выборок), но у AICc также есть недостаток: иногда его гораздо сложнее вычислить, чем AIC. Обратите внимание: если все модели-кандидаты имеют одинаковый $k$ и одну и ту же формулу для AICc, то AICc и AIC дадут одинаковые (относительные) оценки; следовательно, не будет никаких недостатков в использовании AIC вместо AICc. Более того, если $n$ во много раз больше $k$ ², то дополнительный срок штрафа будет незначительным; следовательно, недостаток использования AIC вместо AICc будет незначительным.

История [ править ]

Информационный критерий Акаике был сформулирован статистиком Хироцугу Акаике . Первоначально он назывался «информационный критерий». ^[22] Впервые об этом на английском языке объявил Акаике на симпозиуме 1971 года; материалы симпозиума были опубликованы в 1973 году. ^[22]^[23] Однако публикация 1973 года представляла собой лишь неофициальное изложение концепций. ^[24] Первой официальной публикацией стала статья Акаике в 1974 году. ^[5]

Первоначальный вывод AIC основывался на некоторых сильных предположениях. Такеучи (1976) показал, что предположения можно сделать гораздо более слабыми. Однако работы Такеучи были на японском языке и в течение многих лет не были широко известны за пределами Японии. (Переведено на ^[25])

для линейной регрессии Первоначально AICc был предложен (только) Сугиурой (1978) . Это послужило толчком к работе Хурвича и Цая (1989) и нескольким дальнейшим статьям тех же авторов, которые расширили ситуации, в которых может применяться AICc.

Первым общим изложением теоретико-информационного подхода стала книга Бернема и Андерсона (2002) . Он включает английскую презентацию работ Такеучи. Этот объем привел к гораздо более широкому использованию AIC, и теперь он имеет более 64 000 цитирований в Google Scholar .

Акаике назвал свой подход «принципом максимизации энтропии», поскольку этот подход основан на понятии энтропии в теории информации . Действительно, минимизация AIC в статистической модели фактически эквивалентна максимизации энтропии в термодинамической системе; другими словами, теоретико-информационный подход в статистике по существу применяет Второй закон термодинамики . Таким образом, AIC уходит корнями в работы Людвига Больцмана по энтропии . Подробнее об этих вопросах см. Akaike (1985) и Burnham & Anderson (2002 , глава 2).

Советы по использованию [ править ]

Параметры подсчета [ править ]

Статистическая модель должна учитывать случайные ошибки . Модель прямой линии может быть формально описана как y _i = b ₀ + b ₁ x _i + ε _i . Здесь ε _i — остатки аппроксимации прямой линией. Если что ε _i является гауссовским предполагается , (с нулевым средним значением), то модель имеет три параметра: b ₀ , b ₁ и дисперсия гауссовских распределений.Таким образом, при расчете значения AIC этой модели следует использовать k =3. В более общем смысле, для любой модели наименьших квадратов с гауссовскими остатками iid дисперсию распределений остатков следует учитывать как один из параметров. ^[26]

первого порядка В качестве другого примера рассмотрим авторегрессионную модель , определяемую формулой x _i = c + φx _{i −1} + ε _i , где ε _i является гауссовским iid (с нулевым средним значением). Для этой модели есть три параметра: c , φ и дисперсия ε _i . В более общем смысле, модель авторегрессии p -го порядка имеет $p + 2$ параметра. (Однако, если c не оценивается по данным, а задано заранее, то имеется только $p + 1$ параметров.)

Преобразование данных [ править ]

Все значения AIC моделей-кандидатов должны быть рассчитаны с использованием одного и того же набора данных. Однако иногда нам может потребоваться сравнить модель переменной y ответа $с$ моделью логарифма переменной ответа $log(y)$ . В более общем плане мы можем захотеть сравнить модель данных с моделью преобразованных данных . Ниже приводится иллюстрация того, как обращаться с преобразованиями данных (адаптировано из Burnham & Anderson (2002 , §2.11.3): «Исследователи должны быть уверены, что все гипотезы моделируются с использованием одной и той же переменной отклика»).

Предположим, мы хотим сравнить две модели: одну с нормальным распределением y $и$ одну с нормальным распределением $log(y)$ . Нам не следует напрямую сравнивать значения AIC двух моделей. Вместо этого нам следует преобразовать нормальную кумулятивную функцию распределения , чтобы сначала логарифмировать $y$ . Для этого нам нужно выполнить соответствующее интегрирование путем замены : таким образом, нам нужно умножить на производную функции (натурального) логарифма , которая равна $1/ y$ . Следовательно, преобразованное распределение имеет следующую функцию плотности вероятности :

y\mapsto \,{\frac {1}{y}}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\,\exp \left(-{\frac {\left(\ln y-\mu \right)^{2}}{2\sigma ^{2}}}\right)

— что является функцией плотности вероятности для логарифмически нормального распределения . Затем мы сравниваем значение AIC нормальной модели со значением AIC логнормальной модели.

Для неверно указанной модели более подходящим может оказаться информационный критерий Такеучи (TIC). Однако TIC часто страдает от нестабильности, вызванной ошибками оценки. ^[27]

Сравнение с другими методами выбора модели [ править ]

Критическое различие между AIC и BIC (и их вариантами) заключается в асимптотическом свойстве при четко определенных и неправильно определенных классах моделей. ^[28] Их фундаментальные различия хорошо изучены при выборе переменных регрессии и выборе порядка авторегрессии. ^[29] проблемы. В общем, если целью является прогнозирование, предпочтительными являются AIC и перекрестная проверка с исключением одного. Если целью является выбор, вывод или интерпретация, предпочтительными являются BIC или перекрестная проверка с исключением многих. Исчерпывающий обзор AIC и других популярных методов выбора модели дан Ding et al. (2018) ^[30]

Сравнение с БИК [ править ]

Формула байесовского информационного критерия (BIC) аналогична формуле AIC, но с другим штрафом за количество параметров. Для AIC штраф составляет $, 2k$ тогда как для BIC штраф составляет $ln(n) k$ .

Сравнение AIC/AICc и BIC проведено Burnham & Anderson (2002 , §6.3-6.4) с последующими замечаниями Burnham & Anderson (2004) . Авторы показывают, что AIC/AICc можно получить в той же байесовской системе, что и BIC, просто используя разные априорные вероятности . Однако в байесовском выводе BIC каждая модель-кандидат имеет априорную вероятность 1/ R (где R — количество моделей-кандидатов). Кроме того, авторы представляют несколько исследований по моделированию, которые предполагают, что AICc имеет практические и эксплуатационные преимущества перед BIC.

Некоторые исследователи отмечают, что AIC и BIC подходят для разных задач. В частности, утверждается, что BIC подходит для выбора «истинной модели» (т.е. процесса, который генерирует данные) из набора моделей-кандидатов, тогда как AIC не подходит. Точнее, если «истинная модель» находится в наборе кандидатов, то BIC выберет «истинную модель» с вероятностью 1 при $n \to \infty$ ; напротив, когда выбор осуществляется через AIC, вероятность может быть меньше 1. ^[31]^[32]^[33] Сторонники AIC утверждают, что эта проблема незначительна, поскольку «истинная модель» практически никогда не входит в число кандидатов. Действительно, в статистике распространен афоризм о том, что « все модели неверны »; следовательно, «истинная модель» (т.е. реальность) не может находиться в наборе кандидатов.

Другое сравнение AIC и BIC проведено Vrieze (2012) . Vrieze представляет исследование моделирования, которое позволяет «истинной модели» находиться в наборе кандидатов (в отличие от практически всех реальных данных). Исследование моделирования показывает, в частности, что AIC иногда выбирает гораздо лучшую модель, чем BIC, даже если «истинная модель» находится в наборе кандидатов. Причина в том, что при конечном $n$ BIC может иметь существенный риск выбора очень плохой модели из набора кандидатов. Эта причина может возникнуть даже тогда, когда $n$ намного больше, чем $k.$ ². С AIC риск выбора очень плохой модели сведен к минимуму.

Если «истинной модели» нет в наборе кандидатов, то максимум, на что мы можем надеяться, — это выбрать модель, которая лучше всего приближается к «истинной модели». AIC подходит для поиска модели наилучшего приближения при определенных предположениях. ^[31]^[32]^[33] (Эти предположения включают, в частности, то, что аппроксимация производится с учетом потери информации.)

Сравнение AIC и BIC в контексте регрессии дано Янгом (2005) . В регрессии AIC асимптотически оптимален для выбора модели с наименьшей среднеквадратической ошибкой при условии, что «истинная модель» не входит в набор кандидатов. BIC не является асимптотически оптимальным в этом предположении. Ян также показывает, что скорость, с которой AIC приближается к оптимальному, в определенном смысле является наилучшей из возможных.

Сравнение с методом наименьших квадратов [ править ]

Иногда каждая модель-кандидат предполагает, что остатки распределяются в соответствии с независимыми идентичными нормальными распределениями (с нулевым средним значением). Это приводит к подгонке модели наименьших квадратов .

При аппроксимации методом наименьших квадратов оценка максимального правдоподобия дисперсии распределений остатков модели равна

{\hat {\sigma }}^{2}=\mathrm {RSS} /n

,

где остаточная сумма квадратов равна

\textstyle \mathrm {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i};{\hat {\theta }}))^{2}

Тогда максимальное значение функции логарифмического правдоподобия модели равно (см. Нормальное распределение#Log-likelihood ):

\ln({\hat {L}})=-{\frac {n}{2}}\ln(2\pi )-{\frac {n}{2}}\ln({\hat {\sigma }}^{2})-{\frac {1}{2{\hat {\sigma }}^{2}}}\mathrm {RSS} \,=\,-{\frac {n}{2}}\ln({\hat {\sigma }}^{2})+C

где $C$ — константа, независимая от модели и зависящая только от конкретных точек данных, т. е. она не меняется, если данные не изменяются.

Это дает: ^[34]

\mathrm {AIC} =2k-2\ln({\hat {L}})=2k+n\ln({\hat {\sigma }}^{2})-2C

Поскольку значимы только различия в AIC, константу $C$ можно игнорировать, что позволяет нам удобно использовать для сравнения моделей следующее:

\Delta \mathrm {AIC} =2k+n\ln({\hat {\sigma }}^{2})

Обратите внимание: если все модели имеют одинаковое значение $k$ , то выбор модели с минимальным AIC эквивалентен выбору модели с минимальным $RSS$ — что является обычной целью выбора модели на основе метода наименьших квадратов.

Сравнение с перекрестной проверкой [ править ]

с исключением одного Перекрестная проверка асимптотически эквивалентна AIC для обычных моделей линейной регрессии. ^[35] Асимптотическая эквивалентность AIC также справедлива для моделей со смешанными эффектами . ^[36]

Маллоуза Сравнение с C _p [ править ]

Маллоуза C _p эквивалентен AIC в случае (гауссовой) линейной регрессии . ^[37]

См. также [ править ]

Примечания [ править ]

^ Стойка, П.; Селен, Ю. (2004), «Выбор порядка модели: обзор правил информационных критериев», журнал IEEE Signal Processing Magazine (июль): 36–47, doi : 10.1109/MSP.2004.1311138 , S2CID 17338979
^ МакЭлрит, Ричард (2016). Статистическое переосмысление: байесовский курс с примерами в R и Stan . ЦРК Пресс. п. 189. ИСБН 978-1-4822-5344-3 . AIC обеспечивает удивительно простую оценку среднего отклонения от выборки.
^ Тедди, Мэтт (2019). Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: МакГроу-Хилл. п. 90. ИСБН 978-1-260-45277-8 . AIC представляет собой оценку отклонения OOS.
^ Бернхэм и Андерсон 2002 , §2.2
^ Jump up to: Перейти обратно: ^а ^б Акаике 1974 г.
^ Бернхэм и Андерсон 2002 , §2.9.1, §6.4.5
^ Бернхэм и Андерсон, 2002 г.
^ Бернхэм и Андерсон 2002 , §2.12.4
^ Мерто 2014
^ Бернхэм и Андерсон 2002 , с. 99
^ Bandyopadhyay & Forster 2011
^ Сакамото, Исигуро и Китагава 1986 г.
^ МакКуорри и Цай, 1998 г.
^ Класкенс и Хьорт 2008 , §8.3
^ Жиро 2015 , §2.9.1
^ Сугиура (1978)
^ Гурвич и Цай (1989)
^ Кавано 1997
^ Бернхэм и Андерсон 2002 , §2.4
^ Бернхэм и Андерсон, 2004 г.
^ Бернхэм и Андерсон 2002 , §7.4
^ Jump up to: Перейти обратно: ^а ^б Финдли и Парзен, 1995 г.
^ Акаике 1973
^ деЛеув, 1992 г.
^ Такеучи, Кей (2020), Такеучи, Кей (редактор), «К проблеме выбора модели на основе данных» , Вклады в теорию математической статистики , Токио: Springer Japan, стр. 329–356, doi : 10.1007/ 978-4-431-55239-0_12 , ISBN 978-4-431-55239-0 , получено 2 февраля 2024 г.
^ Бернхэм и Андерсон 2002 , с. 63
^ Мацуда, Такеру; Уэхара, Масатоши; Хиваринен, Аапо (2021). «Информационные критерии ненормализованных моделей» . Журнал исследований машинного обучения . 22 (158): 1–33. ISSN 1533-7928 .
^ Дин, Цзе; Тарох, Вахид; Ян, Юхонг (ноябрь 2018 г.). «Методы выбора модели: обзор» . Журнал обработки сигналов IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Бибкод : 2018ISPM...35...16D . дои : 10.1109/MSP.2018.2867638 . ISSN 1053-5888 . S2CID 53035396 .
^ Дин, Дж.; Тарох, В.; Ян, Ю. (июнь 2018 г.). «Соединение AIC и BIC: новый критерий авторегрессии» . Транзакции IEEE по теории информации . 64 (6): 4024–4043. arXiv : 1508.02473 . дои : 10.1109/TIT.2017.2717599 . ISSN 1557-9654 . S2CID 5189440 .
^ Дин, Цзе; Тарох, Вахид; Ян, Юхун (14 ноября 2018 г.). «Методы выбора модели: обзор» . Журнал обработки сигналов IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Бибкод : 2018ISPM...35f..16D . дои : 10.1109/MSP.2018.2867638 . S2CID 53035396 . Проверено 18 февраля 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Бёрнем и Андерсон, 2002 , §6.3–6.4.
^ Jump up to: Перейти обратно: ^а ^б Вризе 2012
^ Jump up to: Перейти обратно: ^а ^б Ахо, Дерриберри и Петерсон, 2014 г.
^ Бернхэм и Андерсон 2002 , с. 63
^ Стоун 1977
^ Клык 2011
^ Буасбунон и др. 2014 год

Ссылки [ править ]

Ахо, К.; Дерриберри, Д.; Петерсон, Т. (2014), «Выбор модели для экологов: мировоззрение AIC и BIC», Ecology , 95 (3): 631–636, doi : 10.1890/13-1452.1 , PMID 24804445 .
Акаике, Х. (1973), «Теория информации и расширение принципа максимального правдоподобия», Петров, Б.Н.; Чаки, Ф. (ред.), 2-й Международный симпозиум по теории информации, Цахкадсор, Армения, СССР, 2–8 сентября 1971 г. , Будапешт: Akadémiai Kiadó , стр. 267–281 . Переиздано в Коц, С .; Джонсон, Нидерланды , ред. (1992), Прорывы в статистике , вып. Я, Springer-Verlag , стр. 610–624 .
Акаике, Х. (1974), «Новый взгляд на идентификацию статистической модели» , IEEE Transactions on Auto Control , 19 (6): 716–723, Bibcode : 1974ITAC...19..716A , doi : 10.1109/TAC .1974.1100705 , МР 0423716 .
Акаике, Х. (1985), «Прогнозирование и энтропия», в Аткинсоне, AC; Файнберг, SE (ред.), Праздник статистики , Springer, стр. 1–24 .
Бандиопадхьяй, PS; Форстер, MR, ред. (2011), Философия статистики , Издательство Северной Голландии .
Буабунон, А.; Кану, С.; Фурдринье, Д.; Стродерман, В.; Уэллс, М.Т. (2014), «Информационный критерий Акаике, C _p и оценки потерь для эллиптически симметричных распределений», International Statistical Review , 82 (3): 422–439, doi : 10.1111/insr.12052 , S2CID 119926327 .
Бернхэм, КП; Андерсон, Д.Р. (2002), Выбор модели и мультимодельный вывод: практический информационный подход (2-е изд.), Springer-Verlag .
Бернхэм, КП; Андерсон, Д.Р. (2004), «Мультимодельный вывод: понимание AIC и BIC при выборе модели» (PDF) , Sociological Methods & Research , 33 : 261–304, doi : 10.1177/0049124104268644 , S2CID 121861644 .
Кавано, Дж. Э. (1997), «Объединение выводов Акаике и исправленных информационных критериев Акаике», «Statistics & Probability Letters » , 31 (2): 201–208, doi : 10.1016/s0167-7152(96)00128-9 .
Класкенс, Г. ; Хьорт, Нидерланды (2008), Выбор модели и усреднение модели , Издательство Кембриджского университета . [ Примечание: AIC, определенный Класкенсом и Хьортом, является отрицанием стандартного определения, первоначально данного Акаике и которому следуют другие авторы.]
деЛеу, Дж. (1992), «Введение в теорию информации Акаике (1973) и расширение принципа максимального правдоподобия» (PDF) , в Коц, С .; Джонсон, Н.Л. (ред.), Прорывы в статистике I , Springer, стр. 599–609, заархивировано из оригинала (PDF) 8 января 2016 г. , получено 27 ноября 2014 г.
Фанг, Исинь (2011), «Асимптотическая эквивалентность между перекрестными проверками и информационными критериями Акаике в моделях со смешанными эффектами» (PDF) , Journal of Data Science , 9 : 15–21, заархивировано из оригинала (PDF) 2016–2003 гг. -04 , получено 16 апреля 2011 г.
Финдли, Д.Ф.; Парзен, Э. (1995), «Разговор с Хиротугу Акаике», Statistical Science , 10 : 104–117, doi : 10.1214/ss/1177010133 .
Жиро, К. (2015), Введение в многомерную статистику , CRC Press .
Гурвич, СМ; Цай, К.-Л. (1989), «Выбор модели регрессии и временных рядов в небольших выборках», Biometrika , 76 (2): 297–307, doi : 10.1093/biomet/76.2.297 .
Кониши, С.; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer .
МакКуорри, АДР; Цай, К.-Л. (1998), Выбор модели регрессии и временных рядов , World Scientific .
Мерто, Пенсильвания (2014), «В защиту ценностей P » , Ecology , 95 (3): 611–617, doi : 10.1890/13-0590.1 , PMID 24804441 .
Сакамото, Ю.; Исигуро, М.; Китагава, Г. (1986), Статистика информационных критериев Акаике , Д. Рейдель .
Стоун, М. (1977), «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике», Журнал Королевского статистического общества, серия B , 39 (1): 44–47, doi : 10.1111/j. 2517-6161.1977.tb01603.x , JSTOR 2984877 .
Сугиура, Н. (1978), «Дальнейший анализ данных с помощью информационного критерия Акаике и конечных поправок», «Связь в статистике – теория и методы» , 7 : 13–26, doi : 10.1080/03610927808827599 .
Такеучи, К. (1976), «» [Распределение информационной статистики и критерий соответствия модели], Сури Кагаку [ Математические науки ] (на японском языке), 153 : 12–18, ISSN 0386-2240 .
Вриз, С.И. (2012), «Выбор модели и психологическая теория: обсуждение различий между информационным критерием Акаике (AIC) и байесовским информационным критерием (BIC)», Psychoological Methods , 17 (2): 228–243, doi : 10.1037/a0027127 , PMC 3366160 , PMID 22309957 .
Ян, Ю. (2005), «Можно ли разделить сильные стороны AIC и BIC?», Biometrika , 92 : 937–950, doi : 10.1093/biomet/92.4.937 .

Дальнейшее чтение [ править ]

Акаике, Х. (21 декабря 1981 г.), «Классика цитирования на этой неделе» (PDF) , Текущее содержание Engineering, Technology и Applied Sciences , 12 (51): 42 [Хиротогу Акаике комментирует, как он пришел в AIC]
Андерсон, Д.Р. (2008), Вывод на основе моделей в науках о жизни , Springer
Арнольд, Т.В. (2010), «Неинформативные параметры и выбор модели с использованием информационного критерия Акаике», Journal of Wildlife Management , 74 (6): 1175–1178, doi : 10.1111/j.1937-2817.2010.tb01236.x
Бернхэм, КП; Андерсон, доктор медицинских наук; Хайварт, КП (2011), «Выбор модели AIC и мультимодельный вывод в поведенческой экологии» (PDF) , Behavioral Ecology and Sociobiology , 65 : 23–35, doi : 10.1007/s00265-010-1029-6 , S2CID 3354490 , заархивировано из оригинал (PDF) 9 августа 2017 г. , получено 4 мая 2018 г.
Кавано, Дж. Э.; Нит, А.А. (2019), «Информационный критерий Акаике», Вычислительная статистика WIRE , 11 (3): e1460, doi : 10.1002/wics.1460 , S2CID 88491599
Инг, К.-К.; Вэй, К.-З. (2005), «Выбор порядка для прогнозов одинаковой реализации в процессах авторегрессии», Annals of Статистика , 33 (5): 2423–2474, arXiv : math/0602326 , doi : 10.1214/009053605000000525
Ко, В.; Хьорт, Н.Л. (2019), «Информационный критерий копулы для выбора модели с двухэтапной оценкой максимального правдоподобия» , Econometrics and Статистика , 12 : 167–180, doi : 10.1016/j.ecosta.2019.01.001 , hdl : 10852/74878 , S2CID 126873625
Ларски, С. (2012), Проблема выбора модели и научный реализм (PDF) (Диссертация), Лондонская школа экономики
Пан, В. (2001), «Информационный критерий Акаике в обобщенных уравнениях оценки», Biometrics , 57 (1): 120–125, doi : 10.1111/j.0006-341X.2001.00120.x , PMID 11252586 , S2CID 7862441
Парзен, Э .; Танабэ, К.; Китагава, Г., ред. (1998), Избранные статьи Хиротугу Акаике , Серия Springer по статистике, Springer, doi : 10.1007/978-1-4612-1694-0 , ISBN 978-1-4612-7248-9
Саефкен, Б.; Кнейб, Т.; ван Ваверен, К.-С.; Гревен, С. (2014), «Единый подход к оценке условной информации Акаике в обобщенных линейных смешанных моделях», Электронный журнал статистики , 8 : 201–225, doi : 10.1214/14-EJS881

[1] Стойка, П.; Селен, Ю. (2004), «Выбор порядка модели: обзор правил информационных критериев», журнал IEEE Signal Processing Magazine (июль): 36–47, doi : 10.1109/MSP.2004.1311138 , S2CID 17338979

[2] МакЭлрит, Ричард (2016). Статистическое переосмысление: байесовский курс с примерами в R и Stan . ЦРК Пресс. п. 189. ИСБН 978-1-4822-5344-3 . AIC обеспечивает удивительно простую оценку среднего отклонения от выборки.

[3] Тедди, Мэтт (2019). Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: МакГроу-Хилл. п. 90. ИСБН 978-1-260-45277-8 . AIC представляет собой оценку отклонения OOS.

[4] Бернхэм и Андерсон 2002 , §2.2

[Akaiki1974-5] Jump up to: Перейти обратно: ^а ^б Акаике 1974 г.

[6] Бернхэм и Андерсон 2002 , §2.9.1, §6.4.5

[Burnham_2002-7] Бернхэм и Андерсон, 2002 г.

[8] Бернхэм и Андерсон 2002 , §2.12.4

[9] Мерто 2014

[10] Бернхэм и Андерсон 2002 , с. 99

[11] Bandyopadhyay & Forster 2011

[12] Сакамото, Исигуро и Китагава 1986 г.

[13] МакКуорри и Цай, 1998 г.

[14] Класкенс и Хьорт 2008 , §8.3

[15] Жиро 2015 , §2.9.1

[16] Сугиура (1978)

[17] Гурвич и Цай (1989)

[Cavanaugh-18] Кавано 1997

[19] Бернхэм и Андерсон 2002 , §2.4

[20] Бернхэм и Андерсон, 2004 г.

[21] Бернхэм и Андерсон 2002 , §7.4

[FP95-22] Jump up to: Перейти обратно: ^а ^б Финдли и Парзен, 1995 г.

[23] Акаике 1973

[24] деЛеув, 1992 г.

[25] Такеучи, Кей (2020), Такеучи, Кей (редактор), «К проблеме выбора модели на основе данных» , Вклады в теорию математической статистики , Токио: Springer Japan, стр. 329–356, doi : 10.1007/ 978-4-431-55239-0_12 , ISBN 978-4-431-55239-0 , получено 2 февраля 2024 г.

[26] Бернхэм и Андерсон 2002 , с. 63

[27] Мацуда, Такеру; Уэхара, Масатоши; Хиваринен, Аапо (2021). «Информационные критерии ненормализованных моделей» . Журнал исследований машинного обучения . 22 (158): 1–33. ISSN 1533-7928 .

[28] Дин, Цзе; Тарох, Вахид; Ян, Юхонг (ноябрь 2018 г.). «Методы выбора модели: обзор» . Журнал обработки сигналов IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Бибкод : 2018ISPM...35...16D . дои : 10.1109/MSP.2018.2867638 . ISSN 1053-5888 . S2CID 53035396 .

[:0-29] Дин, Дж.; Тарох, В.; Ян, Ю. (июнь 2018 г.). «Соединение AIC и BIC: новый критерий авторегрессии» . Транзакции IEEE по теории информации . 64 (6): 4024–4043. arXiv : 1508.02473 . дои : 10.1109/TIT.2017.2717599 . ISSN 1557-9654 . S2CID 5189440 .

[IEEE_Xplore_2018-30] Дин, Цзе; Тарох, Вахид; Ян, Юхун (14 ноября 2018 г.). «Методы выбора модели: обзор» . Журнал обработки сигналов IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Бибкод : 2018ISPM...35f..16D . дои : 10.1109/MSP.2018.2867638 . S2CID 53035396 . Проверено 18 февраля 2023 г.

[BA6364-31] Jump up to: Перейти обратно: ^а ^б Бёрнем и Андерсон, 2002 , §6.3–6.4.

[Vrieze-32] Jump up to: Перейти обратно: ^а ^б Вризе 2012

[Ahoetal-33] Jump up to: Перейти обратно: ^а ^б Ахо, Дерриберри и Петерсон, 2014 г.

[34] Бернхэм и Андерсон 2002 , с. 63

[35] Стоун 1977

[36] Клык 2011

[37] Буасбунон и др. 2014 год

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]