Статистическая проверка модели

В статистике — проверка модели это задача оценки того, ли выбранная статистическая модель подходит или нет. Часто при статистических выводах выводы из моделей, которые кажутся соответствующими их данным, могут быть случайными, что приводит к неправильному пониманию исследователями фактической значимости их модели. Чтобы бороться с этим, проверка модели используется для проверки того, может ли статистическая модель выдерживать перестановки данных. Эту тему не следует путать с тесно связанной задачей выбора модели , процессом различения между несколькими моделями-кандидатами: проверка модели не столько касается концептуального проектирования моделей, сколько проверяет только соответствие между выбранной моделью и ее заявленной моделью. выходы.

Существует множество способов проверки модели. Графики остатков отображают разницу между фактическими данными и предсказаниями модели: корреляции на графиках остатков могут указывать на недостаток модели. Перекрестная проверка — это метод проверки модели, который итеративно переопределяет модель, каждый раз оставляя лишь небольшую выборку и сравнивая, предсказаны ли моделью неучтенные выборки: существует много видов перекрестной проверки . Прогнозное моделирование используется для сравнения смоделированных данных с фактическими данными. Внешняя проверка включает в себя подгонку модели к новым данным. Информационный критерий Акаике оценивает качество модели.

Обзор

Проверка модели осуществляется во многих формах, и конкретный метод проверки модели, который использует исследователь, часто является ограничением при планировании его исследования. Подчеркнем: это означает, что не существует универсального метода проверки модели. Например, если исследователь работает с очень ограниченным набором данных, но о данных у него есть сильные априорные предположения, он может рассмотреть возможность проверки соответствия своей модели с помощью байесовской структуры и проверки соответствия своей модели с использованием различных априорных распределений. . Однако если у исследователя много данных и он тестирует несколько вложенных моделей, эти условия могут способствовать перекрестной проверке и, возможно, исключению одной из них. Это два абстрактных примера, и при любой фактической проверке модели придется учитывать гораздо больше сложностей, чем описано здесь, но эти примеры показывают, что методы проверки модели всегда будут косвенными.

В общем, модели можно проверять с использованием существующих данных или новых данных. Оба метода более подробно обсуждаются в следующих подразделах, а также приводятся предостережения.

Проверка существующих данных

Проверка на основе существующих данных включает анализ соответствия модели или анализ того, ли остатки кажутся случайными (т. е. диагностика остатков ). Этот метод включает в себя анализ близости моделей к данным и попытку понять, насколько хорошо модель прогнозирует свои собственные данные. Один из примеров этого метода приведен на рисунке 1, где показана полиномиальная функция, соответствующая некоторым данным. Мы видим, что полиномиальная функция плохо соответствует данным, которые кажутся линейными, и могут сделать эту полиномиальную модель недействительной.

Обычно статистические модели на основе существующих данных проверяются с использованием набора проверки, который также может называться набором отложенных данных. Набор проверки — это набор точек данных, которые пользователь не учитывает при настройке статистической модели. После подбора статистической модели набор проверки используется в качестве меры ошибки модели. Если модель хорошо соответствует исходным данным, но имеет большую ошибку в наборе проверки, это признак переобучения, как показано на рисунке 1.

Проверка с новыми данными

Если новые данные становятся доступными, существующая модель может быть проверена путем оценки того, прогнозируются ли новые данные старой моделью. Если новые данные не предсказываются старой моделью, модель может оказаться неприемлемой для целей исследователя.

Имея это в виду, современный подход заключается в проверке нейронной сети, заключающейся в проверке ее производительности на данных со смещением предметной области. Это проверяет, усвоила ли модель функции, инвариантные к предметной области. ^[1]

Предостережение

Модель может быть проверена только относительно некоторой области применения. ^[2]^[3] Модель, действительная для одного приложения, может быть недействительна для некоторых других приложений. В качестве примера рассмотрим кривую на рисунке 1: если приложение использовало только входные данные из интервала [0, 2], то кривая вполне могла бы быть приемлемой моделью.

Методы проверки

при проведении проверки есть три заметные причины потенциальных трудностей . По данным Энциклопедии статистических наук , ^[4] Три причины таковы: отсутствие данных; отсутствие контроля входных переменных; неопределенность в отношении лежащих в основе вероятностных распределений и корреляций. К обычным методам борьбы с трудностями валидации относятся следующие: проверка допущений, сделанных при построении модели; изучение имеющихся данных и соответствующих результатов модели; применение экспертного заключения. ^[2] Обратите внимание, что экспертное заключение обычно требует опыта в области применения. ^[2]

Экспертное заключение иногда может использоваться для оценки достоверности прогноза без получения реальных данных: например, для кривой на рисунке 1 эксперт вполне может оценить, что существенная экстраполяция будет недействительной. Кроме того, экспертное заключение можно использовать в тестах типа Тьюринга , когда экспертам представляются как реальные данные, так и результаты соответствующих моделей, а затем их просят провести различие между ними. ^[5]

Для некоторых классов статистических моделей доступны специализированные методы проверки. Например, если статистическая модель была получена с помощью регрессии , то специализированные анализы для проверки регрессионной модели существуют и обычно используются .

Остаточная диагностика

Остаточная диагностика включает в себя анализ остатков , чтобы определить, кажутся ли остатки фактически случайными. Такой анализ обычно требует оценок распределения вероятностей остатков. Оценки распределения остатков часто можно получить путем многократного запуска модели, т.е. с помощью повторного стохастического моделирования (с использованием генератора псевдослучайных чисел для случайных величин в модели).

Если статистическая модель была получена с помощью регрессии, то регрессионно-остаточная диагностика существует и может использоваться ; такая диагностика хорошо изучена.

Перекрестная проверка

Перекрестная проверка — это метод выборки, который предполагает исключение некоторых частей данных из процесса подгонки, а затем проверку того, находятся ли эти данные, которые были исключены, близко или далеко от того места, где, по прогнозам модели, они должны находиться. На практике это означает, что методы перекрестной проверки подходят к модели много-много раз с частью данных и сравнивают каждую подходящую модель с той частью, которую она не использовала. Если модели очень редко описывают данные, на которых они не обучались, то, вероятно, модель неверна.

См. также

Все модели неверны – распространенный афоризм в статистике
Перекрестная проверка (статистика) - метод проверки статистической модели.
Анализ идентифицируемости - методы, используемые для определения того, насколько хорошо параметры модели оцениваются экспериментальными данными.
Внутренняя валидность – степень, в которой доказательства подтверждают утверждение о причине и следствии.
Идентификация модели — статистическое свойство, которому должна удовлетворять модель, чтобы обеспечить точный вывод.
Переобучение - ошибка в математическом моделировании.
Недоумение - концепция теории информации.
Прогнозная модель — форма моделирования, использующая статистику для прогнозирования результатов.
Анализ чувствительности - исследование неопределенности в выходных данных математической модели или системы.
Ложная связь - очевидная, но ложная корреляция между причинно-независимыми переменными.
Валидность статистических выводов –
Выбор статистической модели — задача выбора статистической модели из набора моделей-кандидатов.
Спецификация статистической модели . Часть процесса построения статистической модели.
Валидность (статистика) – степень, в которой измерение соответствует реальности.

Ссылки

^ Фэн, Ченг; Чжун, Чаолян; Ван, Цзе; Чжан, Ин; Вс, июнь; Ёкота, Ясуто (июль 2022 г.). «Изучение незабытых доменно-инвариантных представлений для онлайн-адаптации домена без присмотра». Материалы тридцать первой международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 2958–2965. дои : 10.24963/ijcai.2022/410 . ISBN 978-1-956792-00-3 .
^ Jump up to: ^а ^б ^с Национальный исследовательский совет (2012), «Глава 5: Проверка и прогнозирование модели» , Оценка надежности сложных моделей: математические и статистические основы проверки, проверки и количественной оценки неопределенности , Вашингтон, округ Колумбия: National Academies Press , стр. 52–85 , doi : 10.17226/13395 , ISBN 978-0-309-25634-6 {{citation}}: CS1 maint: несколько имен: список авторов ( ссылка ) .
^ Батцель, Джей-Джей; Бачар, М.; Каремакер, Дж. М.; Каппель Ф. (2013), «Глава 1: Объединение математических и физиологических знаний», Батцель, Дж. Дж.; Бачар, М.; Каппель Ф. (ред.), «Математическое моделирование и проверка в физиологии» , Springer , стр. 3–19, doi : 10.1007/978-3-642-32882-4_1 .
^ Дитон, М.Л. (2006), «Имитационные модели, проверка», Коц, С .; и др. (ред.), Энциклопедия статистических наук , Wiley .
^ Майер, генеральный директор; Батлер, Д.Г. (1993), «Статистическая проверка», Экологическое моделирование , 68 (1–2): 21–32, doi : 10.1016/0304-3800(93)90105-2 .

Дальнейшее чтение

Барлас, Ю. (1996), «Формальные аспекты достоверности и проверки модели в системной динамике», System Dynamics Review , 12 (3): 183–210, doi : 10.1002/(SICI)1099-1727(199623)12:3 <183::AID-SDR103>3.0.CO;2-4
Хорошо, Пи ; Хардин, Дж.В. (2012), «Глава 15: Проверка», Распространенные ошибки в статистике (Четвертое изд.), John Wiley & Sons , стр. 277–285.
Хубер, П.Дж. (2002), «Глава 3: Приблизительные модели», в книге Хубер-Кэрол, К.; Балакришнан, Н.; Никулин, М.С.; Месбах, М. (ред.), Критерии согласия и достоверность модели , Springer , стр. 25–41.

Внешние ссылки

Как я могу определить, соответствует ли модель моим данным? — Справочник по статистическим методам ( NIST )
Хикс, Дэн (14 июля 2017 г.). «Каковы основные методы проверки статистических моделей?» . Обмен стеками .

[1] Фэн, Ченг; Чжун, Чаолян; Ван, Цзе; Чжан, Ин; Вс, июнь; Ёкота, Ясуто (июль 2022 г.). «Изучение незабытых доменно-инвариантных представлений для онлайн-адаптации домена без присмотра». Материалы тридцать первой международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 2958–2965. дои : 10.24963/ijcai.2022/410 . ISBN 978-1-956792-00-3 .

[NRC12-2] Jump up to: ^а ^б ^с Национальный исследовательский совет (2012), «Глава 5: Проверка и прогнозирование модели» , Оценка надежности сложных моделей: математические и статистические основы проверки, проверки и количественной оценки неопределенности , Вашингтон, округ Колумбия: National Academies Press , стр. 52–85 , doi : 10.17226/13395 , ISBN 978-0-309-25634-6 {{citation}}: CS1 maint: несколько имен: список авторов ( ссылка ) .

[BBKK-3] Батцель, Джей-Джей; Бачар, М.; Каремакер, Дж. М.; Каппель Ф. (2013), «Глава 1: Объединение математических и физиологических знаний», Батцель, Дж. Дж.; Бачар, М.; Каппель Ф. (ред.), «Математическое моделирование и проверка в физиологии» , Springer , стр. 3–19, doi : 10.1007/978-3-642-32882-4_1 .

[ESS06-4] Дитон, М.Л. (2006), «Имитационные модели, проверка», Коц, С .; и др. (ред.), Энциклопедия статистических наук , Wiley .

[MB93-5] Майер, генеральный директор; Батлер, Д.Г. (1993), «Статистическая проверка», Экологическое моделирование , 68 (1–2): 21–32, doi : 10.1016/0304-3800(93)90105-2 .

[1]

[2]

[3]

[4]

[5]