Статистическая модель
Статистическая модель — это математическая модель , которая воплощает в себе набор статистических предположений, касающихся генерации выборочных данных (и аналогичных данных из более крупной совокупности ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных . [1] Говоря конкретно о вероятностях , соответствующий термин — вероятностная модель . Все статистические проверки гипотез и все статистические оценки получены с помощью статистических моделей. В более общем смысле статистические модели являются частью основы статистических выводов . Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. По сути, статистическая модель является «формальным представлением теории» ( Герман Адер цитирует Кеннета Боллена ). [2]
Введение
[ редактировать ]Неформально статистическую модель можно рассматривать как статистическое предположение (или набор статистических предположений) с определенным свойством: это предположение позволяет нам вычислить вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения относительно игральных костей.
Первое статистическое предположение таково: для каждой кости вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1 / 6 . Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5: 1 / 6 × 1 / 6 = 1/36 . В более общем смысле мы можем вычислить вероятность любого события: например, (1 и 2), или (3 и 3), или (5 и 6). Альтернативное статистическое предположение таково: для каждой кости вероятность выпадения грани 5 равна 1/8 ( потому что игральные кости взвешены ). Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5: 1 / 8 × 1 / 8 = 1/64 . Однако мы не можем вычислить вероятность какого-либо другого нетривиального события, поскольку вероятности остальных граней неизвестны.
Первое статистическое предположение представляет собой статистическую модель: поскольку только с помощью этого предположения мы можем вычислить вероятность любого события. Альтернативное статистическое предположение не представляет собой статистическую модель: поскольку только с помощью этого предположения мы не можем вычислить вероятность каждого события. В приведенном выше примере при первом допущении вычислить вероятность события несложно. Однако в некоторых других примерах расчет может быть трудным или даже непрактичным (например, может потребоваться миллионы лет вычислений). Для того чтобы предположение составило статистическую модель, такая трудность приемлема: выполнение расчета не должно быть практически осуществимым, оно должно быть только теоретически возможным.
Формальное определение
[ редактировать ]С математической точки зрения статистическая модель — это пара ( ), где — это набор возможных наблюдений, т. е. выборочное пространство , и представляет собой набор вероятностных распределений на . [3] Набор представляет все модели, которые считаются возможными. Этот набор обычно параметризуется: . Набор определяет параметры модели. Если параметризация такова, что разные значения параметров приводят к различным распределениям, т.е. (другими словами, отображение инъективно ) , его называют идентифицируемым . [3]
В некоторых случаях модель может быть более сложной.
- В байесовской статистике модель расширяется за счет добавления распределения вероятностей по пространству параметров. .
- Статистическая модель иногда может различать два набора распределений вероятностей. Первый набор это набор моделей, рассматриваемых для вывода. Второй набор это набор моделей, которые могли бы сгенерировать данные, которые намного больше, чем . данной процедуры Такие статистические модели играют ключевую роль в проверке устойчивости , т. е. того, что она не приводит к катастрофическим ошибкам, когда ее предположения о данных неверны.
Пример
[ редактировать ]Предположим, что у нас есть популяция детей, в которой возраст детей распределен равномерно . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту связь в модели линейной регрессии , например: высота i = b 0 + b 1 age i + ε i , где b 0 — точка пересечения, b 1 — параметр, на который умножается возраст для получения прогноза роста, ε i — это термин ошибки, а i идентифицирует ребенка . Это означает, что рост прогнозируется по возрасту с некоторой ошибкой.
Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота i = b 0 + b 1 age i ) не может быть уравнением модели данных — если только она точно не соответствует всем точкам данных, т. е. все точки данных идеально лежат на линии. Член ошибки ε i должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных. Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы могли бы предположить, что распределения ε i являются гауссовскими с нулевым средним значением. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию распределения Гаусса. Формально модель можно задать в виде ( ) следующее. Образцовое пространство, , нашей модели содержит набор всех возможных пар (возраст, рост). Каждое возможное значение знак равно ( б 0 , б 1 , п 2 ) определяет распределение на ; обозначим это распределение через . Если представляет собой набор всех возможных значений , затем . (Параметризация распознаваема, и это легко проверить.)
В этом примере модель определяется формулой (1) с указанием и (2) сделать некоторые предположения, относящиеся к . Есть два предположения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределяются по гауссову закону. Предположений достаточно, чтобы указать — как они и обязаны делать.
Общие замечания
[ редактировать ]Статистическая модель — это особый класс математической модели . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель недетерминирована . Таким образом, в статистической модели, заданной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а имеют распределения вероятностей; т.е. некоторые переменные являются стохастическими . В приведенном выше примере с ростом детей ε — стохастическая переменная; без этой стохастической переменной модель была бы детерминированной. Статистические модели часто используются, даже если моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, его обычно моделируют как стохастический (через процесс Бернулли ). Выбор подходящей статистической модели для представления конкретного процесса генерации данных иногда чрезвычайно сложен и может потребовать знания как этого процесса, так и соответствующего статистического анализа. Соответственно, статистик Сэр Дэвид Кокс сказал: «Как осуществляется перевод предметной задачи в статистическую модель, часто является наиболее важной частью анализа». [4]
По мнению Кониси и Китагавы, статистическая модель преследует три цели. [5]
- Прогнозы
- Извлечение информации
- Описание стохастических структур
Эти три цели по существу аналогичны трем целям, указанным Френдли и Мейером: предсказание, оценка, описание. [6]
Размер модели
[ редактировать ]Предположим, что у нас есть статистическая модель ( ) с . В обозначениях пишем, что где k — целое положительное число ( обозначает действительные числа ; в принципе можно использовать и другие наборы). Здесь k называется размерностью модели. Модель называется параметрической, если имеет конечную размерность. [ нужна ссылка ] Например, если мы предположим, что данные возникают из одномерного распределения Гаусса , то мы предполагаем, что
- .
В этом примере размерность k равна 2. В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены в соответствии с прямой линией с гауссовскими остатками iid (с нулевым средним значением): это приводит к той же статистической модели, что и в примере с ростом детей. Размерность статистической модели равна 3: точка пересечения линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что множество всех возможных линий имеет размерность 2, хотя геометрически линия имеет размерность 1.)
Хотя формально — это единственный параметр, имеющий размерность k , иногда его считают состоящим из k отдельных параметров. Например, при одномерном распределении Гаусса формально является одним параметром с размерностью 2, но часто рассматривается как включающий два отдельных параметра — среднее значение и стандартное отклонение. Статистическая модель является непараметрической, если набор параметров является бесконечномерным. Статистическая модель является полупараметрической , если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k — размерность и n — количество выборок, как полупараметрические, так и непараметрические модели имеют как . Если как , то модель полупараметрическая; в противном случае модель является непараметрической.
Параметрические модели на сегодняшний день являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Они обычно включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [7]
Вложенные модели
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( ноябрь 2023 г. ) |
Две статистические модели являются вложенными , если первую модель можно преобразовать во вторую модель, наложив ограничения на параметры первой модели. Например, набор всех гауссовских распределений содержит вложенный в него набор гауссовских распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовских распределений, чтобы получить распределения с нулевым средним. Второй пример: квадратичная модель.
- у = б 0 + б 1 х + б 2 х 2 + ε, ε ~ 𝒩(0, p 2 )
имеет вложенную в него линейную модель
- y = b 0 + b 1 x + ε, ε ~ 𝒩(0, p 2 )
— мы ограничиваем параметр b 2 равным 0.
В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (в первом примере модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве примера, когда они имеют одинаковую размерность, набор гауссовских распределений с положительным средним значением вложен в набор всех гауссовских распределений; они оба имеют размерность 2.
Сравнение моделей
[ редактировать ]Сравнение статистических моделей имеет фундаментальное значение для большей части статистических выводов . Кониси и Китагава (2008 , стр. 75) утверждают: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнение нескольких статистических моделей». Общие критерии сравнения моделей включают следующее: R 2 , фактор Байеса , информационный критерий Акаике и тест отношения правдоподобия вместе с его обобщением, относительным правдоподобием .
Другой способ сравнения двух статистических моделей — использование понятия дефицита, введенного Люсьеном Ле Камом . [8]
См. также
[ редактировать ]- Все модели неправильные
- Блокмодель
- Концептуальная модель
- Планирование экспериментов
- Детерминированная модель
- Эффективная теория
- Прогнозная модель
- Методика моделирования реагирования
- Научная модель
- Статистический вывод
- Спецификация статистической модели
- Статистическая проверка модели
- Статистическая теория
- Случайный процесс
Примечания
[ редактировать ]- ^ Кокс 2006 , с. 178
- ^ Адер 2008 , с. 280
- ^ Перейти обратно: а б МакКаллах 2002 г.
- ^ Кокс 2006 , с. 197
- ^ Кониси и Китагава 2008 , §1.1
- ^ Дружелюбный и Мейер 2016 , §11.6
- ^ Кокс 2006 , с. 2
- ^ Ле Кам, Люсьен (1964). «Достаточность и приблизительная достаточность» . Анналы математической статистики . 35 (4). Институт математической статистики : 1429. doi : 10.1214/aoms/1177700372 .
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( сентябрь 2010 г. ) |
Ссылки
[ редактировать ]- Адер, HJ (2008), «Моделирование», в Адер, HJ; Мелленберг, Г.Дж. (ред.), Консультации по методам исследования: компаньон консультанта , Хьюзен, Нидерланды: Издательство Йоханнеса ван Кесселя, стр. 271–304 .
- Бернхэм, КП; Андерсон, Д.Р. (2002), Выбор модели и мультимодельный вывод (2-е изд.), Springer-Verlag .
- Кокс, Д.Р. (2006), Принципы статистического вывода , издательство Кембриджского университета .
- Дружелюбный, М .; Мейер, Д. (2016), Анализ дискретных данных с помощью Р. , Чепмена и Холла .
- Кониши, С.; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer .
- МакКаллах, П. (2002), «Что такое статистическая модель?» (PDF) , Анналы статистики , 30 (5): 1225–1310, doi : 10.1214/aos/1035844977 .
Дальнейшее чтение
[ редактировать ]- Дэвисон, AC (2008), Статистические модели , Издательство Кембриджского университета
- Дртон, М.; Салливант, С. (2007), «Алгебраические статистические модели» (PDF) , Statistica Sinica , 17 : 1273–1297.
- Фридман, Д.А. (2009), Статистические модели , Издательство Кембриджского университета
- Хелланд, И.С. (2010), Шаги к единой основе для научных моделей и методов , World Scientific
- Крозе, ДП ; Чан, JCC (2014), Статистическое моделирование и вычисления , Springer
- Шмуэли, Г. (2010), «Объяснить или предсказать?», Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214/10-STS330 , S2CID 15900983