~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ A813058651E1121AA2405EFAC7105B0B__1712934960 ✰
Заголовок документа оригинал.:
✰ Statistical model - Wikipedia ✰
Заголовок документа перевод.:
✰ Статистическая модель — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Statistical_modelling ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/a8/0b/a813058651e1121aa2405efac7105b0b.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/a8/0b/a813058651e1121aa2405efac7105b0b__translat.html ✰
Дата и время сохранения документа:
✰ 12.06.2024 05:48:28 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 12 April 2024, at 18:16 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Статистическая модель — Википедия Jump to content

Статистическая модель

Из Википедии, бесплатной энциклопедии

Статистическая модель — это математическая модель , которая воплощает в себе набор статистических предположений , касающихся формирования выборочных данных (и аналогичных данных из более крупной совокупности ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных. [1] Говоря конкретно о вероятностях , соответствующий термин — вероятностная модель . Все статистические проверки гипотез и все статистические оценки получены с помощью статистических моделей. В более общем плане статистические модели являются частью основы статистических выводов . Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. По сути, статистическая модель является «формальным представлением теории» ( Герман Адер цитирует Кеннета Боллена ). [2]

Введение [ править ]

Неформально статистическую модель можно рассматривать как статистическое предположение (или набор статистических предположений) с определенным свойством: предположение позволяет нам вычислить вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения относительно игральных костей.

Первое статистическое предположение таково: для каждой игральной кости вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1 / 6 . Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5: 1 / 6 × 1 / 6  = 1/36 . В более общем смысле мы можем вычислить вероятность любого события: например, (1 и 2), или (3 и 3), или (5 и 6). Альтернативное статистическое предположение таково: для каждой кости вероятность выпадения грани 5 равна 1/8 . взвешены поскольку игральные кости ) ( Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5: 1 / 8 × 1 / 8  = 1/64 . Однако мы не можем вычислить вероятность какого-либо другого нетривиального события, поскольку вероятности остальных граней неизвестны.

Первое статистическое предположение представляет собой статистическую модель: поскольку только с помощью этого предположения мы можем вычислить вероятность любого события. Альтернативное статистическое предположение не представляет собой статистическую модель: поскольку только с помощью этого предположения мы не можем вычислить вероятность каждого события. В приведенном выше примере при первом допущении вычислить вероятность события несложно. Однако в некоторых других примерах расчет может быть трудным или даже непрактичным (например, может потребоваться миллионы лет вычислений). Для того чтобы предположение составило статистическую модель, такая трудность приемлема: выполнение расчета не должно быть практически осуществимым, оно должно быть только теоретически возможным.

Формальное определение [ править ]

С математической точки зрения статистическая модель обычно представляет собой [ нужны разъяснения ] мыслилось как пара( ), где — это набор возможных наблюдений, т. е. выборочное пространство , и представляет собой набор вероятностных распределений на . [3] Интуиция, лежащая в основе этого определения, заключается в следующем. Предполагается, что существует «истинное» распределение вероятностей, вызванное процессом, генерирующим наблюдаемые данные. Мы выбираем для представления набора (распределений), который содержит распределение, адекватно аппроксимирующее истинное распределение. Обратите внимание, что мы не требуем этого содержит истинное распределение, а на практике это бывает редко. Действительно, как утверждают Бёрнем и Андерсон: «Модель представляет собой упрощение или приближение реальности и, следовательно, не отражает всю реальность». [4] — отсюда и поговорка « все модели неверны ». Набор почти всегда параметризуется: . Набор дистрибутивов определяет параметры модели. Параметризация обычно требуется для того, чтобы разные значения параметров приводили к различным распределениям, т.е. должно выполняться (другими словами, оно должно быть инъективным ). Параметризация, удовлетворяющая этому требованию, называется идентифицируемой . [3]

Пример [ править ]

Предположим, что у нас есть популяция детей, в которой возраст детей распределен равномерно . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту связь в модели линейной регрессии , например: высота i = b 0 + b 1 age i + ε i , где b 0 — точка пересечения, b 1 — параметр, на который умножается возраст для получения прогноза роста, ε i — термин ошибки, а i идентифицирует ребенка . Это означает, что рост прогнозируется по возрасту с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота i = b 0 + b 1 age i ) не может быть уравнением модели данных, если она точно не соответствует всем точкам данных, т. е. все точки данных идеально лежат на линии. Член ошибки ε i должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных. Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы могли бы предположить, что распределения ε i являются гауссовскими с нулевым средним значением. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию распределения Гаусса. Формально модель можно задать в виде ( ) следующее. Образцовое пространство, , нашей модели содержит набор всех возможных пар (возраст, рост). Каждое возможное значение знак равно ( б 0 , б 1 , п 2 ) определяет распределение на ; обозначим это распределение через . Если представляет собой набор всех возможных значений , затем . (Параметризация распознаваема, и это легко проверить.)

В этом примере модель определяется формулой (1) с указанием и (2) сделать некоторые предположения, относящиеся к . Есть два предположения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределяются по гауссову закону. Предположений достаточно, чтобы указать — как они и обязаны делать.

Общие замечания [ править ]

Статистическая модель — это особый класс математической модели . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель недетерминирована . Таким образом, в статистической модели, заданной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а имеют распределения вероятностей; т.е. некоторые переменные являются стохастическими . В приведенном выше примере с ростом детей ε — стохастическая переменная; без этой стохастической переменной модель была бы детерминированной. Статистические модели часто используются, даже если моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, его обычно моделируют как стохастический (через процесс Бернулли ). Выбор подходящей статистической модели для представления конкретного процесса генерации данных иногда чрезвычайно сложен и может потребовать знания как процесса, так и соответствующего статистического анализа. Соответственно, статистик Сэр Дэвид Кокс сказал: «Как осуществляется перевод предметной задачи в статистическую модель, часто является наиболее важной частью анализа». [5]

По мнению Кониси и Китагавы, статистическая модель преследует три цели. [6]

  • Прогнозы
  • Извлечение информации
  • Описание стохастических структур

Эти три цели по существу аналогичны трем целям, указанным Френдли и Мейером: предсказание, оценка, описание. [7] Эти три цели соответствуют трем видам логических рассуждений : дедуктивное рассуждение , индуктивное рассуждение , абдуктивное рассуждение . [ нужна цитата ] [ нужны разъяснения ]

Размер модели [ править ]

Предположим, что у нас есть статистическая модель ( ) с . В обозначениях пишем, что где k — целое положительное число ( обозначает действительные числа ; в принципе можно использовать и другие наборы). Здесь k называется размерностью модели. Модель называется параметрической , если имеет конечную размерность. [ нужна цитата ] Например, если мы предположим, что данные возникают из одномерного распределения Гаусса , то мы предполагаем, что

.

В этом примере размерность k равна 2. В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены в соответствии с прямой линией с гауссовскими остатками iid (с нулевым средним значением): это приводит к той же статистической модели, что и в примере с ростом детей. Размерность статистической модели равна 3: точка пересечения линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что множество всех возможных линий имеет размерность 2, хотя геометрически линия имеет размерность 1.)

Хотя формально — это единственный параметр, имеющий размерность k , иногда его считают состоящим из k отдельных параметров. Например, при одномерном распределении Гаусса формально является одним параметром с размерностью 2, но часто рассматривается как включающий два отдельных параметра — среднее значение и стандартное отклонение. Статистическая модель является непараметрической , если набор параметров является бесконечномерным. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k — размерность и n — количество выборок, как полупараметрические, так и непараметрические модели имеют как . Если как , то модель полупараметрическая; в противном случае модель является непараметрической.

Параметрические модели на сегодняшний день являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Они обычно включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [8]

Вложенные модели [ править ]

Две статистические модели являются вложенными , если первую модель можно преобразовать во вторую модель, наложив ограничения на параметры первой модели. Например, в набор всех гауссовских распределений вложен набор гауссовских распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовских распределений, чтобы получить распределения с нулевым средним. Второй пример: квадратичная модель.

у = б 0 + б 1 х + б 2 х 2 + ε, ε ~ 𝒩(0, p 2 )

имеет вложенную в него линейную модель

y = b 0 + b 1 x + ε, ε ~ 𝒩(0, p 2 )

— мы ограничиваем параметр b 2 равным 0.

В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (в первом примере модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве примера, когда они имеют одинаковую размерность, набор гауссовых распределений с положительным средним значением вложен в набор всех гауссовских распределений; они оба имеют размерность 2.

Сравнение моделей [ править ]

Сравнение статистических моделей имеет фундаментальное значение для большей части статистических выводов . Кониси и Китагава (2008 , стр. 75) утверждают: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнение нескольких статистических моделей». Общие критерии сравнения моделей включают следующее: R 2 , фактор Байеса , информационный критерий Акаике и тест отношения правдоподобия вместе с его обобщением - относительным правдоподобием .

Другой способ сравнения двух статистических моделей — использование понятия дефицита, введенного Люсьеном Ле Камом . [9]

См. также [ править ]

Примечания [ править ]

  1. ^ Кокс 2006 , с. 178
  2. ^ Аддер 2008 , с. 280
  3. ^ Перейти обратно: а б МакКаллах 2002 г.
  4. ^ Бернхэм и Андерсон 2002 , §1.2.5
  5. ^ Кокс 2006 , с. 197
  6. ^ Кониси и Китагава 2008 , §1.1
  7. ^ Дружелюбный и Мейер 2016 , §11.6
  8. ^ Кокс 2006 , с. 2
  9. ^ Ле Кам, Люсьен (1964). «Достаточность и приблизительная достаточность» . Анналы математической статистики . 35 (4). Институт математической статистики : 1429. doi : 10.1214/aoms/1177700372 .

Ссылки [ править ]

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: A813058651E1121AA2405EFAC7105B0B__1712934960
URL1:https://en.wikipedia.org/wiki/Statistical_modelling
Заголовок, (Title) документа по адресу, URL1:
Statistical model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)