Jump to content

Интервал прогнозирования

В статистическом выводе , в частности в прогнозирующем выводе , интервал прогнозирования — это оценка интервала , в который будущее наблюдение попадет с определенной вероятностью, учитывая то, что уже наблюдалось. Интервалы прогнозирования часто используются в регрессионном анализе .

Простой пример — шестигранная игральная кость с номиналами от 1 до 6. Доверительный интервал для предполагаемого ожидаемого значения номинала составит около 3,5 и станет уже с увеличением размера выборки. Однако интервал прогнозирования для следующего броска будет примерно находиться в диапазоне от 1 до 6, даже при любом количестве просмотренных на данный момент образцов.

Интервалы прогнозирования используются как в частотной статистике , так и в байесовской статистике : интервал прогнозирования имеет такое же отношение к будущему наблюдению, как частотный доверительный интервал или байесовский доверительный интервал имеет отношение к ненаблюдаемому параметру совокупности: интервалы прогнозирования предсказывают распределение отдельных будущих точек, тогда как доверительные интервалы и вероятные интервалы параметров предсказывают распределение оценок истинного среднего значения генеральной совокупности или другой представляющей интерес величины, которую невозможно наблюдать.

Введение [ править ]

Если сделать параметрическое предположение , что основное распределение является нормальным распределением и имеет набор выборок { X 1 , ..., X n }, то доверительные интервалы и доверительные интервалы могут использоваться для оценки среднего значения популяции µ и стандарта совокупности. отклонение σ базовой совокупности, в то время как интервалы прогнозирования могут использоваться для оценки значения следующей выборочной переменной X n +1 .

Альтернативно, в терминах Байеса , интервал прогнозирования можно описать как вероятный интервал для самой переменной, а не как параметр ее распределения.

Концепция интервалов прогнозирования не должна ограничиваться выводами об одном будущем значении выборки, но может быть распространена на более сложные случаи. Например, в контексте наводнений рек, где анализ часто основан на годовых значениях крупнейшего стока в течение года, может быть интересно сделать выводы о крупнейшем наводнении, которое может произойти в течение следующих 50 лет.

Поскольку интервалы прогнозирования касаются только прошлых и будущих наблюдений, а не ненаблюдаемых параметров популяции, некоторые статистики, такие как Сеймур Гейссер , пропагандируют их как лучший метод, чем доверительные интервалы. [ нужна ссылка ] сосредоточил внимание на наблюдаемых после того, как Бруно де Финетти . [ нужна ссылка ]

Нормальное распределение [ править ]

Учитывая выборку из нормального распределения , параметры которой неизвестны, можно задать интервалы прогнозирования в частотном смысле, т. е. интервал [ a , b ] на основе статистики выборки, такой, что при повторных экспериментах X n +1 попадает в интервал нужный процент времени; их можно назвать «прогнозирующими доверительными интервалами ». [1]

Общий метод частотного прогнозирования интервалов состоит в том, чтобы найти и вычислить основную величину наблюдаемых X 1 , ..., X n , X n +1 – что означает функцию наблюдаемых и параметров, распределение вероятностей которых не зависит от параметров – который можно инвертировать, чтобы получить вероятность того, что будущее наблюдение X n +1 попадет в некоторый интервал, рассчитанный на основе наблюдаемых значений на данный момент, Такая основная величина, зависящая только от наблюдаемых, называется вспомогательной статистикой . [2] Обычный метод построения основных величин состоит в том, чтобы взять разницу двух переменных, которые зависят от местоположения, чтобы местоположение сокращалось, а затем взять отношение двух переменных, которые зависят от масштаба, чтобы масштаб уравновешивался.Наиболее знакомой ключевой величиной является t-статистика Стьюдента , которую можно получить этим методом и использовать в дальнейшем.

среднее, дисперсия известная Известное

Интервал прогнозирования [ , u ] для будущего наблюдения X в нормальном распределении N ( µ , σ 2 ) с известным средним значением и дисперсией можно рассчитать по формуле

где , стандартная оценка X , распределяется как стандартное нормальное распределение.

Следовательно

или

где z стандартного - квантиль нормального распределения, для которого:

или эквивалентно;

Прогноз
интервал
С
75% 1.15 [3]
90% 1.64 [3]
95% 1.96 [3]
99% 2.58 [3]
Интервал прогнозирования (по оси Y ), заданный от z (квантиль стандартной оценки , по оси X ). Ось Y логарифмически сжимается (но значения на ней не изменяются).

Интервал прогнозирования условно записывается как:

Например, чтобы вычислить 95%-й интервал прогнозирования для нормального распределения со средним значением ( μ ) 5 и стандартным отклонением ( σ ) равным 1, тогда z равно приблизительно 2. Следовательно, нижний предел интервала прогнозирования составляет приблизительно 5. - (2⋅1) = 3, а верхний предел составляет примерно 5 + (2⋅1) = 7, что дает интервал прогнозирования примерно от 3 до 7.

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним значением ( μ ) 0 и дисперсией ( σ 2 ) 1. В дополнение к функции квантиля интервал прогнозирования для любой стандартной оценки можно рассчитать по формуле (1 − (1 − Φ µ , σ 2 (стандартный балл))⋅2). Например, стандартная оценка x = 1,96 дает Φ μ , σ 2 (1,96) = 0,9750, что соответствует интервалу прогнозирования (1 - (1 - 0,9750)⋅2) = 0,9500 = 95%.

Оценка параметров [ править ]

Для распределения с неизвестными параметрами прямой подход к прогнозированию состоит в том, чтобы оценить параметры, а затем использовать соответствующую функцию квантиля — например, можно использовать выборочное среднее значение. в качестве оценки для µ и выборочной дисперсии s 2 как оценка σ 2 . Есть два естественных выбора для s 2 здесь – деление на дает несмещенную оценку, а деление на n дает оценку максимального правдоподобия , и можно использовать любой из них. Затем используется функция квантиля с этими расчетными параметрами. чтобы дать интервал прогнозирования.

Этот подход можно использовать, но полученный интервал не будет иметь интерпретации повторной выборки. [4] – это не прогнозируемый доверительный интервал.

Для дальнейшего используйте выборочное среднее:

и (несмещенная) выборочная дисперсия:

, дисперсия известная Неизвестное среднее

Данный [5] нормальное распределение с неизвестным средним значением μ , но известной дисперсией 1, выборочное среднее наблюдений имеет распространение а будущее наблюдение имеет распространение Получение разницы этих значений отменяет μ и дает нормальное распределение дисперсии. таким образом

Решение для дает прогнозируемое распределение из которого можно вычислять интервалы, как и раньше. Это прогнозируемый доверительный интервал в том смысле, что если использовать квантильный диапазон 100 p %, то при повторном применении этого вычисления будущее наблюдение попадет в прогнозируемый интервал в 100 p % случаев.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование расчетного среднего значения. и известная дисперсия 1, поскольку здесь используется дисперсия , следовательно, дает более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.

среднее, неизвестная Известное дисперсия

И наоборот, при нормальном распределении с известным средним значением 0, но неизвестной дисперсией , выборочная дисперсия наблюдений имеет, в соответствующем масштабе, распределение ; точнее:

а будущее наблюдение имеет распространение Взяв соотношение будущего наблюдения и выборочного стандартного отклонения [ нужны разъяснения ] отменяет σ, давая t-распределение Стьюдента с n – 1 степенями свободы :

Решение для дает прогнозируемое распределение из которого можно вычислять интервалы, как и раньше.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование нормального распределения с предполагаемым стандартным отклонением. и известное среднее значение 0, поскольку оно использует t-распределение вместо нормального распределения и, следовательно, дает более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.

, неизвестная дисперсия Неизвестное среднее

Объединение вышеизложенного для нормального распределения как с µ, так и с σ 2 неизвестное дает следующую вспомогательную статистику: [6]

Эта простая комбинация возможна, поскольку выборочное среднее и выборочная дисперсия нормального распределения являются независимыми статистическими данными; это верно только для нормального распределения и фактически характеризует нормальное распределение.

Решение для дает прогнозируемое распределение

Вероятность попадание в заданный интервал тогда:

где T a — это 100((1 − p )/2) й процентиль с t-распределения Стьюдента n - 1 степенями свободы. Следовательно, числа

являются конечными точками 100(1 - p )% интервала прогнозирования для .

Непараметрические методы [ править ]

Можно вычислить интервалы прогнозирования без каких-либо предположений о совокупности, то есть непараметрическим способом.

Метод остаточной загрузки можно использовать для построения непараметрических интервалов прогнозирования.

Конформное предсказание [ править ]

В целом метод конформного прогнозирования является более общим.Давайте рассмотрим частный случай использования минимума и максимума в качестве границ интервала прогнозирования:Если имеется выборка одинаковых случайных величин { X 1 , ..., X n }, то вероятность того, что следующее наблюдение X n +1 будет наибольшим, равна 1/( n + 1), поскольку все наблюдения имеют равные значения. вероятность быть максимальной. Точно так же вероятность того, что X n +1 будет наименьшим, равна 1/( n + 1). Другой ( n - 1)/( n + 1) времени, X n +1, попадает между максимумом выборки и минимумом выборки { X 1 , ..., X n }. Таким образом, обозначая максимум и минимум выборки через M и m, это дает ( n - 1)/( n + 1) интервал прогнозирования [ m , M ].

Обратите внимание: хотя это и дает вероятность того, что будущее наблюдение попадет в диапазон, оно не дает никакой оценки относительно того, в какое место в сегменте оно попадет – в частности, если оно выходит за пределы диапазона наблюдаемых значений, оно может оказаться далеко за его пределами. диапазон. см . в теории экстремальных ценностей Дальнейшее обсуждение . Формально это относится не только к выборке из совокупности, но и к любой заменяемой последовательности случайных величин, не обязательно независимых или одинаково распределенных .

Контраст с другими интервалами [ править ]

с доверительными Контраст интервалами

В формуле для прогнозного доверительного интервала не упоминаются ненаблюдаемые параметры μ и σ генерального среднего значения и стандартное отклонение – наблюдаемая выборочная статистика. и используются выборочное среднее и стандартное отклонение, а оценивается результат будущих выборок.

При рассмотрении интервалов прогнозирования вместо использования выборочной статистики в качестве оценки параметров совокупности и применения доверительных интервалов к этим оценкам рассматривается «следующая выборка». как статистика и вычисляет ее выборочное распределение .

В доверительных интервалах параметров оцениваются параметры популяции; если кто-то хочет интерпретировать это как прогноз следующей выборки, нужно моделировать «следующую выборку» как выборку из этой оцененной совокупности, используя (оценочное) распределение совокупности . Напротив, в прогнозных доверительных интервалах используется выборочное распределение (статистика) выборки из n или n + 1 наблюдений из такой совокупности, а распределение совокупности не используется напрямую, хотя предположение о ее форме (хотя а не значения его параметров) используется при вычислении выборочного распределения.

В регрессионном анализе [ править ]

Распространенным применением интервалов прогнозирования является регрессионный анализ .

Предположим, что данные моделируются с помощью прямой регрессии:

где переменная ответа , объясняющая переменная , ε i – случайная ошибка, и и являются параметрами.

Данные оценки и для параметров, например, из простой линейной регрессии , прогнозируемое значение ответа y d для данного объясняющего значения x d равно

(точка на линии регрессии), в то время как фактический ответ будет

Точечная оценка называется средним откликом представляет собой оценку ожидаемого значения d y и ,

Вместо этого интервал прогнозирования дает интервал, в котором ожидается y d падение ; в этом нет необходимости, если известны фактические параметры α и β (вместе с ошибкой ε i ), но если оценка производится по выборке , то можно использовать стандартную ошибку оценок для точки пересечения и наклона ( и ), а также их корреляцию для вычисления интервала прогнозирования.

В регрессии Фарауэй (2002 , стр. 39) проводит различие между интервалами для прогнозирования средней реакции и для прогнозирования наблюдаемой реакции, что существенно влияет на включение или отсутствие члена единицы в квадратный корень в приведенных выше коэффициентах расширения; подробнее см. Faraway (2002) .

Байесовская статистика [ править ]

Сеймур Гейссер , сторонник прогнозирующего вывода, дает прогнозные применения байесовской статистики . [7]

В байесовской статистике можно вычислить (байесовские) интервалы прогнозирования на основе апостериорной вероятности случайной величины как доверительного интервала . В теоретической работе достоверные интервалы часто рассчитываются не для предсказания будущих событий, а для вывода параметров – т.е. достоверные интервалы параметра, а не для результатов самой переменной. Однако, особенно когда приложения связаны с возможными экстремальными значениями еще не наблюдавшихся случаев, достоверные интервалы для таких значений могут иметь практическое значение.

Приложения [ править ]

Интервалы прогнозирования обычно используются в качестве определения референтных диапазонов , например референтных диапазонов для анализов крови, чтобы дать представление о том, является ли анализ крови нормальным или нет. Для этой цели наиболее часто используемым интервалом прогнозирования является 95%-ный интервал прогнозирования, а основанный на нем эталонный диапазон можно назвать стандартным эталонным диапазоном .

См. также [ править ]

Примечания [ править ]

Ссылки [ править ]

  • Фарауэй, Джулиан Дж. (2002), Практическая регрессия и дисперсионный анализ с использованием R (PDF)
  • Гейссер, Сеймур (1993), Прогнозирующий вывод , CRC Press
  • Стерн, Джонатан; Кирквуд, Бетти Р. (2003), Основная медицинская статистика , Blackwell Science , ISBN  0-86542-871-9

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d9e53cb7249e5c8022d9454f84211af3__1716779460
URL1:https://arc.ask3.ru/arc/aa/d9/f3/d9e53cb7249e5c8022d9454f84211af3.html
Заголовок, (Title) документа по адресу, URL1:
Prediction interval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)