Интервал прогнозирования
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
В статистическом выводе , в частности в прогнозирующем выводе , интервал прогнозирования — это оценка интервала , в который будущее наблюдение попадет с определенной вероятностью, учитывая то, что уже наблюдалось. Интервалы прогнозирования часто используются в регрессионном анализе .
Простой пример — шестигранная игральная кость с номиналами от 1 до 6. Доверительный интервал для предполагаемого ожидаемого значения номинала составит около 3,5 и станет уже с увеличением размера выборки. Однако интервал прогнозирования для следующего броска будет примерно находиться в диапазоне от 1 до 6, даже при любом количестве просмотренных на данный момент образцов.
Интервалы прогнозирования используются как в частотной статистике , так и в байесовской статистике : интервал прогнозирования имеет такое же отношение к будущему наблюдению, как частотный доверительный интервал или байесовский доверительный интервал имеет отношение к ненаблюдаемому параметру совокупности: интервалы прогнозирования предсказывают распределение отдельных будущих точек, тогда как доверительные интервалы и вероятные интервалы параметров предсказывают распределение оценок истинного среднего значения генеральной совокупности или другой представляющей интерес величины, которую невозможно наблюдать.
Введение [ править ]
Если сделать параметрическое предположение , что основное распределение является нормальным распределением и имеет набор выборок { X 1 , ..., X n }, то доверительные интервалы и доверительные интервалы могут использоваться для оценки среднего значения популяции µ и стандарта совокупности. отклонение σ базовой совокупности, в то время как интервалы прогнозирования могут использоваться для оценки значения следующей выборочной переменной X n +1 .
Альтернативно, в терминах Байеса , интервал прогнозирования можно описать как вероятный интервал для самой переменной, а не как параметр ее распределения.
Концепция интервалов прогнозирования не должна ограничиваться выводами об одном будущем значении выборки, но может быть распространена на более сложные случаи. Например, в контексте наводнений рек, где анализ часто основан на годовых значениях крупнейшего стока в течение года, может быть интересно сделать выводы о крупнейшем наводнении, которое может произойти в течение следующих 50 лет.
Поскольку интервалы прогнозирования касаются только прошлых и будущих наблюдений, а не ненаблюдаемых параметров популяции, некоторые статистики, такие как Сеймур Гейссер , пропагандируют их как лучший метод, чем доверительные интервалы. [ нужна ссылка ] сосредоточил внимание на наблюдаемых после того, как Бруно де Финетти . [ нужна ссылка ]
Нормальное распределение [ править ]
Учитывая выборку из нормального распределения , параметры которой неизвестны, можно задать интервалы прогнозирования в частотном смысле, т. е. интервал [ a , b ] на основе статистики выборки, такой, что при повторных экспериментах X n +1 попадает в интервал нужный процент времени; их можно назвать «прогнозирующими доверительными интервалами ». [1]
Общий метод частотного прогнозирования интервалов состоит в том, чтобы найти и вычислить основную величину наблюдаемых X 1 , ..., X n , X n +1 – что означает функцию наблюдаемых и параметров, распределение вероятностей которых не зависит от параметров – который можно инвертировать, чтобы получить вероятность того, что будущее наблюдение X n +1 попадет в некоторый интервал, рассчитанный на основе наблюдаемых значений на данный момент, Такая основная величина, зависящая только от наблюдаемых, называется вспомогательной статистикой . [2] Обычный метод построения основных величин состоит в том, чтобы взять разницу двух переменных, которые зависят от местоположения, чтобы местоположение сокращалось, а затем взять отношение двух переменных, которые зависят от масштаба, чтобы масштаб уравновешивался.Наиболее знакомой ключевой величиной является t-статистика Стьюдента , которую можно получить этим методом и использовать в дальнейшем.
среднее, дисперсия известная Известное
Интервал прогнозирования [ ℓ , u ] для будущего наблюдения X в нормальном распределении N ( µ , σ 2 ) с известным средним значением и дисперсией можно рассчитать по формуле
где , стандартная оценка X , распределяется как стандартное нормальное распределение.
Следовательно
или
где z стандартного - квантиль нормального распределения, для которого:
или эквивалентно;
Прогноз интервал | С |
---|---|
75% | 1.15 [3] |
90% | 1.64 [3] |
95% | 1.96 [3] |
99% | 2.58 [3] |

Интервал прогнозирования условно записывается как:
Например, чтобы вычислить 95%-й интервал прогнозирования для нормального распределения со средним значением ( μ ) 5 и стандартным отклонением ( σ ) равным 1, тогда z равно приблизительно 2. Следовательно, нижний предел интервала прогнозирования составляет приблизительно 5. - (2⋅1) = 3, а верхний предел составляет примерно 5 + (2⋅1) = 7, что дает интервал прогнозирования примерно от 3 до 7.

Оценка параметров [ править ]
Для распределения с неизвестными параметрами прямой подход к прогнозированию состоит в том, чтобы оценить параметры, а затем использовать соответствующую функцию квантиля — например, можно использовать выборочное среднее значение. в качестве оценки для µ и выборочной дисперсии s 2 как оценка σ 2 . Есть два естественных выбора для s 2 здесь – деление на дает несмещенную оценку, а деление на n дает оценку максимального правдоподобия , и можно использовать любой из них. Затем используется функция квантиля с этими расчетными параметрами. чтобы дать интервал прогнозирования.
Этот подход можно использовать, но полученный интервал не будет иметь интерпретации повторной выборки. [4] – это не прогнозируемый доверительный интервал.
Для дальнейшего используйте выборочное среднее:
и (несмещенная) выборочная дисперсия:
, дисперсия известная Неизвестное среднее
Данный [5] нормальное распределение с неизвестным средним значением μ , но известной дисперсией 1, выборочное среднее наблюдений имеет распространение а будущее наблюдение имеет распространение Получение разницы этих значений отменяет μ и дает нормальное распределение дисперсии. таким образом
Решение для дает прогнозируемое распределение из которого можно вычислять интервалы, как и раньше. Это прогнозируемый доверительный интервал в том смысле, что если использовать квантильный диапазон 100 p %, то при повторном применении этого вычисления будущее наблюдение попадет в прогнозируемый интервал в 100 p % случаев.
Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование расчетного среднего значения. и известная дисперсия 1, поскольку здесь используется дисперсия , следовательно, дает более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.
среднее, неизвестная Известное дисперсия
И наоборот, при нормальном распределении с известным средним значением 0, но неизвестной дисперсией , выборочная дисперсия наблюдений имеет, в соответствующем масштабе, распределение ; точнее:
а будущее наблюдение имеет распространение Взяв соотношение будущего наблюдения и выборочного стандартного отклонения [ нужны разъяснения ] отменяет σ, давая t-распределение Стьюдента с n – 1 степенями свободы :
Решение для дает прогнозируемое распределение из которого можно вычислять интервалы, как и раньше.
Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование нормального распределения с предполагаемым стандартным отклонением. и известное среднее значение 0, поскольку оно использует t-распределение вместо нормального распределения и, следовательно, дает более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.
, неизвестная дисперсия Неизвестное среднее
Объединение вышеизложенного для нормального распределения как с µ, так и с σ 2 неизвестное дает следующую вспомогательную статистику: [6]
Эта простая комбинация возможна, поскольку выборочное среднее и выборочная дисперсия нормального распределения являются независимыми статистическими данными; это верно только для нормального распределения и фактически характеризует нормальное распределение.
Решение для дает прогнозируемое распределение
Вероятность попадание в заданный интервал тогда:
где T a — это 100((1 − p )/2) й процентиль с t-распределения Стьюдента n - 1 степенями свободы. Следовательно, числа
являются конечными точками 100(1 - p )% интервала прогнозирования для .
Непараметрические методы [ править ]
Можно вычислить интервалы прогнозирования без каких-либо предположений о совокупности, то есть непараметрическим способом.
Метод остаточной загрузки можно использовать для построения непараметрических интервалов прогнозирования.
Конформное предсказание [ править ]
В целом метод конформного прогнозирования является более общим.Давайте рассмотрим частный случай использования минимума и максимума в качестве границ интервала прогнозирования:Если имеется выборка одинаковых случайных величин { X 1 , ..., X n }, то вероятность того, что следующее наблюдение X n +1 будет наибольшим, равна 1/( n + 1), поскольку все наблюдения имеют равные значения. вероятность быть максимальной. Точно так же вероятность того, что X n +1 будет наименьшим, равна 1/( n + 1). Другой ( n - 1)/( n + 1) времени, X n +1, попадает между максимумом выборки и минимумом выборки { X 1 , ..., X n }. Таким образом, обозначая максимум и минимум выборки через M и m, это дает ( n - 1)/( n + 1) интервал прогнозирования [ m , M ].
Обратите внимание: хотя это и дает вероятность того, что будущее наблюдение попадет в диапазон, оно не дает никакой оценки относительно того, в какое место в сегменте оно попадет – в частности, если оно выходит за пределы диапазона наблюдаемых значений, оно может оказаться далеко за его пределами. диапазон. см . в теории экстремальных ценностей Дальнейшее обсуждение . Формально это относится не только к выборке из совокупности, но и к любой заменяемой последовательности случайных величин, не обязательно независимых или одинаково распределенных .
Контраст с другими интервалами [ править ]
с доверительными Контраст интервалами
В формуле для прогнозного доверительного интервала не упоминаются ненаблюдаемые параметры μ и σ генерального среднего значения и стандартное отклонение – наблюдаемая выборочная статистика. и используются выборочное среднее и стандартное отклонение, а оценивается результат будущих выборок.
При рассмотрении интервалов прогнозирования вместо использования выборочной статистики в качестве оценки параметров совокупности и применения доверительных интервалов к этим оценкам рассматривается «следующая выборка». как статистика и вычисляет ее выборочное распределение .
В доверительных интервалах параметров оцениваются параметры популяции; если кто-то хочет интерпретировать это как прогноз следующей выборки, нужно моделировать «следующую выборку» как выборку из этой оцененной совокупности, используя (оценочное) распределение совокупности . Напротив, в прогнозных доверительных интервалах используется выборочное распределение (статистика) выборки из n или n + 1 наблюдений из такой совокупности, а распределение совокупности не используется напрямую, хотя предположение о ее форме (хотя а не значения его параметров) используется при вычислении выборочного распределения.
В регрессионном анализе [ править ]
Распространенным применением интервалов прогнозирования является регрессионный анализ .
Предположим, что данные моделируются с помощью прямой регрессии:
где — переменная ответа , – объясняющая переменная , ε i – случайная ошибка, и и являются параметрами.
Данные оценки и для параметров, например, из простой линейной регрессии , прогнозируемое значение ответа y d для данного объясняющего значения x d равно
(точка на линии регрессии), в то время как фактический ответ будет
Точечная оценка называется средним откликом представляет собой оценку ожидаемого значения d y и ,
Вместо этого интервал прогнозирования дает интервал, в котором ожидается y d падение ; в этом нет необходимости, если известны фактические параметры α и β (вместе с ошибкой ε i ), но если оценка производится по выборке , то можно использовать стандартную ошибку оценок для точки пересечения и наклона ( и ), а также их корреляцию для вычисления интервала прогнозирования.
В регрессии Фарауэй (2002 , стр. 39) проводит различие между интервалами для прогнозирования средней реакции и для прогнозирования наблюдаемой реакции, что существенно влияет на включение или отсутствие члена единицы в квадратный корень в приведенных выше коэффициентах расширения; подробнее см. Faraway (2002) .
Байесовская статистика [ править ]
Сеймур Гейссер , сторонник прогнозирующего вывода, дает прогнозные применения байесовской статистики . [7]
В байесовской статистике можно вычислить (байесовские) интервалы прогнозирования на основе апостериорной вероятности случайной величины как доверительного интервала . В теоретической работе достоверные интервалы часто рассчитываются не для предсказания будущих событий, а для вывода параметров – т.е. достоверные интервалы параметра, а не для результатов самой переменной. Однако, особенно когда приложения связаны с возможными экстремальными значениями еще не наблюдавшихся случаев, достоверные интервалы для таких значений могут иметь практическое значение.
Приложения [ править ]
Интервалы прогнозирования обычно используются в качестве определения референтных диапазонов , например референтных диапазонов для анализов крови, чтобы дать представление о том, является ли анализ крови нормальным или нет. Для этой цели наиболее часто используемым интервалом прогнозирования является 95%-ный интервал прогнозирования, а основанный на нем эталонный диапазон можно назвать стандартным эталонным диапазоном .
См. также [ править ]
Примечания [ править ]
- ^ Гейссер (1993 , стр. 6 ): Глава 2: Небайесовские прогнозные подходы
- ^ Гейссер (1993 , стр. 7 )
- ^ Jump up to: а б с д Таблица A2 в Sterne & Kirkwood (2003 , стр. 472)
- ^ Гейссер (1993 , стр. 8–9 )
- ^ Гейссер (1993 , стр. 7– )
- ^ Гейссер (1993 , пример 2.2, стр. 9–10 )
- ^ Гейссер (1993)
Ссылки [ править ]
- Фарауэй, Джулиан Дж. (2002), Практическая регрессия и дисперсионный анализ с использованием R (PDF)
- Гейссер, Сеймур (1993), Прогнозирующий вывод , CRC Press
- Стерн, Джонатан; Кирквуд, Бетти Р. (2003), Основная медицинская статистика , Blackwell Science , ISBN 0-86542-871-9
Дальнейшее чтение [ править ]
- Чатфилд, К. (1993). «Расчет интервальных прогнозов». Журнал деловой и экономической статистики . 11 (2): 121–135. дои : 10.2307/1391361 . JSTOR 1391361 .
- Лоулесс, Дж. Ф.; Фредетт, М. (2005). «Интервалы предсказания частоты и прогнозируемые распределения» . Биометрика . 92 (3): 529–542. дои : 10.1093/biomet/92.3.529 .
- Мид, Н.; Ислам, Т. (1995). «Интервалы прогнозирования для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. дои : 10.1002/for.3980140502 .
- Стандарт ISO 16269-8 «Интерпретация данных», Часть 8, Определение интервалов прогнозирования