Примерный максимум и минимум
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2021 г. ) |
В статистике максимум минимум выборки и , также называемые наибольшим наблюдением и наименьшим наблюдением, представляют собой значения наибольшего и наименьшего элементов выборки . [1] Это базовая сводная статистика , используемая в описательной статистике, такой как пятизначная сводка и семизначная сводка Боули и связанная с ней ящичная диаграмма .
Минимальное и максимальное значения — это статистика первого и последнего порядка (часто обозначаемая X (1) и X ( n ) соответственно, для размера выборки n ).
Если в выборке есть выбросы , они обязательно включают в себя максимум или минимум выборки, или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не обязательно должны быть выбросами, если они не слишком далеки от других наблюдений.
Надежность
[ редактировать ]Максимум и минимум выборки являются наименее устойчивой статистикой : они максимально чувствительны к выбросам.
Это может быть либо преимуществом, либо недостатком: если экстремальные значения реальны (а не ошибки измерения) и имеют реальные последствия, как в приложениях теории экстремальных значений, таких как строительство дамб или финансовые потери, тогда выбросы (как отражено в выборочных экстремумах) важны. С другой стороны, если выбросы оказывают незначительное влияние или вообще не влияют на фактические результаты, то использование ненадежной статистики, такой как экстремумы выборки, просто затуманивает статистику, и следует использовать надежные альтернативы, такие как другие квантили : 10-й и 90-й процентили ( первый и последний дециль ) являются более надежными альтернативами.
Производная статистика
[ редактировать ]Экстремумы выборки не только являются компонентом каждой статистики, в которой используются все элементы выборки, но и являются важными частями диапазона ( мера дисперсии) и среднего диапазона (мера местоположения). Они также реализуют максимальное абсолютное отклонение : одно из них — это самая дальняя точка от любой заданной точки, в частности, такая мера центра, как медиана или среднее значение.
Приложения
[ редактировать ]Плавный максимум
[ редактировать ]Для набора выборок функция максимума не является гладкой и, следовательно, недифференцируемой. Для задач оптимизации, возникающих в статистике, часто необходимо аппроксимировать гладкую функцию, близкую к максимуму набора.
Гладкий максимум , например,
- г ( Икс 1 , Икс 2 , …, Икс п ) = журнал ( ехр ( Икс 1 ) + ехр ( Икс 2 ) + … + ехр ( Икс п ) )
является хорошим приближением к выборочному максимуму.
Сводная статистика
[ редактировать ]Максимум и минимум выборки представляют собой базовую сводную статистику , показывающую наиболее экстремальные наблюдения, и используются в сводке из пяти чисел , версии сводки из семи чисел и связанной с ней ящичной диаграмме .
Интервал прогнозирования
[ редактировать ]Максимум и минимум выборки обеспечивают интервал непараметрического прогнозирования :в выборке из совокупности или, в более общем плане, в заменяемой последовательности случайных величин, каждое наблюдение с одинаковой вероятностью будет максимальным или минимальным.
Таким образом, если у вас есть образец и один выбирает другое наблюдение тогда это имеет вероятность того, что это будет самое большое значение, замеченное до сих пор, вероятность того, что это будет наименьшее значение, наблюдаемое до сих пор, и, следовательно, другое того времени, находится между выборочным максимумом и выборочным минимумом Таким образом, обозначая максимум и минимум выборки через M и m, получаем интервал прогнозирования [ m , M ].
Например, если n = 19, то [ m , M ] дает интервал прогнозирования 18/20 = 90% — в 90% случаев 20-е наблюдение попадает между самым маленьким и самым большим наблюдением, наблюдавшимся до сих пор. Аналогично, n = 39 дает 95%-ный интервал прогнозирования, а n = 199 дает 99%-ный интервал прогнозирования.
Оценка
[ редактировать ]Из-за их чувствительности к выбросам экстремумы выборки не могут быть надежно использованы в качестве оценок, если данные не являются чистыми – надежные альтернативы включают первый и последний децили .
Однако при наличии чистых данных или в теоретических условиях они иногда могут оказаться очень хорошими оценщиками, особенно для платикуртовых распределений, где для небольших наборов данных оценкой является средний диапазон наиболее эффективной .
Однако они являются неэффективными оценщиками местоположения мезокуртических распределений, таких как нормальное распределение , и лептокуртических распределений.
Равномерное распределение
[ редактировать ]Для выборки без замены из равномерного распределения с одной или двумя неизвестными конечными точками (так с N неизвестным, или когда M и N неизвестны), максимум выборки или, соответственно, максимум выборки и минимум выборки являются достаточной и полной статистикой для неизвестных конечных точек; таким образом, несмещенная оценка, полученная на основе них, будет оценкой UMVU .
Если неизвестна только верхняя конечная точка, максимум выборки является смещенной оценкой максимума совокупности, но несмещенная оценка (где m — максимум выборки, а k — размер выборки) — оценщик UMVU; см . в разделе «Проблема с немецкими танками» подробности .
Если обе конечные точки неизвестны, то диапазон выборки представляет собой смещенную оценку диапазона совокупности, но поправка по максимуму, указанному выше, дает оценку UMVU.
Если обе конечные точки неизвестны, то средний диапазон представляет собой несмещенную (и, следовательно, UMVU) оценку средней точки интервала (здесь это эквивалентно медиане, среднему или среднему диапазону популяции).
Причина, по которой экстремумы выборки являются достаточной статистикой, заключается в том, что условное распределение неэкстремальных выборок представляет собой просто распределение равномерного интервала между максимумом и минимумом выборки - как только конечные точки фиксированы, значения внутренних точек не добавляют никакой дополнительной информации. .
Проверка нормальности
[ редактировать ]Экстремумы выборки можно использовать для простого теста на нормальность , в частности эксцесса: вычисляется t-статистика максимума и минимума выборки (вычитается среднее значение выборки и делится на стандартное отклонение выборки ), и если они необычно велики для выборки размера (согласно правилу трех сигм и таблице в нем, или, точнее, t-распределению Стьюдента ), то эксцесс выборочного распределения значительно отклоняется от эксцесса нормального распределения.
Например, ежедневный процесс должен ожидать события 3σ один раз в год (календарных дней; раз в полтора года рабочих дней), тогда как событие 4σ происходит в среднем каждые 40 лет календарных дней, 60 лет рабочих дней ( один раз в жизни), события 5σ происходят каждые 5000 лет (один раз в зарегистрированной истории), а события 6σ происходят каждые 1,5 миллиона лет (по сути, никогда). Таким образом, если экстремумы выборки находятся на 6 сигм от среднего значения, это означает значительное нарушение нормальности.
Кроме того, об этом тесте очень легко рассказать без использования статистики.
Эти тесты на нормальность можно применять если кто-то сталкивается с риском эксцесса , например, .
Теория экстремальных ценностей
[ редактировать ]Экстремумы выборки играют две основные роли в теории экстремальных значений :
- во-первых, они дают нижнюю границу экстремальных событий – события могут быть как минимум такими экстремальными и для выборки такого размера;
- во-вторых, их иногда можно использовать для оценки вероятности более экстремальных событий.
Однако следует проявлять осторожность при использовании экстремумов выборки в качестве ориентира: в распределениях с тяжелым хвостом или для нестационарных процессов экстремальные события могут быть значительно более экстремальными, чем любое ранее наблюдавшееся событие. Это развито в теории черного лебедя .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «NEDARC — мин, макс и диапазон» . www.nedarc.org . Проверено 17 февраля 2023 г.