~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 981968F07405302355D14A44E6675E20__1657369200 ✰
Заголовок документа оригинал.:
✰ Cumulative frequency analysis - Wikipedia ✰
Заголовок документа перевод.:
✰ Накопленный частотный анализ — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Cumulative_frequency_analysis ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/98/20/981968f07405302355d14a44e6675e20.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/98/20/981968f07405302355d14a44e6675e20__translat.html ✰
Дата и время сохранения документа:
✰ 16.06.2024 05:47:01 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 9 July 2022, at 15:20 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Накопленный частотный анализ — Википедия Jump to content

Совокупный частотный анализ

Из Википедии, бесплатной энциклопедии

Кумулятивное распределение частот, адаптированное кумулятивное распределение вероятностей и доверительные интервалы

Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Это явление может зависеть от времени или пространства. Кумулятивную частоту также называют частотой непревышения .

Анализ совокупной частоты проводится для получения информации о том, как часто определенное явление (особенность) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой задействовано это явление, или в планировании мероприятий, например, по защите от наводнений. [1]

Этот статистический метод можно использовать, чтобы оценить вероятность повторения такого события, как наводнение, в будущем, исходя из того, как часто оно случалось в прошлом. Его можно адаптировать, чтобы учесть такие факторы, как изменение климата, вызывающее более влажную зиму и более сухое лето.

Принципы [ править ]

Определения [ править ]

Частотный анализ [2] — это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.

Частотный анализ применяется к записи длины N наблюдаемых данных X 1 , X 2 , X 3 . . . X N о переменном явлении X . Запись может зависеть от времени (например, количество осадков, измеренное в одной точке), от места (например, урожайность сельскохозяйственных культур на определенной территории) или иным образом.

Совокупная частота M Xr опорного значения Xr представляет собой частоту, с которой наблюдаемые значения X меньше или равны Xr .

Относительная совокупная частота Fc может быть рассчитана по формуле:

Fc = М Хг / N

где N — количество данных

Кратко это выражение можно записать так:

Fc = М / Н

Когда Xr = X min , где X min — уникальное наблюдаемое минимальное значение, обнаруживается, что Fc = 1/ N , поскольку M = 1 . С другой стороны, когда Xr = X max , где X max представляет собой уникальное наблюдаемое максимальное значение, обнаруживается, что Fc = 1 , поскольку M = N . Следовательно, когда Fc = 1, это означает, что Xr представляет собой значение, при котором все данные меньше или равны Xr .

В процентах уравнение выглядит следующим образом:

Fc (%) = 100 М / Н

Оценка вероятности [ править ]

Из совокупной частоты [ править ]

Кумулятивная вероятность Pc того , что X будет меньше или равна Xr, быть оценена несколькими способами на основе кумулятивной частоты M. может

Один из способов — использовать относительную кумулятивную частоту Fc в качестве оценки.

Другой способ — принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум X max . Это можно сделать, разделив совокупную частоту M на N +1 вместо N . Тогда оценка будет выглядеть так:

ПК = М / ( N +1)

Существуют и другие предложения по знаменателю (см. положения графика ).

По методу ранжирования [ править ]

Ранжированные кумулятивные вероятности

Оценку вероятности упрощает ранжирование данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( X 1 X 2 X 3 ≤ ⋯ ≤ X N , минимум первым и максимум последним), а Ri - номер ранга наблюдения Xi , где добавление i указывает серийный номер в диапазоне возрастающих данных, тогда кумулятивную вероятность можно оценить по формуле:

Pc = Ri /( N + 1)

С другой стороны, когда наблюдаемые данные из X расположены в порядке убывания : максимум сначала, а минимум последним, а Rj — номер ранга наблюдения Xj , кумулятивную вероятность можно оценить по формуле:

Pc = 1 − Rj /( N + 1)

Подбор распределений вероятностных

Непрерывные раздачи [ править ]

Различные кумулятивные нормальные распределения вероятностей с их параметрами

Чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения, а не дискретного набора данных, можно попытаться подогнать кумулятивное распределение частот к известному кумулятивному распределению вероятностей. [2] [3]
В случае успеха известного уравнения достаточно, чтобы определить распределение частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции кумулятивного распределения частот, поскольку это может быть источником ошибок. Одна из возможных ошибок заключается в том, что распределение частот больше не соответствует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.

Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться в качестве распределения вероятностей для аппроксимации. Примеры вероятностных распределений, которые можно использовать, можно найти в разделе «Распределения вероятностей» .

Распределения вероятностей можно подобрать несколькими методами: [2] например:

Применение обоих типов методов, например,

часто показывает, что ряд распределений хорошо соответствуют данным и не дают существенно различающихся результатов, при этом различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. [2] Это показывает, что может быть сложно определить, какое распределение дает лучшие результаты. Например, примерно нормально распределенные наборы данных могут быть адаптированы к большому количеству различных распределений вероятностей. [4] в то время как отрицательно асимметричные распределения могут быть аппроксимированы квадратно-нормальным и зеркальным распределениями Гамбеля. [5]

Совокупное распределение частот с разрывом

Прерывистые распределения [ править ]

Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип — к верхней части, разделенной точкой останова, в результате чего общее соответствие улучшается.

На рисунке приведен пример полезного введения такого прерывистого распределения для данных об осадках на севере Перу, где климат подвержен поведению тихоокеанского течения Эль-Ниньо . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат Северного Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат полузасушливый. По этой причине более высокие осадки имеют другое распределение частоты, чем более низкие. [6]

Прогноз [ править ]

Неопределенность [ править ]

Когда кумулятивное распределение частот получается на основе набора данных, можно задаться вопросом, можно ли его использовать для прогнозов. [7] Например, учитывая распределение речных расходов за 1950–2000 годы, можно ли использовать это распределение для прогнозирования того, как часто определенный речной расход будет превышаться в 2000–2050 годы? Ответ – да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды меняются, например, изменения в инфраструктуре водосбора реки или в характере осадков из-за климатических изменений, прогноз на основе исторических данных подвержен систематической ошибке . Даже при отсутствии систематической ошибки может иметь место случайная ошибка , поскольку случайно наблюдаемые расходы в течение 1950–2000 годов могли быть выше или ниже нормальных, в то время как, с другой стороны, расходы с 2000 по 2050 год случайно могут быть ниже. или выше нормы. Вопросы, связанные с этим, были исследованы в книге «Черный лебедь» .

Доверительные интервалы [ править ]

Биномиальные распределения для Pc = 0,1 (синий), 0,5 (зеленый) и 0,8 (красный) в выборке размером N = 20 . Распределение симметрично только при Pc = 0,5.
90%-ные биномиальные доверительные интервалы по логарифмической шкале.

Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае накопительной частоты есть только две возможности: превышено определенное опорное значение X или не превышено. Сумма частоты превышений и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.

Согласно нормальной теории, биномиальное распределение можно аппроксимировать и для больших N стандартного отклонения Sd можно рассчитать следующим образом:

Sd = Pc (1 - Pc )/ N

где Pc совокупная вероятность , а N — количество данных. Видно, что стандартное отклонение уменьшается с увеличением числа наблюдений N. Sd

определения доверительного интервала Pc Для используется критерий Стьюдента ( t ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) доверительные пределы Pc в симметричном распределении находятся из:

L = Pc t Sd
U = Pc + t Sd

Это известно как интервал Вальда . [8] Однако биномиальное распределение симметрично только относительно среднего значения, когда Pc = 0,5 , но оно становится асимметричным и все более и более асимметричным, когда Pc приближается к 0 или 1. Следовательно, в приближении Pc и 1− Pc могут использоваться в качестве весовых коэффициентов в присвоение t.Sd L и U :

L = Pc - 2⋅ Pc т Sd
U = Pc + 2⋅(1− Pc )⋅ t Sd

откуда видно, что эти выражения для Pc = 0,5 такие же, как и предыдущие.

Пример
N = 25 , Pc = 0,8 , Sd = 0,08 , уровень достоверности 90% , t = 1,71 , L = 0,58 , U = 0,85
Таким образом, с 90%-ной уверенностью установлено, что 0,58 < Pc < 0,85.
Тем не менее, существует 10% вероятность того, что Pc < 0,58 или Pc > 0,85.

Примечания [ править ]

Период возврата [ править ]

Периоды возврата и пояс уверенности. Кривая периодов доходности увеличивается в геометрической прогрессии.

Кумулятивную вероятность Pc можно также назвать вероятностью непревышения . Вероятность превышения Pe (также называемая функцией выживания ) находится из:

Вкл = 1 − ПК

T Период повторяемости определяется как:

Т = 1/ Пе

и указывает ожидаемое количество наблюдений, которые необходимо провести еще раз, чтобы найти значение изучаемой переменной, превышающее значение, используемое для T .
Верхний ( ) TU и нижний ( TL ) доверительные пределы периодов повторяемости можно найти соответственно как:

Т U знак равно 1 / (1− U )
Т L знак равно 1 / (1− L )

Для экстремальных значений изучаемой переменной U близко к 1, а небольшие изменения U вызывают большие изменения T U . Следовательно, расчетный период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, доверительные интервалы оказались справедливыми для долгосрочного прогноза. Для прогнозов на более короткий срок доверительные интервалы U L и T U T L на самом деле могут быть шире. Вместе с ограниченной уверенностью (менее 100%), используемой в t-критерии , это объясняет, почему, например, 100-летнее количество осадков может выпадать дважды за 10 лет.

Девять кривых повторяемости 50-летних выборок из теоретического 1000-летнего периода (базовая линия)

Строгое понятие периода повторяемости на самом деле имеет смысл только тогда, когда оно касается явления, зависящего от времени, такого как точечные осадки. Тогда период возврата соответствует ожидаемому времени ожидания до тех пор, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков – в годах.

Потребность доверия в поясах

На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставил Бенсон. [1]

Доверительный пояс вокруг экспериментальной кривой совокупной частоты или периода повторяемости дает представление об области, в которой можно найти истинное распределение.

Кроме того, уточняется, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.

Гистограмма [ править ]

Гистограмма, полученная на основе адаптированного распределения кумулятивной вероятности.
Гистограмма и функция плотности вероятности, полученные на основе кумулятивного распределения вероятностей, для логистического распределения .

Наблюдаемые данные могут быть организованы в классы или группы с порядковым номером k . Каждая группа имеет нижний предел ( Lk Uk ) и верхний предел ( ) . Когда класс ( k ) содержит данные m k и общее количество данных равно N , тогда относительная частота класса или группы находится из:

Fg ( L k < X U k ) знак равно м k / N

или кратко:

Fg k = м / Н

или в процентах:

(%) = 100 м / Н

Представление частот всех классов дает распределение частот или гистограмму . Гистограммы, даже если они составлены из одной и той же записи, различаются для разных пределов классов.

Гистограмму также можно получить на основе подобранного кумулятивного распределения вероятностей:

Pg k знак равно Pc ( U k ) - Pc ( L k )

может быть разница Между Fg k и Pg k из-за отклонений наблюдаемых данных от подобранного распределения (см. синий рисунок).

Часто желательно объединить гистограмму с функцией плотности вероятности , как показано на черно-белом рисунке.

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Бенсон, Массачусетс, 1960. Характеристики кривых частоты, основанные на теоретических 1000-летних данных. В: Т.Далримпл (ред.), Анализ частоты наводнений. Документ Геологической службы США по водоснабжению 1543-A, стр. 51–71.
  2. ^ Перейти обратно: а б с д Частотный и регрессионный анализ . Глава 6 в: HP Ritzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN   90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] под номером. 12 или напрямую в формате PDF: [2]
  3. ^ Дэвид Вос, Подбор распределений к данным
  4. ^ Пример примерно нормально распределенного набора данных, к которому можно подогнать большое количество различных распределений вероятностей, [3]
  5. ^ Скошенные влево (отрицательно) частотные гистограммы можно подогнать к квадратичным нормальным или зеркальным функциям вероятности Гамбеля. [4]
  6. ^ CumFreq, программа для совокупного частотного анализа с доверительными интервалами, периодами повторяемости и опцией разрыва. Бесплатная загрузка с: [5]
  7. ^ Сильвия Маскиокки, 2012, Статистические методы в физике элементарных частиц, лекция 11, зимний семестр 2012/13, GSI Дармштадт. [6]
  8. ^ Вальд, А.; Дж. Вулфовиц (1939). «Доверительные пределы для непрерывных функций распределения» . Анналы математической статистики . 10 (2): 105–118. дои : 10.1214/aoms/1177732209 .
  9. ^ Гош, Б.К. (1979). «Сравнение некоторых приблизительных доверительных интервалов для биномиального параметра». Журнал Американской статистической ассоциации . 74 (368): 894–900. дои : 10.1080/01621459.1979.10481051 .
  10. ^ Блит, ЧР; Х.А. Стилл (1983). «Биномиальные доверительные интервалы». Журнал Американской статистической ассоциации . 78 (381): 108–116. дои : 10.1080/01621459.1983.10477938 .
  11. ^ Агрести, А.; Б. Каффо (2000). «Простые и эффективные доверительные интервалы для пропорций и различий пропорций получаются в результате сложения двух успехов и двух неудач». Американский статистик . 54 (4): 280–288. дои : 10.1080/00031305.2000.10474560 . S2CID   18880883 .
  12. ^ Уилсон, Э.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. дои : 10.1080/01621459.1927.10502953 .
  13. ^ Хогг, Р.В. (2001). Вероятность и статистический вывод (6-е изд.). Прентис-Холл, Нью-Джерси: река Аппер-Седл.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 981968F07405302355D14A44E6675E20__1657369200
URL1:https://en.wikipedia.org/wiki/Cumulative_frequency_analysis
Заголовок, (Title) документа по адресу, URL1:
Cumulative frequency analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)