Правило Фридмана-Диакониса
В статистике правило Фридмана -Диакониса можно использовать для выбора ширины интервалов, которые будут использоваться в гистограмме . [1] Он назван в честь Дэвида А. Фридмана и Перси Диакониса .
Для набора эмпирических измерений, выбранных из некоторого распределения вероятностей , правило Фридмана-Диакониса разработано приблизительно для минимизации интеграла квадрата разности между гистограммой (т. е. относительной плотностью частот) и плотностью теоретического распределения вероятностей.
Подробно, интегрированная среднеквадратическая ошибка (IMSE)
где представляет собой аппроксимацию гистограммы на интервале вычислено с точки данных, выбранные из распределения . обозначает ожидание во многих независимых розыгрышах точки данных. В мягких условиях, а именно и его первые две производные , Фридман и Диаконис показывают, что интеграл минимизируется за счет выбора ширины интервала
Формула, выведенная ранее Скоттом. [2] Изменение порядка интегрирования и ожидания оправдано теоремой Фубини . Правило Фридмана-Диакониса выводится из предположения, что является нормальным распределением , что делает его примером нормального эталонного правила . В этом случае . [3]
Фридман и Диаконис используют межквартильный диапазон для оценки стандартного отклонения : [4] где — кумулятивная функция распределения для нормальной плотности. Это дает правило
где представляет собой межквартильный размах данных и количество наблюдений в выборке . Фактически, если используется нормальная плотность, коэффициент 2 впереди оказывается равным , [4] но 2 — это фактор, рекомендованный Фридманом и Диаконисом.
Другие подходы
[ редактировать ]С заменой коэффициента 2 примерно на 2,59 правило Фридмана-Диакониса асимптотически соответствует правилу Скотта для выборочных данных.из нормального распределения.
Другой подход заключается в использовании правила Стерджеса : используйте ширину ячейки так, чтобы в ней было около непустые ячейки, однако этот подход не рекомендуется, если количество точек данных велико. [4] Обсуждение многих альтернативных подходов к выбору бинов см. в Birge and Rozenholc. [5]
Ссылки
[ редактировать ]- ^ Фридман, Дэвид ; Диаконис, Перси (декабрь 1981 г.). «О гистограмме как средстве оценки плотности: теория L 2 ». Теория вероятностей и смежные области . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . дои : 10.1007/BF01025868 . ISSN 0178-8051 . S2CID 14437088 .
- ^ Д. У. Скотт (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605 . JSTOR 2335182 .
- ^ Скотт, Д.В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID 197483064 .
- ^ Перейти обратно: а б с Д. У. Скотт (2010). «Правило Скотта». Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (4). Уайли: 497–502. дои : 10.1002/wics.103 .
- ^ Бирге, Л.; Розенхольц, Ю. (2006). «Сколько интервалов следует поместить в обычную гистограмму» . ESAIM: Вероятность и статистика . 10 :24–45. CiteSeerX 10.1.1.3.220 . дои : 10.1051/ps:2006001 .