Правило Стерджеса
Правило Стерджеса [ 1 ] — это метод выбора количества интервалов для гистограммы . Данный наблюдений, правило Стерджеса предполагает использование
ячейки на гистограмме. Это правило широко используется в программном обеспечении для анализа данных , включая Python. [ 2 ] и R , где это метод выбора интервала по умолчанию. [ 3 ]
Правило Стерджеса основано на биномиальном распределении , которое используется как дискретная аппроксимация нормального распределения . [ 4 ] Если аппроксимируемая функция распределено биномиально, тогда
где это количество испытаний и это вероятность успеха и . Выбор дает
В этой форме мы можем рассматривать поскольку коэффициент нормализации и правило Стерджеса говорят, что выборка должна привести к гистограмме с количеством интервалов, заданным биномиальными коэффициентами . Поскольку общий размер выборки фиксирован мы должны иметь
используя известную формулу суммы биномиальных коэффициентов . Решение этой проблемы путем взятия журналов с обеих сторон дает и, наконец, используя (из-за подсчета 0 исходов) дает правило Стерджеса. В общем случае правило Стерджеса не дает целочисленного ответа, поэтому результат округляется в большую сторону.
Формула Доана
[ редактировать ]Доан [ 5 ] предложил изменить формулу Стерджеса, чтобы добавить дополнительные ячейки, когда данные искажены . Использование моментов метода оценки
вместе с его дисперсией
Доан предложил добавить дополнительные ячейки, дающие формулу Доана
Для симметричных распределений это эквивалентно правилу Стерджеса. Для асимметричного распределения будет использоваться ряд дополнительных ячеек.
Критика
[ редактировать ]
Правило Стерджеса не основано на какой-либо процедуре оптимизации, как правило Фридмана-Диакониса или правило Скотта . Оно просто утверждается на основе аппроксимации нормальной кривой биномиальным распределением. Гайндман отметил [ 6 ] что любое кратное биномиальным коэффициентам также будет сходиться к нормальному распределению, поэтому любое количество интервалов можно получить, следуя приведенному выше выводу. Скотт [ 4 ] показывает, что правило Стерджеса в целом дает чрезмерно сглаженные гистограммы, т.е. слишком мало интервалов, и рекомендует не использовать его в пользу других правил, таких как правило Фридмана-Диакониса или правило Скотта.
Ссылки
[ редактировать ]- ^ Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161 . JSTOR 2965501 .
- ^ https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html#numpy.histogram_bin_edges
- ^ https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/hist
- ^ Jump up to: а б Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID 197483064 .
- ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
- ^ Гайндман Р.Дж. Проблема с правилом Стерджеса для построения гистограмм. Университет Монаша. 1995, июль 5:1-2.