правило Скотта
Правило Скотта — это метод выбора количества интервалов в гистограмме . [ 1 ] Правило Скотта широко используется в программном обеспечении для анализа данных , включая R , [ 2 ] Питон [ 3 ] и Microsoft Excel , где это метод выбора ячейки по умолчанию. [ 4 ]
Для набора наблюдения позволять быть аппроксимацией гистограммы некоторой функции . Интегральная среднеквадратическая ошибка (IMSE) равна
Где обозначает ожидание во многих независимых розыгрышах точки данных. Тейлор расширяет до первого порядка в , ширина ячейки, Скотт показал, что оптимальная ширина равна
Эта формула также является основой правила Фридмана-Диакониса .
Взяв нормальную ссылку , т.е. предполагая, что является нормальным распределением , уравнение для становится
где является стандартным отклонением нормального распределения и оценивается на основе данных. Используя это значение ширины интервала, Скотт демонстрирует, что [ 5 ]
показывая, насколько быстро аппроксимация гистограммы приближается к истинному распределению по мере увеличения количества выборок.
Правило Террелла-Скотта
[ редактировать ]Другой подход, разработанный Терреллом и Скоттом. [ 6 ] основано на наблюдении, что среди всех плотностей определенное на компактном интервале , скажем , с производными, которые абсолютно непрерывны , плотность, которая минимизирует является
Используя это с в выражении для дает верхнюю границу значения ширины ячейки, которая равна
Итак, для функций, удовлетворяющих условиям непрерывности, по крайней мере
следует использовать контейнеры. [ 7 ]

Это правило также называется правилом чрезмерного сглаживания. [ 7 ] или правило Райса , [ 8 ] назван так потому, что оба автора работали в Университете Райса . Правило Райса часто указывается с коэффициентом 2 вне кубического корня, и может рассматриваться как другое правило. Ключевое отличие от правила Скотта заключается в том, что это правило не предполагает, что данные распределены нормально, а ширина интервала зависит только от количества выборок, а не от каких-либо свойств данных.
В общем не является целым числом, поэтому используется там, где обозначает функцию потолка .
Ссылки
[ редактировать ]- ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605 .
- ^ https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/hist
- ^ https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html#numpy.histogram_bin_edges
- ^ «Excel: Создать гистограмму» .
- ^ Скотт Д.В. Правило Скотта. Междисциплинарные обзоры Wiley: вычислительная статистика. июль 2010 г.; 2 (4): 497–502.
- ^ Террелл Г.Р., Скотт Д.В. Сглаженные непараметрические оценки плотности. Журнал Американской статистической ассоциации. 1 марта 1985 г.; 80 (389): 209-14.
- ^ Jump up to: а б Скотт, Д.В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID 197483064 .
- ^ Онлайн-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)