Jump to content

Правило Стерджеса


Правило Стерджеса [ 1 ] — это метод выбора количества интервалов для гистограммы . Данный наблюдений, правило Стерджеса предполагает использование

ячейки на гистограмме. Это правило широко используется в программном обеспечении для анализа данных , включая Python. [ 2 ] и R , где это метод выбора интервала по умолчанию. [ 3 ]

Правило Стерджеса основано на биномиальном распределении , которое используется как дискретная аппроксимация нормального распределения . [ 4 ] Если аппроксимируемая функция распределено биномиально, тогда

где это количество испытаний и это вероятность успеха и . Выбор дает

В этой форме мы можем рассматривать поскольку коэффициент нормализации и правило Стерджеса говорят, что выборка должна привести к гистограмме с количеством интервалов, заданным биномиальными коэффициентами . Поскольку общий размер выборки фиксирован мы должны иметь

используя известную формулу суммы биномиальных коэффициентов . Решение этой проблемы путем взятия журналов с обеих сторон дает и, наконец, используя (из-за подсчета 0 исходов) дает правило Стерджеса. В общем случае правило Стерджеса не дает целочисленного ответа, поэтому результат округляется в большую сторону.

Формула Доана

[ редактировать ]

Доан [ 5 ] предложил изменить формулу Стерджеса, чтобы добавить дополнительные ячейки, когда данные искажены . Использование моментов метода оценки

вместе с его дисперсией

Доан предложил добавить дополнительные ячейки, дающие формулу Доана

Для симметричных распределений это эквивалентно правилу Стерджеса. Для асимметричного распределения будет использоваться ряд дополнительных ячеек.

Гистограмма 10 000 выборок из гамма -распределения (2,2). Число ячеек, предложенное правилом Скотта , равно 61, правилом Доана — 21 и правилом Стерджеса — 15.

Правило Стерджеса не основано на какой-либо процедуре оптимизации, как правило Фридмана-Диакониса или правило Скотта . Оно просто утверждается на основе аппроксимации нормальной кривой биномиальным распределением. Гайндман отметил [ 6 ] что любое кратное биномиальным коэффициентам также будет сходиться к нормальному распределению, поэтому любое количество интервалов можно получить, следуя приведенному выше выводу. Скотт [ 4 ] показывает, что правило Стерджеса в целом дает чрезмерно сглаженные гистограммы, т.е. слишком мало интервалов, и рекомендует не использовать его в пользу других правил, таких как правило Фридмана-Диакониса или правило Скотта.

  1. ^ Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161 . JSTOR   2965501 .
  2. ^ https://numpy.org/doc/stable/reference/generated/numpy.histogram_bin_edges.html#numpy.histogram_bin_edges
  3. ^ https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/hist
  4. ^ Jump up to: а б Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID   197483064 .
  5. ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
  6. ^ Гайндман Р.Дж. Проблема с правилом Стерджеса для построения гистограмм. Университет Монаша. 1995, июль 5:1-2.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 89611f55e0cffdcf01890362c9ccab2c__1722261720
URL1:https://arc.ask3.ru/arc/aa/89/2c/89611f55e0cffdcf01890362c9ccab2c.html
Заголовок, (Title) документа по адресу, URL1:
Sturges's rule - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)