Jump to content

квартет Анскомба

Четыре набора данных, составляющие квартет Анскомба. Все четыре набора имеют одинаковые статистические параметры, но на графиках видно, что они существенно различаются.

Квартет Анскомба состоит из четырех наборов данных , которые имеют почти идентичную простую описательную статистику , но имеют очень разные распределения и выглядят очень разными при построении графиков . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность графического отображения данных при их анализе, так и влияние выбросов и других влиятельных наблюдений на статистические свойства. По его словам, статья призвана развеять впечатление статистиков о том, что «числовые расчеты точны, но графики приблизительны». [ 1 ]

Для всех четырех наборов данных:

Свойство Ценить Точность
Среднее значение х 9 точный
Выборочная дисперсия x : s 2
х
11 точный
Среднее значение у 7.50 до 2 десятичных знаков
Выборочная дисперсия y : s 2
и
4.125 ±0.003
Корреляция между x и y 0.816 до 3 десятичных знаков
линейной регрессии Линия у = 3,00 + 0,500 х до 2 и 3 десятичных знаков соответственно
Коэффициент детерминации линейной регрессии: 0.67 до 2 десятичных знаков

Квартет до сих пор часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом отношений, а также неадекватности основных статистических свойств для описания реалистичных наборов данных. [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ]

Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. [ 1 ]

квартет Анскомба
Набор данных I Набор данных II Набор данных III Набор данных IV
х и х и х и х и
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Неизвестно, как Анскомб создавал свои наборы данных. [ 7 ] С момента публикации было разработано несколько методов создания похожих наборов данных с идентичной статистикой и разной графикой. [ 7 ] [ 8 ] Один из них, « Дюжина Датазавра» , состоит из точек, очерчивающих контур динозавра, а также двенадцати других наборов данных, имеющих ту же сводную статистику. [ 9 ] [ 10 ] [ 11 ]

См. также

[ редактировать ]


  1. ^ Jump up to: а б Анскомб, Ф.Дж. (1973). «Графики в статистическом анализе». Американский статистик . 27 (1): 17–21. дои : 10.1080/00031305.1973.10478966 . JSTOR   2682899 .
  2. ^ Элерт, Гленн (2021). «Линейная регрессия» . Гиперучебник по физике .
  3. ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом . О'Рейли Медиа . стр. 65–66 . ISBN  978-0-596-80235-6 .
  4. ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . Джон Уайли и сыновья. п. 91. ИСБН  0-471-74696-7 .
  5. ^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: Геометрический подход . Спрингер . п. 418. ИСБН  0-387-97517-9 .
  6. ^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN  0-9613921-4-2 .
  7. ^ Jump up to: а б Чаттерджи, Сангит; Фират, Айкут (2007). «Генерация данных с идентичной статистикой, но с разной графикой: продолжение набора данных Анскомба». Американский статистик . 61 (3): 248–254. дои : 10.1198/000313007X220057 . JSTOR   27643902 . S2CID   121163371 .
  8. ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одинаковая статистика, разные графики: создание наборов данных с разным внешним видом и идентичной статистикой посредством моделирования отжига». Материалы конференции CHI 2017 года по человеческому фактору в вычислительных системах . стр. 1290–1294. дои : 10.1145/3025453.3025912 . ISBN  9781450346559 . S2CID   9247543 .
  9. ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одинаковая статистика, разные графики: создание наборов данных с различным внешним видом и идентичной статистикой посредством моделирования отжига» . Исследования Autodesk . Архивировано из оригинала 4 октября 2020 г. Проверено 20 апреля 2021 г.
  10. ^ Мюррей, Лори Л.; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа» . Журнал наук о принятии решений инновационного образования . 19 (2): 157–166. дои : 10.1111/dsji.12233 . ISSN   1540-4595 . S2CID   233609149 .
  11. ^ Андриенко Наталья ; Андриенко Геннадий; Фукс, Георг; Слингсби, Эйдан; Туркай, Чагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных» , Визуальная аналитика для специалистов по данным , Чам: Springer International Publishing, стр. 151–180, номер документа : 10.1007/978-3-030-56146-8_5 , ISBN  978-3-030-56145-1 , S2CID   226648414 , получено 20 апреля 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ee50d214b38d4021a69857bfd5461435__1713902520
URL1:https://arc.ask3.ru/arc/aa/ee/35/ee50d214b38d4021a69857bfd5461435.html
Заголовок, (Title) документа по адресу, URL1:
Anscombe's quartet - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)