квартет Анскомба

Квартет Анскомба состоит из четырех наборов данных , которые имеют почти идентичную простую описательную статистику , но имеют очень разные распределения и выглядят очень разными при построении графиков . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность графического отображения данных при их анализе, так и влияние выбросов и других влиятельных наблюдений на статистические свойства. По его словам, статья призвана развеять впечатление статистиков о том, что «числовые расчеты точны, но графики приблизительны». [ 1 ]
Данные
[ редактировать ]Для всех четырех наборов данных:
Свойство | Ценить | Точность |
---|---|---|
Среднее значение х | 9 | точный |
Выборочная дисперсия x : s 2 х |
11 | точный |
Среднее значение у | 7.50 | до 2 десятичных знаков |
Выборочная дисперсия y : s 2 и |
4.125 | ±0.003 |
Корреляция между x и y | 0.816 | до 3 десятичных знаков |
линейной регрессии Линия | у = 3,00 + 0,500 х | до 2 и 3 десятичных знаков соответственно |
Коэффициент детерминации линейной регрессии: | 0.67 | до 2 десятичных знаков |
- Первая диаграмма рассеяния (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелирующим переменным , где y можно смоделировать как гауссову величину со средним значением, линейно зависящим от x .
- Для второго графика (вверху справа), хотя связь между двумя переменными очевидна, она не является линейной, и коэффициент корреляции Пирсона не имеет значения. Более общая регрессия и соответствующий коэффициент детерминации были бы более уместными.
- На третьем графике (внизу слева) смоделированная зависимость является линейной, но должна иметь другую линию регрессии ( надежная регрессия требовалась бы ). Рассчитанная регрессия компенсируется одним выбросом , который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816.
- Наконец, четвертый график (внизу справа) показывает пример, когда одной точки с высоким рычагом достаточно для получения высокого коэффициента корреляции, хотя другие точки данных не указывают на какую-либо связь между переменными.
Квартет до сих пор часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом отношений, а также неадекватности основных статистических свойств для описания реалистичных наборов данных. [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ]
Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. [ 1 ]
Набор данных I | Набор данных II | Набор данных III | Набор данных IV | ||||
---|---|---|---|---|---|---|---|
х | и | х | и | х | и | х | и |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Неизвестно, как Анскомб создавал свои наборы данных. [ 7 ] С момента публикации было разработано несколько методов создания похожих наборов данных с идентичной статистикой и разной графикой. [ 7 ] [ 8 ] Один из них, « Дюжина Датазавра» , состоит из точек, очерчивающих контур динозавра, а также двенадцати других наборов данных, имеющих ту же сводную статистику. [ 9 ] [ 10 ] [ 11 ]
См. также
[ редактировать ]- Датазавра дюжина
- Исследовательский анализ данных
- Хорошая посадка
- Проверка регрессии
- Парадокс Симпсона
- Статистическая проверка модели
Ссылки
[ редактировать ]- ^ Jump up to: а б Анскомб, Ф.Дж. (1973). «Графики в статистическом анализе». Американский статистик . 27 (1): 17–21. дои : 10.1080/00031305.1973.10478966 . JSTOR 2682899 .
- ^ Элерт, Гленн (2021). «Линейная регрессия» . Гиперучебник по физике .
- ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом . О'Рейли Медиа . стр. 65–66 . ISBN 978-0-596-80235-6 .
- ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . Джон Уайли и сыновья. п. 91. ИСБН 0-471-74696-7 .
- ^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: Геометрический подход . Спрингер . п. 418. ИСБН 0-387-97517-9 .
- ^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN 0-9613921-4-2 .
- ^ Jump up to: а б Чаттерджи, Сангит; Фират, Айкут (2007). «Генерация данных с идентичной статистикой, но с разной графикой: продолжение набора данных Анскомба». Американский статистик . 61 (3): 248–254. дои : 10.1198/000313007X220057 . JSTOR 27643902 . S2CID 121163371 .
- ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одинаковая статистика, разные графики: создание наборов данных с разным внешним видом и идентичной статистикой посредством моделирования отжига». Материалы конференции CHI 2017 года по человеческому фактору в вычислительных системах . стр. 1290–1294. дои : 10.1145/3025453.3025912 . ISBN 9781450346559 . S2CID 9247543 .
- ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одинаковая статистика, разные графики: создание наборов данных с различным внешним видом и идентичной статистикой посредством моделирования отжига» . Исследования Autodesk . Архивировано из оригинала 4 октября 2020 г. Проверено 20 апреля 2021 г.
- ^ Мюррей, Лори Л.; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа» . Журнал наук о принятии решений инновационного образования . 19 (2): 157–166. дои : 10.1111/dsji.12233 . ISSN 1540-4595 . S2CID 233609149 .
- ^ Андриенко Наталья ; Андриенко Геннадий; Фукс, Георг; Слингсби, Эйдан; Туркай, Чагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных» , Визуальная аналитика для специалистов по данным , Чам: Springer International Publishing, стр. 151–180, номер документа : 10.1007/978-3-030-56146-8_5 , ISBN 978-3-030-56145-1 , S2CID 226648414 , получено 20 апреля 2021 г.
Внешние ссылки
[ редактировать ]- Кафедра физики Университета Торонто
- Динамический апплет , созданный в GeoGebra, показывающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
- Анимированные примеры от Autodesk под названием «Дюжина Датазавра».
- Документация для наборов данных R. в