Jump to content

Датазавра дюжина

включает Дюжина Датазавра в себя тринадцать наборов данных , которые имеют почти идентичную простую описательную статистику с точностью до двух знаков после запятой, но имеют очень разные распределения и выглядят очень разными при построении графиков . [1] Он был вдохновлен меньшим квартетом Анскомба , созданным в 1973 году.

В следующей таблице представлена ​​сводная статистика для всех тринадцати наборов данных.

Свойство Ценить Точность
Количество элементов 142 точный
Среднее значение х 54.26 до 2 десятичных знаков
Выборочная дисперсия x : s 2
х
16.76 до 2 десятичных знаков
Среднее значение у 47.83 до 2 десятичных знаков
Выборочная дисперсия y : s 2
и
26.93 до 2 десятичных знаков
Корреляция между x и y −0.06 до 3 десятичных знаков
линейной регрессии Линия у = 53 - 0,1 х до 0 и 1 десятичного знака соответственно
Коэффициент детерминации линейной регрессии: 0.004 до 3 десятичных знаков
тринадцать графиков наборов данных в «Дюжине Датазавра», визуализированных графически, а также суммированных численно, чтобы показать, что их статистические сводки схожи, а их графические представления не похожи.
Тринадцать наборов данных в Дюжине Датазавра, визуализированные и обобщенные

Тринадцать наборов данных были помечены следующим образом:

  • прочь
  • яблочко
  • круг
  • динозавр
  • точки
  • h_lines
  • high_lines
  • наклон_вниз
  • наклон_вверх
  • звезда
  • v_line
  • широкие_линии
  • х_форма

Подобно квартету Анскомба , дюжина Datasaurus была разработана для дальнейшей иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом отношений, а также недостаточности основных статистических свойств для описания реалистичных наборов данных. [2] [3] [4] [5] [1] [6]

Создание

[ редактировать ]
Набор данных о динозаврах, созданный Альберто Каиро , который вдохновил на создание Дюжины Датазавра.

Первый набор данных в форме тираннозавра , который вдохновил остальную часть набора данных «датазавра», был создан в 2016 году Альберто Каиро . [7] [8] Маартен Ламбрехтс предложил назвать этот набор данных также «Анскомбозавр». [7]

Затем этот набор данных сопровождался двенадцатью другими наборами данных, созданными Джастином Матейкой и Джорджем Фицморисом из Autodesk . В отличие от квартета Анскомба, где неизвестно, как был сгенерирован набор данных, [9] для создания этих наборов данных авторы использовали моделирование отжига . Они внесли небольшие, случайные и необъективные изменения в каждую точку в направлении желаемой формы. Для создания каждой формы потребовалось 200 000 итераций возмущений. [1]

Псевдокод : этого алгоритма выглядит следующим образом

current_ds ← initial_ds
for x iterations, do:
    test_ds ← perturb(current_ds, temp)
    if similar_enough(test_ds, initial_ds):
        current_ds ← test_ds

function perturb(ds, temp):
    loop:
        test ← move_random_points(ds)
        if fit(test) > fit(ds) or temp > random():
            return test

где

  • initial_ds это исходный набор данных
  • current_ds это последняя версия набора данных
  • fit() это функция, используемая для проверки того, приближается ли перемещение точек к желаемой форме
  • temp — температура алгоритма моделирования отжига0
  • similar_enough() это функция, которая проверяет, достаточно ли схожа статистика для двух заданных наборов данных
  • move_random_points() это функция, которая случайным образом перемещает точки данных

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с Матейка, Джастин; Фицморис, Джордж (2 мая 2017 г.). «Одинаковая статистика, разные графики: создание наборов данных с разным внешним видом и идентичной статистикой посредством моделирования отжига» (PDF) . Материалы конференции CHI 2017 года по человеческому фактору в вычислительных системах . ЧИ '17. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники: 1290–1294. дои : 10.1145/3025453.3025912 . ISBN  978-1-4503-4655-9 . Архивировано из оригинала 2 мая 2017 г.
  2. ^ Элерт, Гленн (2021). «Линейная регрессия» . Гиперучебник по физике .
  3. ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом . О'Рейли Медиа . стр. 65–66 . ISBN  978-0-596-80235-6 .
  4. ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . Джон Уайли и сыновья. п. 91. ИСБН  0-471-74696-7 .
  5. ^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: Геометрический подход . Спрингер . п. 418. ИСБН  0-387-97517-9 .
  6. ^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN  0-9613921-4-2 .
  7. ^ Перейти обратно: а б Каир, Альберто. «Загрузите Datasaurus: никогда не доверяйте только сводной статистике; всегда визуализируйте свои данные» . Проверено 1 февраля 2024 г.
  8. ^ Мурта, Джек (01 февраля 2024 г.). «Чему этот график динозавра может научить нас в области более эффективной науки» . Научный американец . Проверено 8 марта 2024 г.
  9. ^ Чаттерджи, Сангит; Фират, Айкут (2007). «Генерация данных с идентичной статистикой, но с разной графикой: продолжение набора данных Анскомба». Американский статистик . 61 (3): 248–254. дои : 10.1198/000313007X220057 . JSTOR   27643902 . S2CID   121163371 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 647c4b3cf8cb916c8b2cf9e4992fee33__1717754760
URL1:https://arc.ask3.ru/arc/aa/64/33/647c4b3cf8cb916c8b2cf9e4992fee33.html
Заголовок, (Title) документа по адресу, URL1:
Datasaurus dozen - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)