Jump to content

Исследовательский анализ данных

В статистике исследовательский анализ данных (EDA) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистической графики и других методов визуализации данных . Статистическая модель может использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам за пределами формального моделирования, и тем самым контрастирует с традиционной проверкой гипотез. Исследовательский анализ данных продвигался Джоном Тьюки с 1970 года, чтобы побудить статистиков исследовать данные и, возможно, сформулировать гипотезы, которые могли бы привести к сбору новых данных и экспериментам. EDA отличается от анализа исходных данных (IDA) , [1] [2] который более узко фокусируется на проверке предположений, необходимых для подбора модели и проверки гипотез, а также на обработке пропущенных значений и преобразовании переменных по мере необходимости. EDA включает в себя IDA.

Тьюки определил анализ данных в 1961 году как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ проще, точнее или точнее, а также все механизмы и результаты ( математическая) статистика, которая применяется для анализа данных». [3]

Исследовательский анализ данных — это метод анализа, позволяющий анализировать и исследовать набор данных и суммировать основные характеристики набора данных. Основным преимуществом EDA является обеспечение визуализации данных после проведения анализа.

Поддержка Тьюки EDA способствовала разработке пакетов статистических вычислений , особенно S в Bell Labs . [4] вдохновил системы S-PLUS и R. Язык программирования S Это семейство статистических вычислительных сред отличалось значительно улучшенными возможностями динамической визуализации, что позволило статистикам выявлять выбросы , тенденции и закономерности в данных, заслуживающие дальнейшего изучения.

EDA Тьюки была связана с двумя другими достижениями в статистической теории : устойчивой статистикой и непараметрической статистикой , обе из которых пытались уменьшить чувствительность статистических выводов к ошибкам в формулировании статистических моделей . Тьюки пропагандировал использование пятизначной сводки числовых данных — двух крайних значений ( максимального и минимального ), медианы и квартилей — поскольку эти медиана и квартили, являющиеся функциями эмпирического распределения , определены для всех распределений, в отличие от среднего и квартилей. стандартное отклонение ; более того, квартили и медиана более устойчивы к асимметричному распределению или распределению с тяжелым хвостом , чем традиционные сводные данные (среднее и стандартное отклонение). Пакеты S , S-PLUS и R использующие статистику передискретизации Кенуя и Тьюки , такие как складной нож и Эфрона включали процедуры , бутстрап , которые являются непараметрическими и устойчивыми (для многих задач).

Исследовательский анализ данных, надежная статистика, непараметрическая статистика и развитие языков статистического программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились производство полупроводников и понимание сетей связи, которые касались Bell Labs. Эти статистические разработки, все поддержанные Тьюки, были разработаны, чтобы дополнить аналитическую теорию проверки статистических гипотез , особенно акцент лапласовской традиции на экспоненциальных семействах . [5]

Разработка

[ редактировать ]
Блок-схема процесса обработки данных

Джон В. Тьюки написал книгу «Исследовательский анализ данных» в 1977 году. [6] Тьюки считал, что слишком много внимания в статистике уделяется проверке статистических гипотез (анализу подтверждающих данных); больше внимания необходимо уделять использованию данных для выдвижения гипотез для проверки. В частности, он считал, что смешение двух типов анализа и их использование на одном и том же наборе данных может привести к систематической ошибке из-за проблем, присущих проверке гипотез, предложенных данными .

Целями EDA являются:

Многие методы EDA были внедрены в интеллектуальный анализ данных . Им также обучают молодых студентов, чтобы познакомить их со статистическим мышлением. [8]

Техники и инструменты

[ редактировать ]

Существует ряд инструментов, полезных для EDA, но EDA характеризуется скорее отношением, чем конкретными методами. [9]

Типичными графическими методами, используемыми в EDA, являются:

Уменьшение размерности :

Типичными количественными методами являются:

Многие идеи EDA восходят к более ранним авторам, например:

Курс Открытого университета « Статистика в обществе» (MDST 242) взял вышеизложенные идеи и объединил их с Готфрида Нётера работой , которая представила статистические выводы посредством подбрасывания монеты и медианного теста .

Результаты EDA ортогональны задаче первичного анализа. Для иллюстрации рассмотрим пример Cook et al. где задача анализа состоит в том, чтобы найти переменные, которые лучше всего предсказывают чаевые, которые посетитель даст официанту. [12] В данных, собранных для этой задачи, доступны следующие переменные: сумма чаевых, общая сумма счета, пол плательщика, зона для курящих/некурящих, время суток, день недели и размер вечеринки. Задача первичного анализа решается путем подбора регрессионной модели, в которой ставка чаевых является переменной отклика. Подогнанная модель

( размер чаевых ) = 0,18–0,01 × (размер вечеринки)

В нем говорится, что по мере увеличения размера обеда на одного человека (что приводит к увеличению счета) ставка чаевых уменьшится в среднем на 1%.

Однако изучение данных выявило и другие интересные особенности, не описанные этой моделью.

То, что мы узнаем из графиков, отличается от того, что иллюстрирует регрессионная модель, хотя эксперимент не был предназначен для изучения каких-либо других тенденций. Закономерности, обнаруженные в результате изучения данных, позволяют предположить гипотезы о чаевых, которые, возможно, не были предвидены заранее, и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально формулируются и проверяются путем сбора новых данных.

Программное обеспечение

[ редактировать ]
  • JMP , пакет EDA от Института SAS .
  • KNIME , Konstanz Information Miner — платформа для исследования данных с открытым исходным кодом, основанная на Eclipse.
  • Minitab — пакет EDA и общей статистики, широко используемый в промышленных и корпоративных условиях.
  • Orange с открытым исходным кодом пакет программного обеспечения для анализа данных и машинного обучения .
  • Python — язык программирования с открытым исходным кодом, широко используемый в интеллектуальном анализе данных и машинном обучении.
  • R — язык программирования с открытым исходным кодом для статистических вычислений и графики. Вместе с Python один из самых популярных языков для анализа данных.
  • TinkerPlots — программное обеспечение EDA для учащихся старших классов начальной и средней школы.
  • Weka — пакет интеллектуального анализа данных с открытым исходным кодом, который включает в себя инструменты визуализации и EDA, такие как целевое прогнозирование .

См. также

[ редактировать ]
  1. ^ Чатфилд, К. (1995). Решение проблем: Руководство для статистика (2-е изд.). Чепмен и Холл. ISBN  978-0412606304 .
  2. ^ Бэйли, Марк; Ле Сесси, Саския; Шмидт, Карстен Оливер; Луса, Лара; Хюбнер, Марианна; Тематическая группа «Анализ исходных данных» инициативы STRATOS (2022 г.). «Десять простых правил первичного анализа данных» . PLOS Вычислительная биология . 18 (2): e1009819. Бибкод : 2022PLSCB..18E9819B . дои : 10.1371/journal.pcbi.1009819 . ПМЦ   8870512 . ПМИД   35202399 .
  3. ^ Джон Тьюки-Будущее анализа данных-июль 1961 г.
  4. ^ Беккер, Ричард А., Краткая история S , Мюррей Хилл, Нью-Джерси: AT&T Bell Laboratories, заархивировано из оригинала (PS) 23 июля 2015 г. , получено 23 июля 2015 г. , ... мы хотели быть способны взаимодействовать с нашими данными, используя методы исследовательского анализа данных (Tukey, 1971).
  5. ^ Моргенталер, Стефан; Фернхольц, Луиза Т. (2000). «Разговор с Джоном В. Тьюки и Элизабет Тьюки, Луизой Т. Фернхольц и Стефаном Моргенталером» . Статистическая наука . 15 (1): 79–94. дои : 10.1214/ss/1009212675 .
  6. ^ Тьюки, Джон В. (1977). Исследовательский анализ данных . Пирсон. ISBN  978-0201076165 .
  7. ^ Беренс-Принципы и процедуры исследовательского анализа данных-Американская психологическая ассоциация-1997
  8. ^ Конольд, К. (1999). «Статистика идет в школу». Современная психология . 44 (1): 81–82. дои : 10.1037/001949 .
  9. ^ Тьюки, Джон В. (1980). «Нам нужны как исследовательские, так и подтверждающие». Американский статистик . 34 (1): 23–25. дои : 10.1080/00031305.1980.10482706 .
  10. ^ Сайлем, Хеба З.; Серо, Джулия Э.; Бакал, Крис (08 января 2015 г.). «Визуализация данных клеточной визуализации с помощью PhenoPlot» . Природные коммуникации . 6 (1): 5825. Бибкод : 2015NatCo...6.5825S . дои : 10.1038/ncomms6825 . ISSN   2041-1723 . ПМЦ   4354266 . ПМИД   25569359 .
  11. ^ Элементарное руководство по статистике (3-е изд., 1920 г.) https://archive.org/details/cu31924013702968/page/n5
  12. ^ Кук, Д. и Суэйн, Д.Ф. (совместно с А. Буджой, Д. Темпл Лэнгом, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (2007) «Интерактивная и динамическая графика для анализа данных: с R и GGobi» Springer , 978-0387717616

Библиография

[ редактировать ]


[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 797029ee304e2db82a7f338d293607a8__1722000540
URL1:https://arc.ask3.ru/arc/aa/79/a8/797029ee304e2db82a7f338d293607a8.html
Заголовок, (Title) документа по адресу, URL1:
Exploratory data analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)