Jump to content

Исследование данных

Исследование данных — это подход, аналогичный первоначальному анализу данных , при котором аналитик данных использует визуальное исследование, чтобы понять, что находится в наборе данных и характеристики данных, а не с помощью традиционных систем управления данными. [1] Эти характеристики могут включать размер или объем данных, полноту данных, правильность данных, возможные связи между элементами данных или файлами/таблицами в данных.

Исследование данных обычно проводится с использованием комбинации автоматизированных и ручных действий. [1] [2] [3] Автоматизированные действия могут включать профилирование данных или визуализацию данных или табличные отчеты, чтобы дать аналитику первоначальное представление о данных и понимание ключевых характеристик. [1]

За этим часто следует ручная детализация или фильтрация данных для выявления аномалий или закономерностей, выявленных с помощью автоматизированных действий. Исследование данных также может потребовать ручного написания сценариев и запросов к данным (например, с использованием таких языков, как SQL или R ) или использования электронных таблиц или аналогичных инструментов для просмотра необработанных данных . [4]

Все эти действия направлены на создание мысленной модели и понимания данных в сознании аналитика, а также определение основных метаданных (статистики, структуры, связей) для набора данных, которые могут быть использованы в дальнейшем анализе. [1]

Как только будет получено первоначальное понимание данных, данные можно будет сократить или уточнить, удалив непригодные для использования части данных ( очистка данных ), исправив плохо отформатированные элементы и определив соответствующие связи между наборами данных. [2] Этот процесс также известен как определение качества данных . [4]

Исследование данных также может относиться к специальным запросам или визуализации данных для выявления потенциальных взаимосвязей или идей, которые могут быть скрыты в данных и не требуют предварительной формулировки предположений. [1]

Традиционно это было ключевым направлением внимания статистиков, а Джон Тьюки был ключевым евангелистом в этой области. [5] Сегодня исследование данных получило более широкое распространение и находится в центре внимания аналитиков и специалистов по данным ; последнее является относительно новой ролью на предприятиях и в более крупных организациях.

Интерактивное исследование данных

[ редактировать ]

Эта область исследования данных стала областью интересов в области машинного обучения . Это относительно новая область, которая все еще развивается. [4] На самом базовом уровне алгоритм машинного обучения может получать набор данных и использоваться для определения истинности гипотезы на основе набора данных. Общие алгоритмы машинного обучения могут сосредоточиться на выявлении конкретных закономерностей в данных. [2] Многие распространенные шаблоны включают регрессию и классификацию или кластеризацию , но существует множество возможных шаблонов и алгоритмов, которые можно применять к данным с помощью машинного обучения.

Используя машинное обучение, можно найти закономерности или взаимосвязи в данных, которые было бы трудно или невозможно обнаружить с помощью ручного контроля, метода проб и ошибок или традиционных методов исследования. [6]

Программное обеспечение

[ редактировать ]
  • Trifacta – платформа подготовки и анализа данных
  • Paxata - программное обеспечение для самостоятельной подготовки данных
  • Alteryx - программное обеспечение для смешивания данных и расширенного анализа данных
  • Microsoft Power BI — интерактивный инструмент визуализации и анализа данных
  • OpenRefine — автономное настольное приложение с открытым исходным кодом для очистки и преобразования данных.
  • Программное обеспечение Tableau – программное обеспечение для интерактивной визуализации данных

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и FOSTER Open Science , Обзор методов исследования данных: Стратос Идреос, Ольга Папаэммонуил, Сураджит Чаудхури.
  2. ^ Jump up to: а б с Stanford.edu , 2011 Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных, Кандел, Паепке, Хеллерштейн Хир.
  3. ^ Арнаб Нанди; Х.В. Джагадиш. Управляемое взаимодействие: переосмысление парадигмы запроса-результата (PDF) . Международная конференция по очень большим базам данных (VLDB), 2011 г.
  4. ^ Jump up to: а б с Stanford.edu , IEEE Visual Analytics Science & Technology (VAST), октябрь 2012 г. Анализ и визуализация корпоративных данных: исследование в ходе интервью. Шон Кандел, Андреас Паепке, Джозеф Хеллерстайн, Джеффри Хир Proc.
  5. ^ Исследовательский анализ данных , Пирсон. ISBN   978-0201076165
  6. ^ Машинное обучение для исследования данных
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 762ffa664ffb1f6dbeebdad87d38db33__1651490520
URL1:https://arc.ask3.ru/arc/aa/76/33/762ffa664ffb1f6dbeebdad87d38db33.html
Заголовок, (Title) документа по адресу, URL1:
Data exploration - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)