Исследование данных
Исследование данных — это подход, аналогичный первоначальному анализу данных , при котором аналитик данных использует визуальное исследование, чтобы понять, что находится в наборе данных и характеристики данных, а не с помощью традиционных систем управления данными. [1] Эти характеристики могут включать размер или объем данных, полноту данных, правильность данных, возможные связи между элементами данных или файлами/таблицами в данных.
Исследование данных обычно проводится с использованием комбинации автоматизированных и ручных действий. [1] [2] [3] Автоматизированные действия могут включать профилирование данных или визуализацию данных или табличные отчеты, чтобы дать аналитику первоначальное представление о данных и понимание ключевых характеристик. [1]
За этим часто следует ручная детализация или фильтрация данных для выявления аномалий или закономерностей, выявленных с помощью автоматизированных действий. Исследование данных также может потребовать ручного написания сценариев и запросов к данным (например, с использованием таких языков, как SQL или R ) или использования электронных таблиц или аналогичных инструментов для просмотра необработанных данных . [4]
Все эти действия направлены на создание мысленной модели и понимания данных в сознании аналитика, а также определение основных метаданных (статистики, структуры, связей) для набора данных, которые могут быть использованы в дальнейшем анализе. [1]
Как только будет получено первоначальное понимание данных, данные можно будет сократить или уточнить, удалив непригодные для использования части данных ( очистка данных ), исправив плохо отформатированные элементы и определив соответствующие связи между наборами данных. [2] Этот процесс также известен как определение качества данных . [4]
Исследование данных также может относиться к специальным запросам или визуализации данных для выявления потенциальных взаимосвязей или идей, которые могут быть скрыты в данных и не требуют предварительной формулировки предположений. [1]
Традиционно это было ключевым направлением внимания статистиков, а Джон Тьюки был ключевым евангелистом в этой области. [5] Сегодня исследование данных получило более широкое распространение и находится в центре внимания аналитиков и специалистов по данным ; последнее является относительно новой ролью на предприятиях и в более крупных организациях.
Интерактивное исследование данных
[ редактировать ]Эта область исследования данных стала областью интересов в области машинного обучения . Это относительно новая область, которая все еще развивается. [4] На самом базовом уровне алгоритм машинного обучения может получать набор данных и использоваться для определения истинности гипотезы на основе набора данных. Общие алгоритмы машинного обучения могут сосредоточиться на выявлении конкретных закономерностей в данных. [2] Многие распространенные шаблоны включают регрессию и классификацию или кластеризацию , но существует множество возможных шаблонов и алгоритмов, которые можно применять к данным с помощью машинного обучения.
Используя машинное обучение, можно найти закономерности или взаимосвязи в данных, которые было бы трудно или невозможно обнаружить с помощью ручного контроля, метода проб и ошибок или традиционных методов исследования. [6]
Программное обеспечение
[ редактировать ]- Trifacta – платформа подготовки и анализа данных
- Paxata - программное обеспечение для самостоятельной подготовки данных
- Alteryx - программное обеспечение для смешивания данных и расширенного анализа данных
- Microsoft Power BI — интерактивный инструмент визуализации и анализа данных
- OpenRefine — автономное настольное приложение с открытым исходным кодом для очистки и преобразования данных.
- Программное обеспечение Tableau – программное обеспечение для интерактивной визуализации данных
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и FOSTER Open Science , Обзор методов исследования данных: Стратос Идреос, Ольга Папаэммонуил, Сураджит Чаудхури.
- ^ Jump up to: а б с Stanford.edu , 2011 Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных, Кандел, Паепке, Хеллерштейн Хир.
- ^ Арнаб Нанди; Х.В. Джагадиш. Управляемое взаимодействие: переосмысление парадигмы запроса-результата (PDF) . Международная конференция по очень большим базам данных (VLDB), 2011 г.
- ^ Jump up to: а б с Stanford.edu , IEEE Visual Analytics Science & Technology (VAST), октябрь 2012 г. Анализ и визуализация корпоративных данных: исследование в ходе интервью. Шон Кандел, Андреас Паепке, Джозеф Хеллерстайн, Джеффри Хир Proc.
- ^ Исследовательский анализ данных , Пирсон. ISBN 978-0201076165
- ^ Машинное обучение для исследования данных