Смешение данных
Объединение данных — это процесс, при котором большие данные из нескольких источников [1] объединяются в единое хранилище данных или набор данных . [2]
Объединение данных позволяет бизнес-аналитикам справляться с увеличением объема данных, необходимых им для принятия важных бизнес-решений на основе высококачественной бизнес-аналитики . [3] Смешение данных описывается как отличие от интеграции данных из-за требований к аналитикам данных объединять источники очень быстро, слишком быстро для любого практического вмешательства специалистов по обработке данных . [4] Исследование, проведенное Forrester Consulting в 2015 году, показало, что 52 процента компаний объединяют 50 или более источников данных, а 12 процентов объединяют более 1000 источников. [5]
Извлечь, преобразовать, загрузить
[ редактировать ]Смешение данных похоже на извлечение, преобразование, загрузку (ETL). И ETL, и смешивание данных берут данные из различных источников и объединяют их. Однако ETL используется для объединения и структурирования данных в целевой базе данных. [6] часто хранилище данных . Смешение данных немного отличается, поскольку речь идет об объединении данных для конкретного варианта использования в определенное время. [7] В некоторых программах данные не записываются в базу данных, что сильно отличается от ETL. Например, с Google Data Studio. [8]
Программные продукты
[ редактировать ]Отражая возросший спрос на объединение источников данных для аналитиков, несколько компаний-разработчиков программного обеспечения добились значительного роста и привлекли миллионы долларов. [9] некоторые из первых участников рынка теперь являются публичными компаниями. [10] Примеры включают AWS , Alteryx , Microsoft Power Query , [11] и Инкорта , [12] которые позволяют объединять данные из множества различных источников данных, например, текстовых файлов, баз данных, XML, JSON и многих других форм структурированных и полуструктурированных данных. [13] [14] [15] [16]
Рисование
[ редактировать ]В программном обеспечении для создания таблиц смешивание данных — это метод объединения данных из нескольких источников данных при визуализации данных . [17] Ключевым отличием является степень детализации соединения данных. При смешивании данных в один набор данных будет использоваться соединение с базой данных SQL , которое обычно объединяется на самом детальном уровне, используя поле идентификатора, где это возможно. [18] Объединение данных в таблице должно происходить на минимальном уровне детализации. [19]
Лукер Студия
[ редактировать ]В Google Looker Studio источники данных объединяются путем объединения записей одного источника данных с записями до четырех других источников данных.Как и в Tableau, смешивание данных происходит только на уровне отчетности. Смешанные данные никогда не сохраняются как отдельный объединенный источник данных. [20]
Проблемы со смешиванием данных
[ редактировать ]Самый распространенный вопрос о пользовательских метаданных: «Как этот набор данных может сочетаться с другими моими наборами данных (объединяться или объединяться с ними)?» [21]
См. также
[ редактировать ]- Подготовка данных
- Слияние данных
- Обсуждение данных
- Очистка данных
- Редактирование данных
- Парсинг данных
- Курирование данных
- Предварительная обработка данных
Ссылки
[ редактировать ]- ^ Alteryx Analytics выводит на рынок возможности прогнозирования и больших данных
- ^ Смешение данных — это процесс объединения данных из нескольких источников в функционирующий набор данных.
- ^ «Объединение данных» . Trifacta.com. 24 августа 2017 г.
- ^ Что такое смешивание данных и какие инструменты упрощают его?
- ^ «Мэшапы данных для аналитики» . Пентахо.
- ^ «Как работает ETL» (на немецком языке). Блоки данных . Проверено 27 февраля 2021 г.
- ^ «Что такое смешивание данных и какие инструменты облегчают его?» . Консультации по программному обеспечению. 25 августа 2016 г. Проверено 27 февраля 2021 г.
- ^ «Обзор Google Data Studio» . datastudio.google.com . Проверено 27 февраля 2021 г.
- ^ «Incorta привлекает 30 миллионов долларов США серии C для решения для обработки данных без ETL» . ТехКранч . Проверено 27 февраля 2021 г.
- ^ «Alteryx объявляет цену первичного публичного размещения акций» . Альтерикс . Проверено 27 февраля 2021 г.
- ^ Корпорация Майкрософт. «Microsoft Power Query» . powerquery.microsoft.com . Проверено 27 февраля 2021 г.
- ^ «Программное обеспечение для прямого анализа данных» . Инкорта . Проверено 27 февраля 2021 г.
- ^ «Источники данных» . docs.incorta.com . Проверено 27 февраля 2021 г.
- ^ Дэвидисемингер. «Формируйте и объединяйте данные из нескольких источников с помощью Power Query» . docs.microsoft.com . Проверено 27 февраля 2021 г.
- ^ «Поддерживаемые источники данных: Amazon QuickSight» . docs.aws.amazon.com . Проверено 27 февраля 2021 г.
- ^ «Источники данных» . Альтерикс в помощь . Проверено 27 февраля 2021 г.
- ^ «Объедините свои данные» . help.tableau.com . Проверено 27 февраля 2021 г.
- ^ «Объяснение объединений SQL» . Объяснение объединений SQL . Проверено 27 февраля 2021 г.
- ^ ТАР Решения (20 января 2021 г.). «Смешение данных в таблице» . ТАР Решения . Проверено 27 февраля 2021 г.
- ^ «О смешивании данных — Помощь Студии данных» . support.google.com . Проверено 27 февраля 2021 г.
- ^ Хир, Джеффри; Хеллерштейн, Джозеф; Кандел, Шон; Раттенбери, Тай (июль 2017 г.). Принципы обработки данных . О'Рейли Медиа.