Профилирование данных
Эта статья нуждается в дополнительных цитатах для проверки . ( август 2010 г. ) |
Профилирование данных — это процесс изучения данных, доступных из существующего источника информации (например, базы данных или файла ), и сбора статистики или информативных сводок об этих данных. [1] Целью этой статистики может быть:
- Узнайте, можно ли легко использовать существующие данные для других целей
- Улучшите возможности поиска данных, пометив их ключевыми словами , описаниями или назначив категории.
- Оцените качество данных , в том числе соответствуют ли данные определенным стандартам или шаблонам. [2]
- Оцените риск, связанный с интеграцией данных в новые приложения, включая проблемы соединений.
- Обнаружение метаданных исходной базы данных, включая шаблоны и распределения значений , ключевых кандидатов , кандидатов внешнего ключа и функциональных зависимостей.
- Оцените, точно ли известные метаданные описывают фактические значения в исходной базе данных.
- Понимание проблем с данными на ранних стадиях любого проекта с интенсивным использованием данных, чтобы избежать сюрпризов на поздних этапах проекта. Обнаружение проблем с данными на поздних стадиях проекта может привести к задержкам и перерасходу средств.
- Получите корпоративное представление всех данных для таких целей, как управление основными данными , где необходимы ключевые данные, или управление данными для улучшения качества данных.
Введение
[ редактировать ]Профилирование данных относится к анализу информации для использования в хранилище данных с целью уточнения структуры, содержания, взаимосвязей и правил получения данных. [3] Профилирование помогает не только понять аномалии и оценить качество данных, но также обнаружить, зарегистрировать и оценить корпоративные метаданные. [4] [5] Результат анализа используется для определения пригодности потенциальных исходных систем, что обычно дает основу для раннего принятия решения «годен» или «не годен», а также для выявления проблем для последующей разработки решения. [3]
Как проводится профилирование данных
[ редактировать ]При профилировании данных используются методы описательной статистики, такие как минимум, максимум, среднее значение, режим, процентиль, стандартное отклонение, частота, вариация, агрегаты, такие как подсчет и сумма, а также дополнительная информация метаданных, полученная во время профилирования данных, такая как тип данных, длина, дискретные значения. , уникальность, появление нулевых значений, типичные шаблоны строк и распознавание абстрактных типов. [4] [6] [7] Затем метаданные можно использовать для обнаружения таких проблем, как недопустимые значения, орфографические ошибки, пропущенные значения, различное представление значений и дубликаты.
Для разных структурных уровней проводятся разные анализы. Например, отдельные столбцы можно профилировать индивидуально, чтобы получить представление о частотном распределении различных значений, типов и использования каждого столбца. Зависимости встроенных значений можно выявить при анализе между столбцами. Наконец, при межтабличном анализе можно изучить перекрывающиеся наборы значений, которые, возможно, представляют отношения внешнего ключа между сущностями. [4]
Обычно для профилирования данных используются специальные инструменты, упрощающие процесс. [3] [4] [6] [7] [8] [9] Сложность вычислений возрастает при переходе от одного столбца к одной таблице и к структурному профилированию между таблицами. Поэтому производительность является критерием оценки инструментов профилирования. [5]
Когда проводится профилирование данных?
[ редактировать ]По словам Кимбалла, [3] профилирование данных выполняется несколько раз и с различной интенсивностью на протяжении всего процесса разработки хранилища данных. Легкую оценку профилирования следует проводить сразу после того, как будут определены потенциальные исходные системы и удовлетворены бизнес-требования DW/BI. Целью этого первоначального анализа является выяснение на ранней стадии, доступны ли правильные данные на соответствующем уровне детализации и можно ли впоследствии устранить аномалии. В противном случае проект может быть закрыт. [3]
Кроме того, перед процессом многомерного моделирования выполняется более глубокое профилирование, чтобы оценить, что требуется для преобразования данных в многомерную модель. Подробное профилирование распространяется на процесс проектирования системы ETL, чтобы определить, какие данные следует извлечь и какие фильтры применить к набору данных. [3]
Кроме того, профилирование данных может проводиться в процессе разработки хранилища данных после загрузки данных в промежуточную среду, витрины данных и т. д. Проведение данных на этих этапах помогает гарантировать, что очистка и преобразование данных были выполнены правильно и в соответствии с требованиями.
Преимущества и примеры
[ редактировать ]Преимущества профилирования данных заключаются в повышении качества данных, сокращении цикла реализации крупных проектов и улучшении понимания данных пользователями. [9] Обнаружение бизнес-знаний, встроенных в сами данные, является одним из значительных преимуществ профилирования данных. [5] Профилирование данных — одна из наиболее эффективных технологий повышения точности данных в корпоративных базах данных. [9]
См. также
[ редактировать ]- Качество данных
- Управление данными
- Управление основными данными
- Нормализация базы данных
- Визуализация данных
- Аналитический паралич
- Анализ данных
Ссылки
[ редактировать ]- ^ Джонсон, Теодор (2009). «Профилирование данных». В Springer, Гейдельберг (ред.). Энциклопедия систем баз данных .
- ^ Вудалл, Филип; Оберхофер, Мартин; Борек, Александр (2014). «Классификация методов оценки и улучшения качества данных» . Международный журнал качества информации . 3 (4): 298. дои : 10.1504/ijiq.2014.068656 .
- ^ Jump up to: а б с д и ж Кимбалл, Ральф; и др. (2008). Набор инструментов для жизненного цикла хранилища данных (второе изд.). Уайли. стр. 376 . ISBN 9780470149775 .
- ^ Jump up to: а б с д Лошин, Давид (2009). Управление мастер-данными . Морган Кауфманн. стр. 94–96 . ISBN 9780123742254 .
- ^ Jump up to: а б с Лошин, Давид (2003). Бизнес-аналитика: Руководство для опытного менеджера. Знакомство с развивающимися ИТ-технологиями . Морган Кауфманн. стр. 110–111. ISBN 9781558609167 .
- ^ Jump up to: а б Рам, Эрхард; Хай До, Хонг (декабрь 2000 г.). «Очистка данных: проблемы и современные подходы». Бюллетень Технического комитета по инженерии данных . 23 (4). Компьютерное общество IEEE.
- ^ Jump up to: а б Сингх, Ранджит; Сингх, Кавалджит; и др. (май 2010 г.). «Описательная классификация причин проблем с качеством данных в хранилищах данных». Выпуск Международного журнала компьютерных наук IJCSI . 2. 7 (3).
- ^ Кимбалл, Ральф (2004). «Совет Кимбалла по дизайну № 59: удивительная ценность профилирования данных» (PDF) . Группа Кимбалл.
- ^ Jump up to: а б с Олсон, Джек Э. (2003). Качество данных: измерение точности . Морган Кауфманн. стр. 140–142 .