Jump to content

Профилирование данных

Профилирование данных — это процесс изучения данных, доступных из существующего источника информации (например, базы данных или файла ), и сбора статистики или информативных сводок об этих данных. [1] Целью этой статистики может быть:

  1. Узнайте, можно ли легко использовать существующие данные для других целей
  2. Улучшите возможности поиска данных, пометив их ключевыми словами , описаниями или назначив категории.
  3. Оцените качество данных , в том числе соответствуют ли данные определенным стандартам или шаблонам. [2]
  4. Оцените риск, связанный с интеграцией данных в новые приложения, включая проблемы соединений.
  5. Обнаружение метаданных исходной базы данных, включая шаблоны и распределения значений , ключевых кандидатов , кандидатов внешнего ключа и функциональных зависимостей.
  6. Оцените, точно ли известные метаданные описывают фактические значения в исходной базе данных.
  7. Понимание проблем с данными на ранних стадиях любого проекта с интенсивным использованием данных, чтобы избежать сюрпризов на поздних этапах проекта. Обнаружение проблем с данными на поздних стадиях проекта может привести к задержкам и перерасходу средств.
  8. Получите корпоративное представление всех данных для таких целей, как управление основными данными , где необходимы ключевые данные, или управление данными для улучшения качества данных.

Введение

[ редактировать ]

Профилирование данных относится к анализу информации для использования в хранилище данных с целью уточнения структуры, содержания, взаимосвязей и правил получения данных. [3] Профилирование помогает не только понять аномалии и оценить качество данных, но также обнаружить, зарегистрировать и оценить корпоративные метаданные. [4] [5] Результат анализа используется для определения пригодности потенциальных исходных систем, что обычно дает основу для раннего принятия решения «годен» или «не годен», а также для выявления проблем для последующей разработки решения. [3]

Как проводится профилирование данных

[ редактировать ]

При профилировании данных используются методы описательной статистики, такие как минимум, максимум, среднее значение, режим, процентиль, стандартное отклонение, частота, вариация, агрегаты, такие как подсчет и сумма, а также дополнительная информация метаданных, полученная во время профилирования данных, такая как тип данных, длина, дискретные значения. , уникальность, появление нулевых значений, типичные шаблоны строк и распознавание абстрактных типов. [4] [6] [7] Затем метаданные можно использовать для обнаружения таких проблем, как недопустимые значения, орфографические ошибки, пропущенные значения, различное представление значений и дубликаты.

Для разных структурных уровней проводятся разные анализы. Например, отдельные столбцы можно профилировать индивидуально, чтобы получить представление о частотном распределении различных значений, типов и использования каждого столбца. Зависимости встроенных значений можно выявить при анализе между столбцами. Наконец, при межтабличном анализе можно изучить перекрывающиеся наборы значений, которые, возможно, представляют отношения внешнего ключа между сущностями. [4]

Обычно для профилирования данных используются специальные инструменты, упрощающие процесс. [3] [4] [6] [7] [8] [9] Сложность вычислений возрастает при переходе от одного столбца к одной таблице и к структурному профилированию между таблицами. Поэтому производительность является критерием оценки инструментов профилирования. [5]

Когда проводится профилирование данных?

[ редактировать ]

По словам Кимбалла, [3] профилирование данных выполняется несколько раз и с различной интенсивностью на протяжении всего процесса разработки хранилища данных. Легкую оценку профилирования следует проводить сразу после того, как будут определены потенциальные исходные системы и удовлетворены бизнес-требования DW/BI. Целью этого первоначального анализа является выяснение на ранней стадии, доступны ли правильные данные на соответствующем уровне детализации и можно ли впоследствии устранить аномалии. В противном случае проект может быть закрыт. [3]

Кроме того, перед процессом многомерного моделирования выполняется более глубокое профилирование, чтобы оценить, что требуется для преобразования данных в многомерную модель. Подробное профилирование распространяется на процесс проектирования системы ETL, чтобы определить, какие данные следует извлечь и какие фильтры применить к набору данных. [3]

Кроме того, профилирование данных может проводиться в процессе разработки хранилища данных после загрузки данных в промежуточную среду, витрины данных и т. д. Проведение данных на этих этапах помогает гарантировать, что очистка и преобразование данных были выполнены правильно и в соответствии с требованиями.

Преимущества и примеры

[ редактировать ]

Преимущества профилирования данных заключаются в повышении качества данных, сокращении цикла реализации крупных проектов и улучшении понимания данных пользователями. [9] Обнаружение бизнес-знаний, встроенных в сами данные, является одним из значительных преимуществ профилирования данных. [5] Профилирование данных — одна из наиболее эффективных технологий повышения точности данных в корпоративных базах данных. [9]

См. также

[ редактировать ]
  1. ^ Джонсон, Теодор (2009). «Профилирование данных». В Springer, Гейдельберг (ред.). Энциклопедия систем баз данных .
  2. ^ Вудалл, Филип; Оберхофер, Мартин; Борек, Александр (2014). «Классификация методов оценки и улучшения качества данных» . Международный журнал качества информации . 3 (4): 298. дои : 10.1504/ijiq.2014.068656 .
  3. ^ Jump up to: а б с д и ж Кимбалл, Ральф; и др. (2008). Набор инструментов для жизненного цикла хранилища данных (второе изд.). Уайли. стр. 376 . ISBN  9780470149775 .
  4. ^ Jump up to: а б с д Лошин, Давид (2009). Управление мастер-данными . Морган Кауфманн. стр. 94–96 . ISBN  9780123742254 .
  5. ^ Jump up to: а б с Лошин, Давид (2003). Бизнес-аналитика: Руководство для опытного менеджера. Знакомство с развивающимися ИТ-технологиями . Морган Кауфманн. стр. 110–111. ISBN  9781558609167 .
  6. ^ Jump up to: а б Рам, Эрхард; Хай До, Хонг (декабрь 2000 г.). «Очистка данных: проблемы и современные подходы». Бюллетень Технического комитета по инженерии данных . 23 (4). Компьютерное общество IEEE.
  7. ^ Jump up to: а б Сингх, Ранджит; Сингх, Кавалджит; и др. (май 2010 г.). «Описательная классификация причин проблем с качеством данных в хранилищах данных». Выпуск Международного журнала компьютерных наук IJCSI . 2. 7 (3).
  8. ^ Кимбалл, Ральф (2004). «Совет Кимбалла по дизайну № 59: удивительная ценность профилирования данных» (PDF) . Группа Кимбалл.
  9. ^ Jump up to: а б с Олсон, Джек Э. (2003). Качество данных: измерение точности . Морган Кауфманн. стр. 140–142 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 76efccddcb9514047a2996db66a043ea__1659596400
URL1:https://arc.ask3.ru/arc/aa/76/ea/76efccddcb9514047a2996db66a043ea.html
Заголовок, (Title) документа по адресу, URL1:
Data profiling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)