Очистка данных

Очистка данных или очистка данных — это процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных , который относится к выявлению неполных, неправильных, неточных или нерелевантных частей данных, а затем к замене, изменению, или удаление грязных или грубых данных. ^[1] Очистка данных может выполняться в интерактивном режиме с помощью инструментов обработки данных или в виде пакетной обработки с помощью сценариев или брандмауэра качества данных .

После очистки набор данных должен соответствовать другим аналогичным наборам данных в системе. Обнаруженные или устраненные несоответствия могли быть первоначально вызваны ошибками ввода данных пользователем, повреждением при передаче или хранении или различными определениями словаря данных аналогичных объектов в разных хранилищах. Очистка данных отличается от проверки данных тем, что проверка почти всегда означает, что данные отклоняются из системы при вводе и выполняются во время ввода, а не для пакетов данных.

Фактический процесс очистки данных может включать в себя удаление типографских ошибок или проверку и исправление значений по известному списку объектов. Проверка может быть строгой (например, отклонение любого адреса, не имеющего действительного почтового индекса ) или с нечетким или приблизительным соответствием строк (например, исправление записей, которые частично соответствуют существующим, известным записям). Некоторые решения для очистки данных очищают данные путем перекрестной проверки с проверенным набором данных. Распространенной практикой очистки данных является улучшение данных, при котором данные становятся более полными за счет добавления связанной информации. Например, добавление адресов к любым телефонным номерам, связанным с этим адресом. Очистка данных может также включать гармонизацию (или нормализацию) данных, которая представляет собой процесс объединения данных «разных форматов файлов, соглашений об именах и столбцов». ^[2] и преобразование его в один связный набор данных; простой пример — расширение сокращений («ул, р-д и т. д.» до «улица, дорога и т. д.»).

Мотивация [ править ]

Административно неверные и противоречивые данные могут привести к ложным выводам и неправильному направлению инвестиций как в государственном, так и в частном масштабе. Например, правительство может захотеть проанализировать данные переписи населения, чтобы решить, какие регионы требуют дополнительных расходов и инвестиций в инфраструктуру и услуги. В этом случае будет важно иметь доступ к надежным данным, чтобы избежать ошибочных бюджетных решений. В деловом мире неправильные данные могут стоить дорого. Многие компании используют базы данных с информацией о клиентах , в которые записываются такие данные, как контактная информация, адреса и предпочтения. Например, если адреса не совпадают, компания понесет расходы на повторную отправку почты или даже потеряет клиентов.

Качество данных [ править ]

Высококачественные данные должны соответствовать ряду критериев качества. К ним относятся:

Валидность : степень соответствия показателей определенным бизнес-правилам или ограничениям (см. также Валидность (статистика) ). Когда для проектирования систем сбора данных используются современные технологии баз данных, достоверность обеспечить довольно легко: неверные данные возникают в основном в устаревших контекстах (где ограничения не были реализованы в программном обеспечении) или там, где использовалась неподходящая технология сбора данных (например, электронные таблицы, где очень сложно ограничить то, что пользователь выбирает для ввода в ячейку, если не используется проверка ячейки). Ограничения данных делятся на следующие категории:
- Ограничения типа данных : значения в определенном столбце должны относиться к определенному типу данных, например, логическому, числовому (целому или действительному), дате.
- Ограничения диапазона: обычно числа или даты должны попадать в определенный диапазон. То есть они имеют минимально и/или максимально допустимые значения.
- Обязательные ограничения: некоторые столбцы не могут быть пустыми.
- Ограничения уникальности. Поле или комбинация полей должны быть уникальными в наборе данных. Например, никакие два человека не могут иметь одинаковый номер социального страхования.
- Ограничения Set-Membership : значения для столбца берутся из набора дискретных значений или кодов. Например, пол человека может быть женским, мужским или небинарным.
- Ограничения внешнего ключа : это более общий случай членства во множестве. Набор значений в столбце определяется в столбце другой таблицы, который содержит уникальные значения. Например, в базе данных налогоплательщиков США столбец «штат» должен принадлежать одному из определенных штатов или территорий США: набор допустимых штатов/территорий записывается в отдельной таблице штатов. Термин внешний ключ заимствован из терминологии реляционных баз данных.
- Шаблоны регулярных выражений . Иногда текстовые поля необходимо проверять таким образом. Например, может потребоваться, чтобы телефонные номера имели шаблон (999) 999–9999.
- Проверка между полями : должны соблюдаться определенные условия, в которых используется несколько полей. Например, в лабораторной медицине сумма компонентов дифференциального количества лейкоцитов должна быть равна 100 (поскольку все они представляют собой проценты). В базе данных больницы дата выписки пациента из больницы не может быть раньше даты поступления.
Точность : Степень соответствия меры стандарту или истинному значению — см. также Точность и прецизионность . В общем случае точности очень сложно добиться с помощью очистки данных, поскольку для этого требуется доступ к внешнему источнику данных, содержащему истинную ценность: такие данные «золотого стандарта» часто недоступны. Точность была достигнута в некоторых контекстах очистки, особенно в контактных данных клиентов, за счет использования внешних баз данных, которые сопоставляют почтовые индексы с географическими местоположениями (город и штат), а также помогают проверить, действительно ли существуют почтовые адреса в этих почтовых индексах.
Полнота : Степень, в которой известны все необходимые меры. Неполноту практически невозможно исправить с помощью методологии очистки данных: нельзя вывести факты, которые не были зафиксированы при первоначальной записи рассматриваемых данных. (В некоторых контекстах, например, в данных интервью, возможно исправить неполноту, вернувшись к исходному источнику данных, т. е. повторно опросив субъекта, но даже это не гарантирует успеха из-за проблем с запоминанием - например, в интервью для сбора данных о потреблении пищи, никто, скорее всего, не вспомнит точно, что он ел шесть месяцев назад. В случае систем, которые настаивают на том, что определенные столбцы не должны быть пустыми, можно обойти проблему, указав значение, которое указывает «. неизвестно» или «отсутствует», но предоставление значений по умолчанию не означает, что данные стали полными.)
Согласованность : степень эквивалентности набора показателей в разных системах (см. также Согласованность ). Несогласованность возникает, когда два элемента данных в наборе данных противоречат друг другу: например, клиент зарегистрирован в двух разных системах как имеющий два разных текущих адреса, и только один из них может быть правильным. Устранить несоответствия не всегда возможно: для этого требуются различные стратегии – например, принятие решения о том, какие данные были записаны совсем недавно, какой источник данных, вероятно, будет наиболее надежным (последние знания могут быть специфичными для данной организации) или просто попытка найдите истину, проверив оба элемента данных (например, позвонив покупателю).
Единообразие : степень, в которой набор данных измеряется с использованием одних и тех же единиц измерения во всех системах (см. также Единица измерения ). В наборах данных, собранных из разных регионов, вес может быть записан либо в фунтах, либо в килограммах, и его необходимо преобразовать в единую меру с помощью арифметического преобразования.

Термин целостность включает в себя точность, последовательность и некоторые аспекты проверки (см. также целостность данных ), но редко используется сам по себе в контексте очистки данных, поскольку он недостаточно конкретен. (Например, « ссылочная целостность » — это термин, используемый для обозначения соблюдения ограничений внешнего ключа, описанных выше.)

Процесс [ править ]

Аудит данных : данные проверяются с использованием статистических методов и методов баз данных для обнаружения аномалий и противоречий: это в конечном итоге указывает на характеристики аномалий и их расположение. Некоторые коммерческие пакеты программного обеспечения позволяют вам указывать ограничения различных типов (с использованием грамматики, соответствующей грамматике стандартного языка программирования, например, JavaScript или Visual Basic), а затем генерировать код, который проверяет данные на предмет нарушения этих ограничений. Этот процесс упоминается ниже в пунктах «спецификация рабочего процесса» и «выполнение рабочего процесса». Для пользователей, у которых нет доступа к высококачественному программному обеспечению для очистки, пакеты баз данных для микрокомпьютеров, такие как Microsoft Access или File Maker Pro, также позволят вам выполнять такие проверки для каждого ограничения в интерактивном режиме, во многих случаях практически не требуя программирования. .
Спецификация рабочего процесса . Обнаружение и устранение аномалий выполняются с помощью последовательности операций с данными, известной как рабочий процесс. Он указывается после процесса аудита данных и имеет решающее значение для получения конечного продукта высококачественных данных. Для обеспечения надлежащего рабочего процесса необходимо внимательно учитывать причины аномалий и ошибок в данных.
Выполнение рабочего процесса : на этом этапе рабочий процесс выполняется после завершения его спецификации и проверки его правильности. Реализация рабочего процесса должна быть эффективной даже для больших наборов данных, что неизбежно приводит к компромиссу, поскольку выполнение операции очистки данных может быть дорогостоящим в вычислительном отношении.
Постобработка и контроль : после выполнения рабочего процесса очистки результаты проверяются на предмет правильности. Данные, которые не удалось исправить в ходе выполнения рабочего процесса, по возможности корректируются вручную. Результатом является новый цикл процесса очистки данных, в ходе которого данные снова проверяются, чтобы можно было указать дополнительный рабочий процесс для дальнейшей очистки данных путем автоматической обработки.

Исходные данные хорошего качества связаны с «культурой качества данных» и должны быть инициированы на высшем уровне организации. Речь идет не только о реализации строгих проверок на экранах ввода, потому что почти независимо от того, насколько сильны эти проверки, пользователи часто все равно могут их обойти. Существует руководство из девяти шагов для организаций, желающих улучшить качество данных: ^[3]^[4]

Заявить о приверженности высокому уровню культуре данных качества
Реинжиниринг процессов на уровне руководителей
Потратьте деньги на улучшение среды ввода данных
Потратьте деньги на улучшение интеграции приложений
Тратьте деньги, чтобы изменить работу процессов
Повышайте сквозную осведомленность команды
Содействие межведомственному сотрудничеству
Публично отмечайте превосходное качество данных
Постоянно измеряйте и улучшайте качество данных

Другие включают:

Синтаксический анализ : для обнаружения синтаксических ошибок. Анализатор решает, приемлема ли строка данных в рамках разрешенной спецификации данных. Это похоже на то, как парсер работает с грамматиками и языками .
Преобразование данных : Преобразование данных позволяет преобразовывать данные из заданного формата в формат, ожидаемый соответствующим приложением. Сюда входят преобразования значений или функции перевода, а также нормализация числовых значений для соответствия минимальным и максимальным значениям.
Устранение дубликатов . Для обнаружения дубликатов требуется алгоритм определения того, содержат ли данные повторяющиеся представления одного и того же объекта. Обычно данные сортируются по ключу, который сближает повторяющиеся записи для более быстрой идентификации.
Статистические методы . Анализируя данные с использованием значений среднего значения , стандартного отклонения , диапазона или алгоритмов кластеризации , эксперт может найти неожиданные и, следовательно, ошибочные значения. Хотя коррекция таких данных затруднена, поскольку истинное значение неизвестно, ее можно решить, установив для значений среднее или другое статистическое значение. Статистические методы также можно использовать для обработки пропущенных значений, которые можно заменить одним или несколькими правдоподобными значениями, которые обычно получаются с помощью обширных алгоритмов увеличения данных .

Система [ править ]

Основная задача этой системы — найти подходящий баланс между исправлением грязных данных и поддержанием данных как можно ближе к исходным данным из исходной производственной системы. Это задача для архитектора «Извлечение, преобразование, загрузка» . Система должна предлагать архитектуру, которая может очищать данные, записывать события, связанные с качеством, и измерять/контролировать качество данных в хранилище данных . Хорошим началом является проведение тщательного анализа профилирования данных , который поможет определить требуемую сложность системы очистки данных, а также даст представление о текущем качестве данных в исходной системе(ах).

Экраны качества [ править ]

Частью системы очистки данных является набор диагностических фильтров, известных как экраны качества. Каждый из них реализует тест в потоке данных, который в случае неудачи записывает ошибку в схему событий ошибок. Экраны качества делятся на три категории:

Колонные экраны. Тестирование отдельного столбца, например, на наличие неожиданных значений, таких как NULL значения ; нечисловые значения, которые должны быть числовыми; значения вне допустимого диапазона; и т. д.
Структурные экраны. Они используются для проверки целостности различных связей между столбцами (обычно внешними/первичными ключами) в одной и той же или разных таблицах. Они также используются для проверки того, что группа столбцов действительна в соответствии с некоторым структурным определением, которому она должна соответствовать.
Экраны бизнес-правил. Самый сложный из трёх тестов. Они проверяют, соответствуют ли данные (возможно, в нескольких таблицах) определенным бизнес-правилам. Примером может служить то, что если клиент помечен как клиент определенного типа, следует соблюдать бизнес-правила, определяющие этот тип клиента.

Когда экран качества фиксирует ошибку, он может либо остановить процесс потока данных, отправить ошибочные данные куда-то еще, кроме целевой системы, либо пометить данные.Последний вариант считается лучшим решением, поскольку первый вариант требует, чтобы кто-то вручную решал проблему каждый раз, когда она возникает, а второй подразумевает, что данные отсутствуют в целевой системе ( целостность ), и часто неясно, что должно произойти. этим данным.

существующих инструментов Критика процессов и

Большинство инструментов очистки данных имеют ограничения в удобстве использования:

Затраты на проект : обычно составляют сотни тысяч долларов.
Время : освоение крупномасштабного программного обеспечения для очистки данных требует много времени.
Безопасность : перекрестная проверка требует обмена информацией, предоставляя приложению доступ к различным системам, включая чувствительные устаревшие системы.

Схема событий ошибок [ править ]

Схема событий ошибок содержит записи всех событий ошибок, выдаваемых экранами качества. об ошибках Он состоит из таблицы фактов с внешними ключами к трем таблицам измерений, которые представляют дату (когда), пакетное задание (где) и экран (кто произвел ошибку). Он также содержит информацию о том, когда именно произошла ошибка и о серьезности ошибки. Кроме того, существует таблица фактов с подробными сведениями о событии ошибки с внешним ключом к основной таблице, которая содержит подробную информацию о том, в какой таблице, записи и поле произошла ошибка, а также об условиях ошибки.

См. также [ править ]

Ссылки [ править ]

^ Ву, С. (2013), «Обзор грубых гарантийных данных и анализа» (PDF) , «Инженерия и системы надежности» , 114 : 1–11, doi : 10.1016/j.ress.2012.12.021
^ «Данные 101: Что такое гармонизация данных?» . Даторама . 14 апреля 2017 г. Архивировано из оригинала 24 октября 2021 г. Проверено 14 августа 2019 г.
^ Кимбалл, Р., Росс, М., Торнтуэйт, В., Манди, Дж., Беккер, Б. Набор инструментов для жизненного цикла хранилища данных , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
^ Олсон, JE Качество данных: измерение точности», Морган Кауфманн , 2002. ISBN 1-55860-891-5

Дальнейшее чтение [ править ]

МакКинни, Уэс (2017). «Очистка и подготовка данных». Python для анализа данных (2-е изд.). О'Рейли. стр. 195–224. ISBN 978-1-4919-5766-0 .
ван дер Лоо, Марк; де Йонге, Эдвин (2018). Статистическая очистка данных с помощью приложений на R. Хобокен: Уайли. ISBN 978-1-118-89715-7 .

Внешние ссылки [ править ]

Компьютерный мир: очистка данных (10 февраля 2003 г.)
Эрхард Рам, Хонг Хай До: Очистка данных: проблемы и современные подходы
Очистка данных . Datamanagement.wiki.

[1] Ву, С. (2013), «Обзор грубых гарантийных данных и анализа» (PDF) , «Инженерия и системы надежности» , 114 : 1–11, doi : 10.1016/j.ress.2012.12.021

[2] «Данные 101: Что такое гармонизация данных?» . Даторама . 14 апреля 2017 г. Архивировано из оригинала 24 октября 2021 г. Проверено 14 августа 2019 г.

[3] Кимбалл, Р., Росс, М., Торнтуэйт, В., Манди, Дж., Беккер, Б. Набор инструментов для жизненного цикла хранилища данных , Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5

[4] Олсон, JE Качество данных: измерение точности», Морган Кауфманн , 2002. ISBN 1-55860-891-5

[1]

[2]

[3]

[4]