Подготовка данных
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2019 г. ) |
Подготовка данных — это процесс манипулирования (или предварительной обработки) необработанными данными (которые могут поступать из разных источников данных) в форму, которую можно легко и точно проанализировать, например, для деловых целей. [1]
Подготовка данных является первым шагом в проектах по анализу данных и может включать в себя множество отдельных задач, таких как загрузка данных или прием данных , объединение данных , очистка данных , увеличение данных и доставка данных . [2]
Вопросы, которые необходимо решить, можно разделить на две основные категории:
- систематические ошибки, связанные с большим количеством записей данных, вероятно, потому, что они поступили из разных источников;
- отдельные ошибки, затрагивающие небольшое количество записей данных, вероятно, из-за ошибок в исходном вводе данных.
Спецификация данных
[ редактировать ]Первый шаг — дать полную и подробную спецификацию формата каждого поля данных и значения записей. При этом следует внимательно учитывать:
- самое главное, консультации с пользователями данных
- любая доступная спецификация системы, которая будет использовать данные для выполнения анализа.
- полное понимание имеющейся информации и любых пробелов в исходных данных.
См. также спецификацию определения данных .
Пример
[ редактировать ]Предположим, имеется двухсимвольное буквенное поле, обозначающее географическое положение. Возможно, что в одном источнике данных код «EE» означает «Европа», а в другом источнике данных тот же код означает «Эстония». Потребуется разработать однозначный набор кодов и соответствующим образом изменить код в одном наборе записей.
Кроме того, «географическая зона» может относиться к любому из адресов, например, адреса доставки, адреса выставления счета, адреса, с которого поставляются товары, валюты выставления счета или применимых национальных правил. Все эти вопросы должны быть отражены в спецификации.
В этом поле могут быть записи с «X» или «555». Очевидно, что это неверные данные, поскольку они не соответствуют спецификации. Если таких записей небольшое количество, их можно либо исправить вручную, либо, если точность не важна, просто удалить эти записи из файла. Другой возможностью было бы создать категорию «неизвестно».
Другие примеры неверных данных, требующих исправления
[ редактировать ]- Телефонные номера указаны в правильном формате и имеют правильные значения для территории, указанной в поле географического местоположения. Код страны может присутствовать в некоторых записях и отсутствовать в других: его следует либо удалить, либо вставить (в зависимости от географического положения) в зависимости от спецификации данных. Аналогично, форматы дат и единицы измерения (вес, длина) могут быть несовместимыми.
- В некоторых случаях недостающие данные должны быть предоставлены из внешних источников (например, поиск почтового индекса или почтового индекса адреса через внешний источник данных).
- Данные должны быть согласованными между разными, но связанными записями данных (например, у одного и того же человека могут быть разные даты рождения в разных записях или наборах данных).
Там, где это возможно и экономически выгодно, данные следует сверять с авторитетным источником (например, деловая информация сопоставляется с базой данных D&B для обеспечения точности). [3] [4]
Учитывая разнообразие источников данных (например, баз данных , бизнес-приложений ), которые предоставляют данные, и форматов , в которых они могут поступать, подготовка данных может быть весьма сложной и сложной. Существует множество инструментов и технологий. [5] которые используются для подготовки данных. Стоимость очистки данных всегда должна быть сбалансирована с ценностью повышения точности.
Самостоятельная подготовка данных
[ редактировать ]Традиционные инструменты и технологии, такие как языки сценариев или инструменты извлечения, преобразования, загрузки (ETL) и качества данных, не предназначены для бизнес-пользователей. Обычно они требуют навыков программирования или ИТ, которых нет у большинства бизнес-пользователей. [ нужна ссылка ]
Некоторые компании, такие как Paxata , Trifacta , Alteryx , Talend и Ataccama, предоставляют визуальные интерфейсы, которые отображают данные и позволяют пользователю напрямую исследовать, структурировать, очищать, дополнять и обновлять образцы данных, предоставленные пользователем.
После завершения подготовительных работ базовые шаги можно выполнить с другими наборами данных для выполнения тех же операций. Такое повторное использование обеспечивает значительное повышение производительности по сравнению с более традиционными методами подготовки данных вручную и ручным кодированием.
См. также
[ редактировать ]- Редактирование данных , исправление ошибок в массиве данных
- Предварительная обработка данных , этап очистки данных при интеллектуальном анализе данных в целях анализа.
- Интеллектуальный анализ данных : находит закономерности и идеи в наборах данных.
- Передача данных
Ссылки
[ редактировать ]- ^ Фридланд, Дэвид (7 сентября 2016 г.). «Свежий взгляд на подготовку данных» . IRI (статья в блоге). IRI, Компания CoSort.
- ^ Пайл, Дориан (5 апреля 1999 г.). Подготовка данных для интеллектуального анализа данных . Морган Кауфманн. ISBN 9781558605299 – через Google Книги.
- ^ «продавать» .
- ^ Статья о подготовке данных [ постоянная мертвая ссылка ]
- ^ «Инструменты/Языки для очистки данных» . www.kdnuggets.com (опрос).