Jump to content

Подготовка данных

Подготовка данных — это процесс манипулирования (или предварительной обработки) необработанными данными (которые могут поступать из разных источников данных) в форму, которую можно легко и точно проанализировать, например, для деловых целей. [1]

Подготовка данных является первым шагом в проектах по анализу данных и может включать в себя множество отдельных задач, таких как загрузка данных или прием данных , объединение данных , очистка данных , увеличение данных и доставка данных . [2]

Вопросы, которые необходимо решить, можно разделить на две основные категории:

  • систематические ошибки, связанные с большим количеством записей данных, вероятно, потому, что они поступили из разных источников;
  • отдельные ошибки, затрагивающие небольшое количество записей данных, вероятно, из-за ошибок в исходном вводе данных.

Спецификация данных

[ редактировать ]

Первый шаг — дать полную и подробную спецификацию формата каждого поля данных и значения записей. При этом следует внимательно учитывать:

  • самое главное, консультации с пользователями данных
  • любая доступная спецификация системы, которая будет использовать данные для выполнения анализа.
  • полное понимание имеющейся информации и любых пробелов в исходных данных.

См. также спецификацию определения данных .

Предположим, имеется двухсимвольное буквенное поле, обозначающее географическое положение. Возможно, что в одном источнике данных код «EE» означает «Европа», а в другом источнике данных тот же код означает «Эстония». Потребуется разработать однозначный набор кодов и соответствующим образом изменить код в одном наборе записей.

Кроме того, «географическая зона» может относиться к любому из адресов, например, адреса доставки, адреса выставления счета, адреса, с которого поставляются товары, валюты выставления счета или применимых национальных правил. Все эти вопросы должны быть отражены в спецификации.

В этом поле могут быть записи с «X» или «555». Очевидно, что это неверные данные, поскольку они не соответствуют спецификации. Если таких записей небольшое количество, их можно либо исправить вручную, либо, если точность не важна, просто удалить эти записи из файла. Другой возможностью было бы создать категорию «неизвестно».

Другие примеры неверных данных, требующих исправления

[ редактировать ]
  • Телефонные номера указаны в правильном формате и имеют правильные значения для территории, указанной в поле географического местоположения. Код страны может присутствовать в некоторых записях и отсутствовать в других: его следует либо удалить, либо вставить (в зависимости от географического положения) в зависимости от спецификации данных. Аналогично, форматы дат и единицы измерения (вес, длина) могут быть несовместимыми.
  • В некоторых случаях недостающие данные должны быть предоставлены из внешних источников (например, поиск почтового индекса или почтового индекса адреса через внешний источник данных).
  • Данные должны быть согласованными между разными, но связанными записями данных (например, у одного и того же человека могут быть разные даты рождения в разных записях или наборах данных).

Там, где это возможно и экономически выгодно, данные следует сверять с авторитетным источником (например, деловая информация сопоставляется с базой данных D&B для обеспечения точности). [3] [4]

Учитывая разнообразие источников данных (например, баз данных , бизнес-приложений ), которые предоставляют данные, и форматов , в которых они могут поступать, подготовка данных может быть весьма сложной и сложной. Существует множество инструментов и технологий. [5] которые используются для подготовки данных. Стоимость очистки данных всегда должна быть сбалансирована с ценностью повышения точности.

Самостоятельная подготовка данных

[ редактировать ]

Традиционные инструменты и технологии, такие как языки сценариев или инструменты извлечения, преобразования, загрузки (ETL) и качества данных, не предназначены для бизнес-пользователей. Обычно они требуют навыков программирования или ИТ, которых нет у большинства бизнес-пользователей. [ нужна ссылка ]

Некоторые компании, такие как Paxata , Trifacta , Alteryx , Talend и Ataccama, предоставляют визуальные интерфейсы, которые отображают данные и позволяют пользователю напрямую исследовать, структурировать, очищать, дополнять и обновлять образцы данных, предоставленные пользователем.

После завершения подготовительных работ базовые шаги можно выполнить с другими наборами данных для выполнения тех же операций. Такое повторное использование обеспечивает значительное повышение производительности по сравнению с более традиционными методами подготовки данных вручную и ручным кодированием.

См. также

[ редактировать ]
  1. ^ Фридланд, Дэвид (7 сентября 2016 г.). «Свежий взгляд на подготовку данных» . IRI (статья в блоге). IRI, Компания CoSort.
  2. ^ Пайл, Дориан (5 апреля 1999 г.). Подготовка данных для интеллектуального анализа данных . Морган Кауфманн. ISBN  9781558605299 – через Google Книги.
  3. ^ «продавать» .
  4. ^ Статья о подготовке данных [ постоянная мертвая ссылка ]
  5. ^ «Инструменты/Языки для очистки данных» . www.kdnuggets.com (опрос).
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 09797d91d4a744684d90469a1e5d01b2__1720671180
URL1:https://arc.ask3.ru/arc/aa/09/b2/09797d91d4a744684d90469a1e5d01b2.html
Заголовок, (Title) документа по адресу, URL1:
Data preparation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)