Обсуждение данных
Преобразование данных |
---|
Концепции |
Языки трансформации |
Техники и трансформации |
Приложения |
Связанный |
Обработка данных , иногда называемая обработкой данных , — это процесс преобразования и сопоставления данных из одной « необработанной » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Целью обработки данных является обеспечение качества и полезности данных. Аналитики данных обычно тратят большую часть своего времени на обработку данных, а не на фактический анализ данных.
Процесс обработки данных может включать в себя дальнейшую обработку , визуализацию данных , агрегацию данных, обучение статистической модели , а также многие другие потенциальные применения. Обработка данных обычно следует за набором общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «обработки» необработанных данных (например, сортировки) или анализа данных в заранее определенные структуры данных и, наконец, помещения полученного содержимого в приемник данных для хранения и использования в будущем. [1] Он тесно связан с процессом ETL .
Предыстория [ править ]
Часто говорят, что нетехнический термин «спорщик» возник в результате работы, проделанной США (NDIIPP) Библиотеки Конгресса Национальной программой инфраструктуры и сохранения цифровой информации и ее партнером по программе Университета Эмори MetaArchive Partnership, базирующимся в библиотеках . Термин «мунг» имеет корни в «маше» , как описано в « Жаргонном файле» . [2] Термин «обработчик данных» также был предложен как лучшая аналогия для описания человека, работающего с данными. [3]
Одно из первых упоминаний об обработке данных в научном контексте было сделано Дональдом Клайном во время эксперимента НАСА/НОАА по процессам в холодных землях. [4] Клайн заявил, что специалисты по обработке данных «координируют сбор всей коллекции данных эксперимента». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища при работе с большими объемами данных . Это может произойти в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это включает в себя как передачу данных из исследовательского инструмента в сеть хранения или хранилище, так и манипулирование данными для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .
С появлением искусственного интеллекта в науке о данных становится все более важным для автоматизации обработки данных иметь очень строгие сдержки и противовесы, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Для обработки данных требуется нечто большее, чем просто автоматизированное решение, оно требует знания того, какую информацию следует удалить, а искусственный интеллект не способен понять такие вещи. [5]
Подключение к интеллектуальному анализу данных [ править ]
Обработка данных — это разновидность интеллектуального анализа данных , требующая процессов, которые используются в некоторых случаях интеллектуального анализа данных, но не всегда. Процесс интеллектуального анализа данных заключается в поиске закономерностей в больших наборах данных, при этом обработка данных преобразует данные, чтобы получить представление об этих данных. Несмотря на то, что обработка данных является надстройкой интеллектуального анализа данных, это не означает, что при интеллектуальном анализе данных она не используется, существует множество вариантов использования обработки данных при интеллектуальном анализе данных. Обработка данных может принести пользу интеллектуальному анализу данных за счет удаления данных, которые не приносят пользы общему набору или не отформатированы должным образом, что даст лучшие результаты для всего процесса интеллектуального анализа данных.
Примером интеллектуального анализа данных, который тесно связан с обработкой данных, является игнорирование данных из набора, который не связан с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику о жителях Хьюстона. , данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой, чтобы повысить эффективность процесса интеллектуального анализа данных.
Преимущества [ править ]
С увеличением количества необработанных данных увеличивается и объем данных, которые по своей сути бесполезны. Это увеличивает время, затрачиваемое на очистку и организацию данных перед их анализом, и именно здесь в игру вступает обработка данных. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных. Важно обеспечить согласованность метаданных, иначе это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, достигать более точных результатов и благодаря этому принимать более правильные решения. Многие предприятия перешли к обработке данных из-за успеха, который она принесла.
Основные идеи [ править ]

Основные этапы обработки данных следующие:
- Обнаружение данных
Этот всеобъемлющий термин описывает, как понимать ваши данные. Это первый шаг к ознакомлению с вашими данными.
- Структурирование
- Следующий шаг — систематизация данных. Необработанные данные обычно неорганизованы, и большая их часть может оказаться бесполезной для конечного продукта. Этот шаг важен для облегчения вычислений и анализа на последующих этапах.
- Очистка
- Существует множество различных форм очистки данных, например, одна форма очистки данных — это сбор дат, отформатированных по-другому, а другая форма — удаление выбросов, которые искажают результаты, а также форматирование нулевых значений. Этот шаг важен для обеспечения общего качества данных.
- Обогащение
- На этом этапе определите, принесут ли дополнительные данные пользу набору данных, который можно легко добавить.
- Проверка
- Этот шаг аналогичен структурированию и очистке. Используйте повторяющиеся последовательности правил проверки , чтобы обеспечить согласованность данных , а также качество и безопасность. Примером правила проверки является подтверждение точности полей посредством перекрестной проверки данных.
- Издательский
- Подготовьте набор данных для последующего использования, которое может включать использование пользователями или программным обеспечением. Обязательно документируйте все шаги и логику во время споров.
Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем можно будет использовать для анализа. Этот процесс утомительный, но полезный, поскольку позволяет аналитикам получить необходимую информацию из большого набора данных, которые в противном случае были бы нечитаемы.
Имя | Телефон | Дата рождения | Состояние |
---|---|---|---|
Джон, Смит | 445-881-4478 | 12 августа 1989 г. | Мэн |
Дженнифер Тал | +1-189-456-4513 | 11/12/1965 | Техас |
Гейтс, Билл | (876)546-8165 | 15 июня 72 г. | Канзас |
Алан Фитч | 5493156648 | 2-6-1985 | Ой |
Джейкоб Алан | 156-4896 | 3 января | Алабама |
Имя | Телефон | Дата рождения | Состояние |
---|---|---|---|
Джон Смит | 445-881-4478 | 1989-08-12 | Мэн |
Дженнифер Тал | 189-456-4513 | 1965-11-12 | Техас |
Билл Гейтс | 876-546-8165 | 1972-06-15 | Канзас |
Алан Фитч | 549-315-6648 | 1985-02-06 | Огайо |
Результат использования процесса обработки данных для этого небольшого набора данных показывает, что набор данных значительно легче читать. Все имена теперь имеют одинаковый формат: {имя фамилия}, номера телефонов также форматируются одинаково {код города-XXX-XXXX}, даты имеют числовой формат {ГГГГ-мм-дд}, а штаты больше не форматируются. сокращенно. Запись о Джейкобе Алане не содержала полностью сформированных данных (код города в номере телефона отсутствует, а в дате рождения не указан год), поэтому она была исключена из набора данных. Теперь, когда результирующий набор данных очищен и доступен для чтения, он готов к развертыванию или оценке.
Типичное использование [ править ]
Преобразования данных обычно применяются к отдельным объектам (например, полям, строкам, столбцам, значениям данных и т. д.) в наборе данных и могут включать в себя такие действия, как извлечение, синтаксический анализ, объединение, стандартизация, дополнение, очистка, консолидация и фильтрация. для создания желаемых результатов спора, которые можно использовать в дальнейшем.
Получателями могут быть отдельные лица, например архитекторы данных или специалисты по обработке данных , которые будут изучать данные дальше, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут далее обрабатывать данные и записывать их в такие целевые объекты, как хранилища , данных озера или приложения ниже по течению.
Режим работы [ править ]
В зависимости от объема и формата входящих данных обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), таких инструментов, как KNIME , или с помощью сценариев на таких языках, как Python или SQL . R , язык, часто используемый при интеллектуальном анализе и статистическом анализе данных, теперь также иногда используется для обработки данных. [6] Специалисты по обработке данных обычно обладают набором навыков в области R или Python, SQL, PHP, Scala и других языков, обычно используемых для анализа данных.
Системы визуальной обработки данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и проще для программистов. Некоторые из них также включают встроенные рекомендации искусственного интеллекта и средства программирования на примерах для оказания помощи пользователю, а также методы синтеза программ для автоматической генерации масштабируемого кода потока данных. Ранние прототипы инструментов обработки визуальных данных включают OpenRefine и исследовательскую систему Stanford/Berkeley Wrangler ; [7] последний превратился в Trifacta .
Другие термины для этих процессов включали франчайзинг данных, [8] подготовка данных и обработка данных.
Пример [ править ]
Учитывая набор данных, содержащий информацию о медицинских пациентах, ваша цель — найти корреляцию для заболевания. Прежде чем вы сможете начать перебирать данные, убедитесь, что вы понимаете результат: ищете ли вы пациентов, у которых есть это заболевание? Есть ли другие заболевания, которые могут быть причиной? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.
Начните с определения структуры исхода, что важно для понимания диагноза заболевания.
После определения окончательной структуры очистите данные, удалив все точки данных, которые бесполезны или имеют неправильную форму; это может включать пациентов, у которых не было диагностировано какое-либо заболевание.
После очистки еще раз просмотрите данные: есть ли что-нибудь, что можно добавить к уже известному набору данных, что принесет ему пользу? Примером могут служить наиболее распространенные заболевания в этом регионе. Америка и Индия сильно отличаются друг от друга, когда дело касается наиболее распространенных заболеваний.
Теперь следует этап проверки: определить правила проверки, достоверность которых необходимо проверить, это может включать дату рождения или проверку на наличие конкретных заболеваний.
После этапа проверки данные должны быть организованы и подготовлены либо к развертыванию, либо к оценке. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до уровня, который можно будет легко проанализировать для получения точного результата.
См. также [ править ]
Ссылки [ править ]
- ^ «Что такое манипуляция данными?» . Архивировано из оригинала 18 августа 2013 г. Проверено 21 января 2022 г.
- ^ «мунг» . Мунг . Файл жаргона . Архивировано из оригинала 18 сентября 2012 г. Проверено 10 октября 2012 г.
- ^ Поскольку кодер предназначен для кода, X предназначен для данных. Архивировано 15 апреля 2021 г. в Wayback Machine , сообщение в блоге Open Knowledge Foundation.
- ^ Парсонс, Массачусетс; Бродзик, МЮ; Раттер, Нью-Джерси (2004). «Управление данными для эксперимента по процессам на холодных землях: улучшение гидрологической науки» . Гидрологические процессы . 18 (18): 3637–3653. Бибкод : 2004HyPr...18.3637P . дои : 10.1002/hyp.5801 . S2CID 129774847 .
- ^ «Что такое обработка данных? Каковы этапы обработки данных?» . Экспресс-аналитика . 22 апреля 2020 г. Архивировано из оригинала 01.11.2020 . Проверено 6 декабря 2020 г.
- ^ Уикхэм, Хэдли; Гролемунд, Гаррет (2016). «Глава 9: Введение в обработку данных». R для науки о данных: импорт, приведение в порядок, преобразование, визуализация и моделирование данных (первое издание). Севастополь, Калифорния: О'Рейли. ISBN 978-1491910399 . Архивировано из оригинала 11 октября 2021 г. Проверено 12 января 2022 г.
- ^ Кандел, Шон; Паепке, Андреас (май 2011 г.). «Wrangler: интерактивная визуальная спецификация сценариев преобразования данных». СИГЧИ . дои : 10.1145/1978942.1979444 . S2CID 11133756 .
- ^ Что такое франчайзинг данных? 2003 и 2017 гг. ( IRI ). Архивировано 15 апреля 2021 г. в Wayback Machine.
Внешние ссылки [ править ]
- «Что такое обработка данных? Преимущества, инструменты и навыки?» . Мой путь влиятельного лица . Проверено 26 января 2022 г.