Извлечение данных
Извлечение данных — это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшей обработки или хранения данных ( миграция данных ). в Таким образом, за импортом промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап рабочего процесса с данными .
Обычно термин «извлечение данных» применяется, когда ( экспериментальные ) данные впервые импортируются в компьютер из первичных источников, таких как измерительные или записывающие устройства . Современные электронные устройства обычно имеют электрический разъем (например, USB ), через который « сырые данные » могут передаваться в персональный компьютер .
Источники данных [ править ]
Типичные источники неструктурированных данных включают веб-страницы , электронные письма , документы, PDF-файлы , социальные сети, отсканированный текст, отчеты мэйнфреймов, файлы спула, мультимедийные файлы и т. д. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую проблему, тогда как исторически извлечение данных приходилось иметь дело с изменениями в форматах физического оборудования, большая часть текущих методов извлечения данных связана с извлечением данных из этих неструктурированных источников данных, а также из различных форматов программного обеспечения. Этот растущий процесс извлечения данных из Интернета называется «извлечение веб-данных» или « очистка веб-страниц ».
Внушительная структура [ править ]
Добавление структуры к неструктурированным данным принимает несколько форм.
- Использование сопоставления текстовых шаблонов , таких как регулярные выражения, для идентификации небольших или крупномасштабных структур, например записей в отчете и связанных с ними данных из верхних и нижних колонтитулов;
- Использование табличного подхода для определения общих разделов в ограниченном домене, например, в резюме, отправляемых по электронной почте, для определения навыков, предыдущего опыта работы, квалификации и т. д. с использованием стандартного набора часто используемых заголовков (они будут различаться в зависимости от языка), например, Образование может можно найти в разделе «Образование/Квалификация/Курсы»;
- Использование текстовой аналитики , чтобы попытаться понять текст и связать его с другой информацией.
См. также [ править ]
- Интеллектуальный анализ данных , обнаружение закономерностей в больших наборах данных с использованием статистики, знаний баз данных или машинного обучения.
- Поиск данных , получение данных из системы управления базой данных, часто с использованием запроса с набором критериев.
- Извлечение, преобразование, загрузка (ETL), процедура копирования данных из одного или нескольких источников, преобразования данных в исходной системе и копирования в целевую систему.
- Извлечение информации , автоматическое извлечение структурированной информации из неструктурированных или полуструктурированных машиночитаемых данных, например, с использованием обработки естественного языка для извлечения контента из изображений, аудио или документов.