Jump to content

Извлечение данных

Извлечение данных — это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшей обработки или хранения данных ( миграция данных ). в Таким образом, за импортом промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап рабочего процесса с данными .

Обычно термин «извлечение данных» применяется, когда ( экспериментальные ) данные впервые импортируются в компьютер из первичных источников, таких как измерительные или записывающие устройства . Современные электронные устройства обычно имеют электрический разъем (например, USB ), через который « сырые данные » могут передаваться в персональный компьютер .

Источники данных [ править ]

Типичные источники неструктурированных данных включают веб-страницы , электронные письма , документы, PDF-файлы , социальные сети, отсканированный текст, отчеты мэйнфреймов, файлы спула, мультимедийные файлы и т. д. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую проблему, тогда как исторически извлечение данных приходилось иметь дело с изменениями в форматах физического оборудования, большая часть текущих методов извлечения данных связана с извлечением данных из этих неструктурированных источников данных, а также из различных форматов программного обеспечения. Этот растущий процесс извлечения данных из Интернета называется «извлечение веб-данных» или « очистка веб-страниц ».

Внушительная структура [ править ]

Добавление структуры к неструктурированным данным принимает несколько форм.

  • Использование сопоставления текстовых шаблонов , таких как регулярные выражения, для идентификации небольших или крупномасштабных структур, например записей в отчете и связанных с ними данных из верхних и нижних колонтитулов;
  • Использование табличного подхода для определения общих разделов в ограниченном домене, например, в резюме, отправляемых по электронной почте, для определения навыков, предыдущего опыта работы, квалификации и т. д. с использованием стандартного набора часто используемых заголовков (они будут различаться в зависимости от языка), например, Образование может можно найти в разделе «Образование/Квалификация/Курсы»;
  • Использование текстовой аналитики , чтобы попытаться понять текст и связать его с другой информацией.

См. также [ править ]

  • Интеллектуальный анализ данных , обнаружение закономерностей в больших наборах данных с использованием статистики, знаний баз данных или машинного обучения.
  • Поиск данных , получение данных из системы управления базой данных, часто с использованием запроса с набором критериев.
  • Извлечение, преобразование, загрузка (ETL), процедура копирования данных из одного или нескольких источников, преобразования данных в исходной системе и копирования в целевую систему.
  • Извлечение информации , автоматическое извлечение структурированной информации из неструктурированных или полуструктурированных машиночитаемых данных, например, с использованием обработки естественного языка для извлечения контента из изображений, аудио или документов.

Ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 64ef1c1a4bfd4ad1e958678268962902__1718650260
URL1:https://arc.ask3.ru/arc/aa/64/02/64ef1c1a4bfd4ad1e958678268962902.html
Заголовок, (Title) документа по адресу, URL1:
Data extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)