Jump to content

Парсинг данных

(Перенаправлено со страницы очистки экрана )

Очистка данных — это метод, при котором компьютерная программа извлекает данные из удобочитаемых выходных данных, поступающих из другой программы.

Описание

[ редактировать ]

Обычно передача данных между программами осуществляется с использованием структур данных , пригодных для автоматической обработки компьютерами , а не людьми. Такие форматы и протоколы обмена обычно жестко структурированы, хорошо документированы, легко анализируются и сводят к минимуму двусмысленность. Очень часто эти передачи вообще не читабельны для человека.

Таким образом, ключевым элементом, который отличает очистку данных от обычного анализа, является то, что очищаемые выходные данные предназначены для отображения конечному пользователю , а не в качестве входных данных для другой программы. Поэтому он обычно не документируется и не структурируется для удобного анализа. Очистка данных часто предполагает игнорирование двоичных данных (обычно изображений или мультимедийных данных), форматирования отображения , избыточных меток, лишних комментариев и другой информации, которая либо не имеет значения, либо препятствует автоматической обработке.

Сбор данных чаще всего выполняется либо для взаимодействия с устаревшей системой , которая не имеет другого механизма, совместимого с текущим оборудованием , либо для взаимодействия со сторонней системой, которая не предоставляет более удобный API . Во втором случае оператор сторонней системы часто будет рассматривать парсинг экрана как нежелательный по таким причинам, как повышенная нагрузка на систему , потеря от рекламы доходов или потеря контроля над информационным контентом.

Сбор данных обычно считается ситуативным , неэлегантным методом, часто используемым только в качестве «последнего средства», когда другой механизм обмена данными недоступен. Помимо более высоких затрат на программирование и обработку, выходные дисплеи, предназначенные для потребления человеком, часто меняют структуру. Люди легко справятся с этим, но компьютерная программа потерпит неудачу. В зависимости от качества и степени логики обработки ошибок , присутствующей в компьютере , этот сбой может привести к появлению сообщений об ошибках, повреждению вывода или даже к сбою программы .

Однако в настоящее время настройка конвейера очистки данных проста и требует минимальных усилий по программированию для удовлетворения практических потребностей (особенно при интеграции биомедицинских данных). [ 1 ]

Технические варианты

[ редактировать ]

Очистка экрана

[ редактировать ]
Фрагмент экрана и интерфейс очистки экрана (синий прямоугольник с красной стрелкой) для настройки процесса сбора данных.

Хотя использование физического « глупого терминала » IBM 3270 постепенно сокращается, поскольку все больше и больше приложений для мэйнфреймов приобретают веб- интерфейсы, некоторые веб-приложения просто продолжают использовать технику очистки экрана для захвата старых экранов и передачи данных в современные интерфейсы. . [ 2 ]

Парсинг экрана обычно связан с программным сбором визуальных данных из источника вместо анализа данных, как при парсинге веб-страниц. Первоначально очистка экрана относилась к практике чтения текстовых данных с терминала компьютерного экрана . терминала Обычно это делалось путем чтения памяти через его вспомогательный порт или путем подключения выходного порта терминала одной компьютерной системы к входному порту другой. Термин «скребок экрана» также часто используется для обозначения двунаправленного обмена данными. Это могут быть простые случаи, когда управляющая программа перемещается по пользовательскому интерфейсу, или более сложные сценарии, когда управляющая программа вводит данные в интерфейс, предназначенный для использования человеком.

В качестве конкретного примера классического скрапера экрана рассмотрим гипотетическую устаревшую систему, датируемую 1960-ми годами — на заре компьютеризированной обработки данных . между компьютером и Интерфейсы пользователем той эпохи часто представляли собой просто текстовые тупые терминалы , которые были не чем иным, как виртуальными телетайпами (такие системы используются до сих пор). , по разным причинам). Желание соединить такую ​​систему с более современными системами является обычным явлением. решение Надежное часто требует вещей, которые больше не доступны, таких как исходный код , системная документация , API или программисты с опытом работы с компьютерной системой 50-летней давности. В таких случаях единственным возможным решением может быть создание программы очистки экрана, которая «притворяется» пользователем терминала. Парсер экрана может подключаться к устаревшей системе через Telnet , эмулировать нажатия клавиш, необходимые для навигации по старому пользовательскому интерфейсу, обрабатывать результирующий вывод на дисплей, извлекать нужные данные и передавать их в современную систему. Сложная и отказоустойчивая реализация такого типа, построенная на платформе, обеспечивающей управление и контроль, необходимые крупному предприятию, например, контроль изменений, безопасность, управление пользователями, защиту данных, операционный аудит, балансировку нагрузки, управление очередями и т. д., могла бы можно назвать примером программного обеспечения для автоматизации роботизированных процессов , называемого RPA или RPAAI, что означает самоуправляемый RPA 2.0, основанный на искусственный интеллект .

В 1980-х годах поставщики финансовых данных, такие как Reuters , Telerate и Quotron, отображали данные в формате 24×80, предназначенном для чтения-человека. Пользователи этих данных, в частности инвестиционные банки , написали приложения для сбора и преобразования этих символьных данных в числовые данные для включения в расчеты для принятия торговых решений без повторного ввода данных. Общим термином для этой практики, особенно в Соединенном Королевстве , было уничтожение страниц , поскольку можно было представить, что результаты прошли через измельчитель бумаги . Внутри компании Reuters использовало для этого процесса преобразования термин «логизированный», запуская на VAX/VMS сложную компьютерную систему под названием Logicizer. [ 3 ]

Более современные методы очистки экрана включают захват растровых данных с экрана и прогонку их через механизм оптического распознавания символов или, в некоторых специализированных системах автоматического тестирования, сопоставление растровых данных экрана с ожидаемыми результатами. [ 4 ] В случае приложений с графическим интерфейсом это можно комбинировать с запросом графических элементов управления путем программного получения ссылок на лежащие в их основе программные объекты . Последовательность экранов автоматически захватывается и преобразуется в базу данных.

Другая современная адаптация этих методов заключается в использовании вместо последовательности экранов в качестве входных данных набора изображений или файлов PDF, поэтому есть некоторые совпадения с общими методами «сбора документов» и анализа отчетов .

Существует множество инструментов, которые можно использовать для очистки экрана. [ 5 ]

Парсинг веб-страниц

[ редактировать ]

Веб-страницы создаются с использованием текстовых языков разметки ( HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для конечных пользователей- людей , а не для простоты автоматического использования. По этой причине были созданы наборы инструментов для очистки веб-контента. Веб -скрапер — это API или инструмент для извлечения данных с веб-сайта. [ 6 ] Такие компании, как Amazon AWS и Google, предоставляют конечным пользователям инструменты, услуги и общедоступные данные, доступные бесплатно. Новые формы парсинга веб-страниц включают прослушивание потоков данных с веб-серверов. Например, JSON обычно используется в качестве механизма хранения данных между клиентом и веб-сервером. веб-сайта Веб-скребок использует URL-адрес для извлечения данных и сохраняет эти данные для последующего анализа. Этот метод парсинга веб-страниц позволяет извлекать данные эффективным и точным способом. [ 7 ]

Недавно компании разработали системы очистки веб-страниц, основанные на использовании методов анализа DOM, компьютерного зрения и обработки естественного языка для имитации человеческой обработки, происходящей при просмотре веб-страницы, для автоматического извлечения полезной информации. [ 8 ] [ 9 ]

Крупные веб-сайты обычно используют защитные алгоритмы для защиты своих данных от веб-скребков и ограничения количества запросов, которые может отправлять IP или IP-сеть. Это вызвало продолжающуюся битву между разработчиками веб-сайтов и разработчиками парсинга. [ 10 ]

Сообщить о майнинге

[ редактировать ]

Интеллектуальный анализ отчетов — это извлечение данных из удобочитаемых компьютерных отчетов. Обычное извлечение данных требует подключения к работающей исходной системе, подходящих подключения стандартов или API и, как правило, сложных запросов. Используя стандартные параметры отчетности исходной системы и направляя выходные данные в буферный файл, а не на принтер , можно создавать статические отчеты, подходящие для автономного анализа с помощью интеллектуального анализа отчетов. [ 11 ] Такой подход позволяет избежать интенсивной загрузки ЦП в рабочее время, минимизировать затраты на лицензии для конечных пользователей для клиентов ERP и обеспечить очень быстрое прототипирование и разработку пользовательских отчетов. В то время как очистка данных и очистка веб-страниц предполагают взаимодействие с динамическим выводом, анализ отчетов предполагает извлечение данных из файлов в удобочитаемом формате, например HTML , PDF или текстовом формате. Их можно легко создать практически из любой системы, перехватив данные, поступающие на принтер. Этот подход может обеспечить быстрый и простой путь к получению данных без необходимости программирования API для исходной системы.

См. также

[ редактировать ]
  1. ^ Глез-Пенья, Даниэль (30 апреля 2013 г.). «Технологии парсинга веб-страниц в мире API» . Брифинги по биоинформатике . 15 (5): 788–797. дои : 10.1093/нагрудник/bbt026 . hdl : 1822/32460 . ПМИД   23632294 .
  2. ^ "Еще в 1990-е... 2002... 2016... все еще, по мнению Chase Bank , серьезная проблема. Рон Либер (7 мая 2016 г.). «Джейми Даймон хочет защитить вас от инновационных стартапов» . Нью-Йорк Таймс .
  3. Авторы обеспокоены планом Reuters по переходу с Monitor Network на IDN , FX Week , 2 ноября 1990 г.
  4. ^ Да, Том (2009). «Сикули: использование снимков экрана графического интерфейса для поиска и автоматизации» (PDF) . УИСТ . Архивировано из оригинала (PDF) 14 февраля 2010 г. Проверено 16 февраля 2015 г.
  5. ^ «Что такое скрапинг экрана» . 17 июня 2019 г.
  6. ^ Молитва, Заон Сваабоу; Намош, Приглашающий; Уши, Одуэт; Осмеянная, праведность; Папа, Мэри-Джейн Мессенджер (28 июля 2021 г.). «SASSCAL WebSAPI: интерфейс прикладного программирования веб-скрапинга для поддержки доступа к данным о погоде SASSCAL» . Журнал науки о данных . 20:24 . doi : 10.5334/dsj-2021-024 . ISSN   1683-1470 . S2CID   237719804 .
  7. ^ Сингродия, Видхи; Митра, Анирбан; Пол, Субрата (23 января 2019 г.). «Обзор веб-скрапинга и его применения» . 2019 Международная конференция по компьютерной связи и информатике (ICCCI) . IEEE. стр. 1–6. дои : 10.1109/ICCCI.2019.8821809 . ISBN  978-1-5386-8260-9 .
  8. ^ Мец, Рэйчел (1 июня 2012 г.). «Стартап надеется помочь компьютерам понимать веб-страницы» . Обзор технологий Массачусетского технологического института . Проверено 1 декабря 2014 г.
  9. ^ ВанХемерт, Кайл (4 марта 2014 г.). «Этот простой инструмент для сбора данных может изменить способ создания приложений» . ПРОВОДНОЙ . Архивировано из оригинала 11 мая 2015 года . Проверено 8 мая 2015 г.
  10. ^ " "Необычный трафик из вашей компьютерной сети" " . Справка по поиску Google . Проверено 4 апреля 2017 г.
  11. ^ Скотт Штайнахер, «Data Pump преобразует данные хоста» , InfoWorld , 30 августа 1999 г., стр. 55.

Дальнейшее чтение

[ редактировать ]
  • Хеменвей, Кевин и Калишейн, Тара. Паучьи хаки . Кембридж, Массачусетс: О'Рейли, 2003. ISBN   0-596-00577-6 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 16f709053034930bb6315a78831a6035__1710939780
URL1:https://arc.ask3.ru/arc/aa/16/35/16f709053034930bb6315a78831a6035.html
Заголовок, (Title) документа по адресу, URL1:
Data scraping - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)