Сокращение данных
Эта статья требует дополнительных цитат для проверки . ( февраль 2011 г. ) |
Сокращение данных -это метод, в которой компьютерная программа извлекает данные из читаемой на человеке вывода, поступающую из другой программы.
Описание
[ редактировать ]Обычно передача данных между программами осуществляется с использованием структур данных , подходящих для автоматизированной обработки компьютерами , а не людьми. Такие обменные форматы и протоколы, как правило, являются жестко структурированными, хорошо документированными, легко проанализированными и минимизируют двусмысленность. Очень часто эти передачи вообще не читают по человеку.
Таким образом, ключевой элемент, который отличает соскабливание данных от регулярного анализа , заключается в том, что скрасной выход, предназначен для отображения для конечного пользователя , а не в качестве ввода в другую программу. Поэтому это обычно не задокументируется и не структурировано для удобного анализа. Сокращение данных часто включает в себя игнорирование двоичных данных (обычно изображения или мультимедийные данные), форматирование отображения , избыточные этикетки, лишние комментарии и другую информацию, которая либо не имеет значения, либо мешает автоматизированной обработке.
Сокращение данных чаще всего выполняется либо для взаимодействия с устаревшей системой , которая не имеет другого механизма, который совместим с текущим оборудованием , либо для взаимодействия с сторонней системой, которая не обеспечивает более удобный API . Во втором случае оператор сторонней системы часто считает, что скрестинг экрана нежелательным по таким причинам, как увеличение нагрузки на систему , потерю от рекламы доходов или потерю контроля информационного содержания.
Сокращение данных, как правило, считается специальным , неэлегантным методом, часто используемым только в качестве «последней меры», когда нет другого механизма для обмена данными. Помимо более высоких накладных расходов программирования и обработки, выходные отображения, предназначенные для потребления человека, часто часто меняют структуру. Люди могут легко справиться с этим, но компьютерная программа потерпит неудачу. В зависимости от качества и масштабов логики обработки ошибок , присутствующей на компьютере , этот сбой может привести к сообщениям об ошибках, поврежденном выходе или даже сбоях программы .
Тем не менее, настройка трубопровода для соскоба данных в настоящее время является простой, что требует минимальных усилий по программированию для удовлетворения практических потребностей (особенно в интеграции биомедицинских данных). [ 1 ]
Технические варианты
[ редактировать ]Сокращение экрана
[ редактировать ]
Хотя использование физического « тупого терминала » IBM 3270S медленно уменьшается, поскольку все больше и больше приложений на мэйнфреймах приобретают веб- интерфейсы, некоторые веб-приложения просто продолжают использовать методику царапины экрана для захвата старых экранов и передачи данных в современные фронт -ные Полем [ 2 ]
Скраинг экрана обычно связан с программным сбором визуальных данных из источника, а не для анализа данных, как при соскобке в Интернете. Первоначально, скрининг экрана относился к практике чтения текстовых данных с дисплея компьютера экрана . терминала Обычно это делалось путем считывания памяти через его вспомогательный порт или подключив выходной порт терминала одной компьютерной системы к входному порту на другом. Термин «Скраивание экрана» также обычно используется для обозначения двунаправленного обмена данными. Это могут быть простые случаи, когда контрольная программа перемещается по пользовательскому интерфейсу, или более сложные сценарии, в которых контрольная программа вводит данные в интерфейс, предназначенный для использования человеком.
В качестве конкретного примера классического экрана, рассмотрите гипотетическую устаревшую систему, датируемую 1960 -х годов - рассвет компьютеризированной обработки данных . Компьютер для интерфейсы основе текстовых тупы на из той эры часто были просто пользователей [update], по разным причинам). Желание взаимодействовать с такой системой в более современные системы распространено. решение Надежное часто требует, чтобы вещи больше не доступны, например, исходный код , системная документация , API или программисты с опытом работы в 50-летней компьютерной системе. В таких случаях единственным возможным решением может быть написание скребка экрана, который «притворяется» как пользователь на терминале. Скребок для экрана может подключаться к устаревшей системе через Telnet , эмулировать клавишные, необходимые для навигации по старому пользовательскому интерфейсу, обработки полученного вывода дисплея, извлечения желаемых данных и передать его в современную систему. Сложная и устойчивая реализация такого рода, основанная на платформе, обеспечивающей управление и контроль, требуемые крупным предприятием - управление изменениями, безопасность, управление пользователями, защита данных, оперативный аудит, балансировку нагрузки, управление очередью и т. Д. считается примером программного обеспечения для автоматизации роботизированных процессов , называемого RPA или RPAAI для самостоятельного RPA 2.0 на основе искусственный интеллект .
В 1980 -х годах поставщики финансовых данных, такие как Reuters , Tealeration и Coton, отображали данные в формате 24 × 80, предназначенные для читателя. Пользователи этих данных, особенно инвестиционные банки , писают приложения для сбора и преобразования этих данных символов в виде цифровых данных для включения в расчеты для торговых решений без повторного использования данных. Общим термином для этой практики, особенно в Соединенном Королевстве , было измельчение Пейджа , поскольку можно было бы предположить, что результаты проходили через бумажный измельчитель . Внутренне Reuters использовал термин «логики» для этого процесса преобразования, запустив сложную компьютерную систему на VAX/VMS с именем Logicizer. [ 3 ]
Более современные методы очистки экрана включают в себя захват данных растрового изображения с экрана и выполнение их через двигатель OCR или для некоторых специализированных систем автоматического тестирования, соответствующие данным растрового изображения экрана с ожидаемыми результатами. [ 4 ] Это может быть объединено в случае приложений GUI с запросом графических элементов управления путем программного получения ссылок на их основные объекты программирования . Последовательность экранов автоматически фиксируется и преобразуется в базу данных.
Другая современная адаптация к этим методам - использовать вместо последовательности экранов в качестве входных данных, набора изображений или файлов PDF, поэтому существуют некоторые перекрытия с общим «скребежом документа» и отчетными методами добычи .
Существует много инструментов, которые можно использовать для соскобки экрана. [ 5 ]
Интернет
[ редактировать ]Веб-страницы создаются с использованием текстовых языков разметки ( HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Тем не менее, большинство веб-страниц предназначены для конечных пользователей человека , а не для простоты автоматического использования. Из -за этого были созданы наборы инструментов, которые создали веб -контент. Веб -скребок - это API или инструмент для извлечения данных с веб -сайта. [ 6 ] компании, как Amazon AWS и Google, предоставляют Такие инструменты, услуги и публичные данные, доступные бесплатно для конечных пользователей. Более новые формы сетевого скребки включают в себя прослушивание каналов данных с веб -серверов. Например, JSON обычно используется в качестве механизма транспортного хранения между клиентом и веб -сервером. Веб -скребок использует URL -адрес веб -сайта для извлечения данных и хранит эти данные для последующего анализа. Этот метод соскоба в Интернете позволяет эффективно и точно извлекать данные. [ 7 ]
В последнее время компании разработали системы сетевого скребки, которые полагаются на использование методов в DOM -анализации, компьютерном зрении и обработке естественного языка для моделирования обработки человека, которая происходит при просмотре веб -страницы для автоматического извлечения полезной информации. [ 8 ] [ 9 ]
Крупные веб -сайты обычно используют оборонительные алгоритмы для защиты своих данных от веб -скребков и для ограничения количества запросов, которые может отправить сеть IP или IP. Это вызвало постоянную битву между разработчиками веб -сайтов и соскобкой разработчиков. [ 10 ]
Сообщать о добыче
[ редактировать ]Рассказывание отчетов -это извлечение данных из читаемых на людях компьютерных отчетов. Обычное извлечение данных требует подключения к рабочей системе, подходящим стандартам подключения или API , и, как правило, сложных запросов. Используя стандартные параметры отчетности Source System и направляя вывод в файл катушки вместо принтера , статические отчеты могут быть сгенерированы подходящими для автономного анализа с помощью добычи отчетов. [ 11 ] Этот подход может избежать интенсивного использования процессора в рабочее время, может минимизировать конечных пользователей затраты на лицензию для клиентов ERP и может предложить очень быстрое прототипирование и разработку пользовательских отчетов. Принимая во внимание, что скрезование данных и скрезование в Интернете включают взаимодействие с динамическим выводом, добыча отчетов включает в себя извлечение данных из файлов в читаемой человеке формате, таких как HTML , PDF или текст. Они могут быть легко сгенерированы практически из любой системы, перехватывая подачу данных на принтер. Этот подход может обеспечить быстрый и простой путь к получению данных без необходимости программировать API в исходную систему.
Юридические и этические соображения
Заявится законность и этика соскоба данных. Соскабливание общедоступных данных, как правило, является законным, однако соскоб таким образом, чтобы нарушать условия обслуживания веб -сайта, нарушает меры безопасности или вторгается в конфиденциальность пользователей, может привести к судебному иску. Более того, некоторые веб -сайты особенно запрещают очистку данных в своих роботах.
Смотрите также
[ редактировать ]Ссылки
[ редактировать ]- ^ Глез-Пена, Даниэль (30 апреля 2013 г.). «Технологии сетевого скребки в мире API» . Брифинги в биоинформатике . 15 (5): 788–797. doi : 10.1093/bib/bbt026 . HDL : 1822/32460 . PMID 23632294 .
- ^ «Еще в 1990 -х годах .. 2002 ... 2016 ... до сих пор, по словам Чейз Банк , серьезный вопрос. Рон Либер (7 мая 2016 г.). «Джейми Даймон хочет защитить вас от инновационных стартапов» . New York Times .
- ^ Авторы беспокоятся о плане Reuters по переходу с сети монитора на IDN , FX Week , 2 ноября 1990 г.
- ^ Да, Том (2009). «Сикули: Использование скриншотов графического интерфейса для поиска и автоматизации» (PDF) . Uist . Архивировано из оригинала (PDF) 2010-02-14 . Получено 2015-02-16 .
- ^ «Что такое царапание экрана» . 17 июня 2019 года.
- ^ Молитва, Swaaabow; Намош, приглашение; Слышит, он заплатил; Удача, справедливость; Иллюстрация, Миссия Мэри-Джейн (2021-07-28). Сскабливание : Data Science Journal . 20 : 24. ЛИЗ : 10.5334/DSJ-2021-024 . ISSN 1683-1470 S2CID 237719804 .
- ^ Singrodia, Vidhi; Митра, Анирбан; Пол, Субрата (2019-01-23). «Отзыв о паутине и его приложениях» . Международная конференция 2019 по компьютерной коммуникации и информатике (ICCCI) . IEEE. С. 1–6. doi : 10.1109/iccci.2019.8821809 . ISBN 978-1-5386-8260-9 .
- ^ Метц, Рэйчел (1 июня 2012 г.). «Стартап надеется помочь компьютерам понять веб -страницы» . MIT Technology Review . Получено 1 декабря 2014 года .
- ^ Ванхемерт, Кайл (4 марта 2014 г.). «Этот простой инструмент для скрещивания данных может изменить то, как создаются приложения» . Проводной . Архивировано из оригинала 11 мая 2015 года . Получено 8 мая 2015 года .
- ^ « Необычный трафик из вашей компьютерной сети » . Попрос поиска Google . Получено 2017-04-04 .
- ^ Скотт Стейнахер, «Данные данных преобразуют данные хоста» , InfoWorld , 30 августа 1999 г., p55
12. Multilogin. (ND). Мультилогин | Предотвратить запреты на учетную запись и обеспечивать масштабирование. https://multilogin.com/blog/how-to-scrape-data-on-google/
13. Митчелл Р. (2022). «Этика соскоба данных». Журнал информационной этики, 31 (2), 45-61.
14. Кавана, Д. (2021). «Антиметровые браузеры: следующая граница в сети». Обзор веб-безопасности, 19 (4), 33-48.
15. Walker, J. (2020). «Юридические последствия соскоба данных». Tech Law Journal, 22 (3), 109-126.
Дальнейшее чтение
[ редактировать ]- Хеменвей, Кевин и Калишейн, Тара. Spidering Hacks . Кембридж, Массачусетс: О'Рейли, 2003. ISBN 0-596-00577-6 .