Парсинг веб-страниц

Веб-сбор , веб-сбор или извлечение веб-данных — это очистка данных, используемая для извлечения данных с веб-сайтов . ^[1] Программное обеспечение для парсинга веб-страниц может иметь прямой доступ к Всемирной паутине с помощью протокола передачи гипертекста или веб-браузера. Хотя парсинг веб-страниц может выполняться вручную пользователем программного обеспечения, этот термин обычно относится к автоматизированным процессам, реализуемым с помощью бота или веб-сканера . Это форма копирования, при которой определенные данные собираются и копируются из Интернета, обычно в центральную локальную базу данных или электронную таблицу, для последующего поиска или анализа .

Парсинг веб-страницы включает в себя ее получение и извлечение из нее. Извлечение — это загрузка страницы (которую браузер выполняет, когда пользователь просматривает страницу). Таким образом, сканирование веб-страниц является основным компонентом парсинга веб-страниц, предназначенным для извлечения страниц для последующей обработки. После получения можно приступить к извлечению. Содержимое страницы можно анализировать , искать и переформатировать, а его данные копировать в электронную таблицу или загружать в базу данных. Веб-скраперы обычно извлекают что-то из страницы, чтобы использовать это где-то еще для другой цели. Примером может служить поиск и копирование имен и номеров телефонов, компаний и их URL-адресов или адресов электронной почты в список (очистка контактов).

Помимо очистки контактов , очистка веб-страниц используется как компонент приложений, используемых для веб-индексации , веб-анализа и анализа данных , онлайн-мониторинга изменений цен и сравнения цен , очистки обзоров продуктов (для наблюдения за конкурентами), сбора списков объектов недвижимости, прогноза погоды. мониторинг данных, обнаружение изменений веб-сайтов , исследования, отслеживание присутствия и репутации в Интернете, веб-мэшап и интеграция веб-данных .

Веб-страницы создаются с использованием текстовых языков разметки ( HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для конечных пользователей- людей , а не для простоты автоматического использования. В результате были разработаны специализированные инструменты и программное обеспечение для облегчения очистки веб-страниц. Приложения для очистки веб-страниц включают исследование рынка , сравнение цен, мониторинг контента и многое другое. Компании полагаются на службы веб-скрейпинга для эффективного сбора и использования этих данных.

Новые формы веб-скрапинга включают мониторинг потоков данных с веб-серверов. Например, JSON обычно используется в качестве транспортного механизма между клиентом и веб-сервером.

Существуют методы, которые некоторые веб-сайты используют для предотвращения парсинга веб-страниц, например обнаружение и запрет ботам сканировать (просматривать) их страницы. В ответ существуют системы веб-скрапинга, которые полагаются на использование методов анализа DOM , компьютерного зрения и обработки естественного языка для имитации просмотра человеком, что позволяет собирать содержимое веб-страниц для автономного анализа.

История [ править ]

После рождения Всемирной паутины в 1989 году появился первый веб-робот. ^[2] World Wide Web Wanderer был создан в июне 1993 года и предназначался только для измерения размеров сети.
В декабре 1993 года была запущена первая поисковая система на основе сканера JumpStation . Поскольку в сети было доступно меньше веб-сайтов, поисковые системы в то время полагались на администраторов-людей для сбора и форматирования ссылок. Для сравнения, JumpStation была первой поисковой системой WWW, которая использовала веб-робота.
В 2000 году первые веб-API и сканер API были созданы . API . ( интерфейс прикладного программирования) — это интерфейс, который значительно упрощает разработку программы, предоставляя строительные блоки В 2000 году Salesforce и eBay запустили собственный API, с помощью которого программисты могли получать доступ к некоторым общедоступным данным и загружать их. С тех пор многие веб-сайты предлагают веб-API, позволяющие людям получить доступ к их общедоступной базе данных.

Техники [ править ]

Парсинг веб-страниц — это процесс автоматического анализа данных или сбора информации из Всемирной паутины. Это область активных разработок, разделяющая общую цель с концепцией семантической сети , амбициозной инициативой, которая все еще требует прорывов в обработке текста, семантическом понимании, искусственном интеллекте и взаимодействии человека и компьютера .

копирование вставка и Человеческое

Самая простая форма парсинга веб-страниц — это копирование и вставка данных с веб-страницы вручную в текстовый файл или электронную таблицу. Иногда даже самая лучшая технология парсинга веб-страниц не может заменить ручное исследование и копирование и вставку человеком, а иногда это может быть единственным работоспособным решением, когда веб-сайты для парсинга явно устанавливают барьеры для предотвращения машинной автоматизации.

Сопоставление текстового шаблона [ править ]

Простой, но мощный подход к извлечению информации с веб-страниц может быть основан на команде UNIX grep или средствах сопоставления регулярных выражений языков программирования (например, Perl или Python ).

HTTP-программирование [ править ]

Статические и динамические веб-страницы можно получить, отправив HTTP-запросы на удаленный веб-сервер с помощью программирования сокетов .

Парсинг HTML [ править ]

Многие веб-сайты имеют большие коллекции страниц, динамически генерируемые из базового структурированного источника, такого как база данных. Данные одной и той же категории обычно кодируются на похожих страницах с помощью общего сценария или шаблона. В интеллектуальном анализе данных программа, которая обнаруживает такие шаблоны в конкретном источнике информации, извлекает их содержимое и переводит его в реляционную форму, называется оберткой . Алгоритмы создания оболочки предполагают, что входные страницы системы индукции оболочки соответствуют общему шаблону и что их можно легко идентифицировать с точки зрения общей схемы URL-адресов. ^[3] Более того, некоторые полуструктурированные языки запросов к данным, такие как XQuery и HTQL, могут использоваться для анализа HTML-страниц, а также для извлечения и преобразования содержимого страниц.

Анализ DOM [ править ]

Встраивая полноценный веб-браузер, такой как Internet Explorer или элемент управления браузером Mozilla , программы могут получать динамический контент, создаваемый сценариями на стороне клиента. Эти элементы управления браузера также анализируют веб-страницы в дерево DOM, на основе которого программы могут извлекать части страниц. такие языки, как Xpath Для анализа результирующего дерева DOM можно использовать .

агрегация Вертикальная

Есть несколько компаний, которые разработали специальные вертикальные уборочные платформы. Эти платформы создают и отслеживают множество «ботов» для конкретных вертикалей без «человека в курсе» (без прямого участия человека) и без какой-либо работы, связанной с конкретным целевым сайтом. Подготовка включает в себя создание базы знаний для всей вертикали, а затем платформа автоматически создает ботов. Надежность платформы измеряется качеством получаемой ею информации (обычно количеством полей) и ее масштабируемостью (насколько быстро она может масштабироваться до сотен или тысяч сайтов). Эта масштабируемость в основном используется для ориентации на « длинный хвост» сайтов, сбор контента с которых обычные агрегаторы считают сложным или слишком трудоемким.

Распознавание семантической аннотации [ править ]

Парсинговые страницы могут содержать метаданные или семантические разметки и аннотации, которые можно использовать для поиска конкретных фрагментов данных. Если аннотации встроены в страницы, как это делает Microformat , этот метод можно рассматривать как частный случай анализа DOM. В другом случае аннотации, организованные в семантический слой, ^[4] хранятся и управляются отдельно от веб-страниц, поэтому парсеры могут получить схему данных и инструкции из этого слоя перед парсингом страниц.

Анализ веб-страницы с компьютерного помощью зрения

Предпринимаются усилия с использованием машинного обучения и компьютерного зрения , которые пытаются идентифицировать и извлекать информацию с веб-страниц, интерпретируя страницы визуально, как это делает человек. ^[5]

Программное обеспечение [ править ]

Существует множество программных инструментов, которые можно использовать для настройки решений по парсингу веб-страниц. Это программное обеспечение может пытаться автоматически распознавать структуру данных страницы или предоставлять интерфейс записи, который устраняет необходимость вручную писать код веб-скрапинга, или некоторые функции сценариев, которые можно использовать для извлечения и преобразования контента, а также интерфейсы базы данных, которые могут хранить очищенные данные в локальных базах данных. Некоторые программы для парсинга веб-страниц также можно использовать для прямого извлечения данных из API, другие позволяют получать данные с веб-сайтов на основе AJAX (с динамической загрузкой контента) или тех, которые требуют входа в систему. Программное обеспечение «укажи и щелкни» позволяет людям, которые, возможно, не обладают продвинутыми навыками программирования, извлечь выгоду из парсинга веб-страниц. ^[6]

Юридические вопросы [ править ]

Законность парсинга веб-страниц варьируется в зависимости от мира. В целом, парсинг веб-страниц может противоречить условиям обслуживания некоторых веб-сайтов, но применимость этих условий неясна. ^[7]

США [ править ]

В Соединенных Штатах владельцы веб-сайтов могут использовать три основных юридических иска для предотвращения нежелательного парсинга веб-страниц: (1) нарушение авторских прав (компиляция), (2) нарушение Закона о компьютерном мошенничестве и злоупотреблениях («CFAA») и (3) несанкционированное проникновение . к движимому имуществу . ^[8] Однако эффективность этих исков зависит от соответствия различным критериям, а прецедентное право все еще развивается. Например, что касается авторских прав, хотя прямое копирование оригинального выражения во многих случаях будет незаконным, в Соединенных Штатах суды постановили в деле Feist Publications v. Rural Telephone Service, что копирование фактов допустимо.

Суды США признали, что пользователи «скребков» или «роботов» могут быть привлечены к ответственности за посягательство на движимое имущество . ^[9]^[10] который предполагает, что сама компьютерная система считается личной собственностью, на территорию которой вторгается пользователь парсера. Самое известное из этих дел, eBay против Bidder's Edge , закончилось судебным запретом, предписывавшим Bidder's Edge прекратить доступ, сбор и индексацию аукционов на веб-сайте eBay. В этом случае речь шла об автоматическом размещении ставок, известном как аукционный снайпинг . Однако для того, чтобы добиться успеха в иске о посягательстве на движимое имущество , истец должен продемонстрировать, что ответчик намеренно и без разрешения вмешался в владетельные интересы истца в компьютерной системе и что несанкционированное использование ответчиком причинило ущерб истцу. Не все дела о паутине, переданные в суд, считаются посягательством на движимое имущество. ^[11]

В одном из первых крупных испытаний очистки экрана участвовали American Airlines (AA) и фирма FareChase. ^[12] AA успешно добилась судебного запрета в суде первой инстанции Техаса, запрещающего FareChase продавать программное обеспечение, которое позволяет пользователям сравнивать тарифы онлайн, если это программное обеспечение также выполняет поиск на веб-сайте AA. Авиакомпания утверждала, что программное обеспечение для веб-поиска FareChase вторглось на серверы AA, когда собирало общедоступные данные. FareChase подала апелляцию в марте 2003 года. К июню FareChase и AA согласились урегулировать спор, и апелляция была отклонена. ^[13]

Southwest Airlines также оспорила практику очистки экранов и привлекла FareChase и другую фирму Outtask к судебному иску. Southwest Airlines заявила, что очистка экрана является незаконной, поскольку она является примером «компьютерного мошенничества и злоупотреблений» и привела к «повреждениям и потерям» и «несанкционированному доступу» к сайту Southwest. Это также представляет собой «Вмешательство в деловые отношения», «Нарушение границ» и «Вредоносный доступ с помощью компьютера». Они также заявили, что очистка экрана представляет собой то, что по закону известно как «незаконное присвоение и несправедливое обогащение», а также является нарушением пользовательского соглашения веб-сайта. Outtask отвергла все эти претензии, заявив, что в данном случае преобладающим законом должен быть закон США об авторском праве и что в соответствии с авторским правом части извлекаемой информации не будут подлежать защите авторских прав. Хотя дела так и не были решены в Верховном суде США , FareChase в конечном итоге была закрыта материнской компанией Yahoo! , а Outtask была куплена компанией Concur, занимающейся командировочными расходами. ^[14]В 2012 году стартап под названием 3Taps удалил объявления о продаже жилья с Craigslist. Craigslist отправил 3Taps письмо о прекращении противодействия и заблокировал их IP-адреса, а затем подал в суд в деле Craigslist v. 3Taps . Суд постановил, что письма о прекращении противоправных действий и блокировки IP-адресов было достаточно, чтобы Craigslist мог обоснованно заявить, что 3Taps нарушила Закон о компьютерном мошенничестве и злоупотреблениях (CFAA).

Хотя это ранние решения по сбору информации, а теории ответственности не являются единообразными, трудно игнорировать сложившуюся тенденцию, согласно которой суды готовы защищать проприетарный контент на коммерческих сайтах от использования, нежелательного для владельцев таких сайтов. Однако степень защиты такого контента не определена и будет зависеть от типа доступа, осуществленного парсером, объема информации, к которой осуществляется доступ и копирование, степени, в которой доступ отрицательно влияет на систему владельца сайта, а также типов и способов запретов на такое поведение. ^[15]

Хотя законодательство в этой области становится более устоявшимся, организациям, рассматривающим возможность использования программ очистки для доступа к общедоступному веб-сайту, следует также рассмотреть вопрос о том, разрешено ли такое действие, просмотрев условия использования и другие условия или уведомления, размещенные на сайте или доступные через него. В решении 2010 года по делу Cvent, Inc. против Eventbrite, Inc. Окружной суд США восточного округа штата Вирджиния постановил, что условия использования должны быть доведены до сведения пользователей . обернуть контракт или лицензию, требующую принудительного исполнения. ^[16] В деле 2014 года, поданном в Окружной суд США Восточного округа Пенсильвании , ^[17] Сайт электронной коммерции QVC возражал против того, чтобы подобный Pinterest агрегатор покупок Resultly «очистил сайт QVC для получения данных о ценах в реальном времени». QVC утверждает, что Resultly "чрезмерно сканировал" розничный сайт QVC (предположительно отправляя 200-300 поисковых запросов на веб-сайт QVC в минуту, иногда до 36 000 запросов в минуту), что привело к сбою сайта QVC на два дня, что привело к потере продаж QVC. . ^[18] В жалобе QVC утверждается, что ответчик замаскировал свой веб-сканер, чтобы замаскировать исходный IP-адрес, и тем самым помешал QVC быстро устранить проблему. Это особенно интересный случай парсинга, поскольку QVC требует возмещения ущерба за недоступность своего веб-сайта, причиной которой, по утверждению QVC, стала Resultly.

На веб-сайте истца в период судебного разбирательства ссылка на условия использования отображается среди всех ссылок сайта в нижней части страницы, как и на большинстве сайтов в Интернете. Это постановление противоречит постановлению Ирландии, описанному ниже. Суд также отклонил довод истца о том, что ограничения на перенос веб-страниц были осуществимы ввиду принятия Вирджинией Единого закона о транзакциях с компьютерной информацией (UCITA) — единообразного закона, который, по мнению многих, благоприятствовал общепринятой практике заключения договоров на перенос веб-страниц. ^[19]

В деле Facebook, Inc. против Power Ventures, Inc. в 2012 году окружной суд постановил, что Power Ventures не может очищать страницы Facebook от имени пользователя Facebook. Дело находится на апелляции, и в 2015 году Electronic Frontier Foundation подала иск с просьбой отменить решение. ^[20]^[21] В деле Associated Press против Meltwater US Holdings, Inc. суд в США признал Meltwater ответственным за сбор и повторную публикацию новостной информации из Associated Press, но суд в Соединенном Королевстве вынес решение в пользу Meltwater.

В 2019 году Девятый округ постановил, что парсинг веб-страниц не нарушает CFAA в деле hiQ Labs против LinkedIn . Дело было обжаловано в Верховном суде США , который вернул дело в Девятый округ для повторного рассмотрения в свете решения Верховного суда 2021 года по делу Ван Бюрен против США, которое сузило сферу применения CFAA. ^[22] По этому пересмотру Девятый округ оставил в силе свое предыдущее решение. ^[23]

Интернет-архив собирает и распространяет значительное количество общедоступных веб-страниц, не нарушая при этом законов об авторском праве. ^{[ нужна ссылка ]}

Европейский Союз [ править ]

В феврале 2006 года Датский морской и коммерческий суд (Копенгаген) постановил, что систематическое сканирование, индексирование и глубокие ссылки порталом ofir.dk на сайт недвижимости Home.dk не противоречат датскому законодательству или директиве Европейского Союза о базах данных. . ^[24]

В деле, рассмотренном в феврале 2010 года, осложненном вопросами юрисдикции, Высокий суд Ирландии вынес вердикт, который иллюстрирует зачаточное состояние развития прецедентного права. В деле Ryanair Ltd против Billigfluege.de GmbH Высокий суд Ирландии постановил, что » соглашение Ryanair « заключительное имеет юридическую силу. В отличие от выводов Окружного суда США Восточного округа штата Вирджиния и выводов Датского морского и коммерческого суда судья Майкл Ханна постановил, что гиперссылка на положения и условия Ryanair была явно видна и что ответственность за это возлагалась на пользователя. Согласие с условиями и положениями для получения доступа к онлайн-услугам является достаточным для заключения договорных отношений. ^[25] Решение находится на апелляции в Верховном суде Ирландии. ^[26]

30 апреля 2020 года Управление по защите данных Франции (CNIL) опубликовало новые рекомендации по парсингу веб-страниц. ^[27] В руководящих принципах CNIL ясно указано, что общедоступные данные по-прежнему являются личными данными и не могут быть перепрофилированы без ведома человека, которому эти данные принадлежат. ^[28]

Австралия [ править ]

В Австралии Закон о спаме 2003 года запрещает некоторые формы сбора веб-страниц, хотя это относится только к адресам электронной почты. ^[29]^[30]

Индия [ править ]

Оставив лишь несколько дел, касающихся нарушения прав интеллектуальной собственности, индийские суды не вынесли явного решения о законности парсинга веб-страниц. Однако, поскольку в Индии подлежат исполнению все распространенные формы электронных контрактов, нарушение условий использования, запрещающих сбор данных, будет нарушением договорного права. Это также нарушит Закон об информационных технологиях 2000 года , который предусматривает наказание за несанкционированный доступ к компьютерному ресурсу или извлечение данных из компьютерного ресурса.

Методы предотвращения парсинга веб-страниц [ править ]

Администратор веб-сайта может использовать различные меры, чтобы остановить или замедлить работу бота. Некоторые методы включают в себя:

Блокировка IP-адреса вручную или на основе таких критериев, как геолокация и DNSRBL . Это также заблокирует все просмотры с этого адреса.
Отключение любого веб-сервиса API , который может предоставить система веб-сайта.
Боты иногда заявляют, кто они (используя пользовательского агента строки ), и на этом основании их можно заблокировать с помощью robots.txt ; « гуглбот Примером может служить ». Другие боты не делают различий между собой и человеком, использующим браузер.
Ботов можно заблокировать, отслеживая избыточный трафик
Иногда ботов можно заблокировать с помощью инструментов, позволяющих проверить, что к сайту обращается реальный человек, например CAPTCHA . Боты иногда запрограммированы так, чтобы явно нарушать определенные шаблоны CAPTCHA, или могут использовать сторонние сервисы, которые используют человеческий труд для чтения и реагирования в режиме реального времени на задачи CAPTCHA. Они могут сработать, потому что бот: 1) делает слишком много запросов за короткое время, 2) использует некачественные прокси или 3) неправильно скрывает отпечаток веб-скребка. ^[31]
Коммерческие услуги по борьбе с ботами: компании предлагают услуги по борьбе с ботами и очистке веб-сайтов. Некоторые брандмауэры веб-приложений также имеют ограниченные возможности обнаружения ботов. Однако многие такие решения не очень эффективны. ^[32]
Обнаружение ботов с помощью приманки или другого метода определения IP-адресов автоматических сканеров.
Обфускация с использованием спрайтов CSS для отображения таких данных, как номера телефонов или адреса электронной почты, за счет доступности для пользователей программ чтения с экрана .
Поскольку боты полагаются на согласованность внешнего кода целевого веб-сайта, добавление небольших изменений в HTML/CSS, окружающих важные данные и элементы навигации, потребует большего участия человека в первоначальной настройке бота и, если все будет сделано эффективно, может отобразить целевой веб-сайт слишком сложно парсить из-за ограниченной возможности автоматизации процесса парсинга.
Веб-сайты могут указывать, разрешено или нет сканирование в файле robots.txt , разрешать частичный доступ, ограничивать скорость сканирования, указывать оптимальное время сканирования и многое другое.

См. также [ править ]

Ссылки [ править ]

^ Молитва, Заон Сваабоу; Намош, Приглашающий; Уши, Одуэт; Осмеянная, праведность; Папа, Мэри-Джейн Мессенджер (28 июля 2021 г.). «SASSCAL WebSAPI: интерфейс прикладного программирования веб-скрапинга для поддержки доступа к данным о погоде SASSCAL» . Журнал науки о данных . 20:24 . doi : 10.5334/dsj-2021-024 . ISSN 1683-1470 . S2CID 237719804 .
^ «История поисковых систем.com» . История поисковых систем . Проверено 26 ноября 2019 г.
^ Сун, Жуйхуа; Microsoft Research (14 сентября 2007 г.). «Совместная оптимизация создания оберток и обнаружения шаблонов» (PDF) . Материалы 13-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . п. 894. дои : 10.1145/1281192.1281287 . ISBN 9781595936097 . S2CID 833565 . Архивировано из оригинала (PDF) 11 октября 2016 г.
^ Парсинг веб-страниц на основе семантических аннотаций
^ Руш, Уэйд (25 июля 2012 г.). «Diffbot использует компьютерное зрение, чтобы заново изобрести семантическую сеть» . www.xconomy.com . Проверено 15 марта 2013 г.
^ Цехановский, Леон; Емельняк, Дариуш; Глор, Питер А. (2020). «УЧЕБНИК: Исследования ИИ без программирования: Искусство сражаться без боя: Наука о данных для качественных исследователей» . Журнал бизнес-исследований . 117 . Эльзевир Б.В.: 322–330. doi : 10.1016/j.jbusres.2020.06.012 . ISSN 0148-2963 .
^ «Часто задаваемые вопросы о ссылках: являются ли условия использования веб-сайта обязательными для заключения контрактов?» . www.chillingeffects.org. 20 августа 2007 г. Архивировано из оригинала 8 марта 2002 г. Проверено 20 августа 2007 г.
^ Кеннет, Хирши, Джеффри (1 января 2014 г.). «Симбиотические отношения: прагматическое принятие очистки данных» . Журнал технологического права Беркли . 29 (4). дои : 10.15779/Z38B39B . ISSN 1086-3818 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «Интернет-право, глава 06: Посягательство на движимое имущество» . www.tomwbell.com. 20 августа 2007 г. Проверено 20 августа 2007 г.
^ «Какие претензии о «посягательстве на движимое имущество» выдвинули некоторые компании или владельцы веб-сайтов?» . www.chillingeffects.org. 20 августа 2007 г. Архивировано из оригинала 8 марта 2002 г. Проверено 20 августа 2007 г.
^ «Ticketmaster Corp. против Tickets.com, Inc» . 20 августа 2007 г. Проверено 20 августа 2007 г.
^ «American Airlines против FareChase» (PDF) . 20 августа 2007 г. Архивировано из оригинала (PDF) 23 июля 2011 г. Проверено 20 августа 2007 г.
^ «Американские авиалинии, иск об урегулировании дела FareChase» . Бесплатная библиотека. 13 июня 2003 г. Архивировано из оригинала 05 марта 2016 г. Проверено 26 февраля 2012 г.
^ Имперва (2011). Обнаружение и блокирование парсинг-атак сайтов . Официальный документ Импервы.
^ Адлер, Кеннет А. (29 июля 2003 г.). «Споры вокруг «скребков экрана»: программное обеспечение помогает пользователям получать доступ к веб-сайтам, но деятельность конкурентов подвергается тщательному контролю» . Архивировано из оригинала 11 февраля 2011 г. Проверено 27 октября 2010 г.
^ «QVC Inc. против Resultly LLC, № 14-06714 (ED, подано 24 ноября 2014 г.)» (PDF) . 24 ноября 2014 г. Архивировано из оригинала (PDF) 21 сентября 2013 г. Проверено 5 ноября 2015 г.
^ «QVC Inc. против Resultly LLC, № 14-06714 (ED PA, подано 24 ноября 2014 г.)» . Окружной суд США Восточного округа Пенсильвании . Проверено 5 ноября 2015 г.
^ Нойбургер, Джеффри Д. (5 декабря 2014 г.). «QVC подает в суд на приложение для покупок за веб-скрапинг, который предположительно вызвал сбой на сайте» . Обзор национального законодательства . ТОО «Проскауэр Роуз» . Проверено 5 ноября 2015 г.
^ «Подняли ли Икбал/Твомбли планку претензий по поводу браузера?» (PDF) . 17 сентября 2010 г. Архивировано из оригинала (PDF) 23 июля 2011 г. Проверено 27 октября 2010 г.
^ «Может ли сбор контента, не нарушающего авторские права, стать нарушением авторских прав... из-за того, как работают сборщики? | Techdirt» . Техдирт . 10 июня 2009 г. Проверено 24 мая 2016 г.
^ «Facebook против Power Ventures» . Фонд электронных границ . Проверено 24 мая 2016 г.
^ Чанг, Эндрю (14 июня 2021 г.). «Верховный суд США возобновил предложение LinkedIn защитить персональные данные» . Рейтер . Проверено 14 июня 2021 г.
^ Уиттакер, Зак (18 апреля 2022 г.). «Веб-скрапинг является законным, подтверждает апелляционный суд США» . ТехКранч .
^ «КНИГА РЕШЕНИЙ МОРСКОГО И ТОРГОВОГО СУДА» (PDF) (на датском языке). bvhd.dk. 24 февраля 2006 г. Архивировано из оригинала (PDF) 12 октября 2007 г. Проверено 30 мая 2007 г.
^ «Решения Высокого суда Ирландии >> Ryanair Ltd - против Billigfluege.de GMBH 2010 IEHC 47 (26 февраля 2010 г.)» . Британский и Ирландский институт правовой информации. 26 февраля 2010 г. Проверено 19 апреля 2012 г.
^ Мэтьюз, Айне (июнь 2010 г.). «Интеллектуальная собственность: Условия использования веб-сайта» . Выпуск 26: июнь 2010 г. Обновление адвокатов ЛК Шилдс. п. 03. Архивировано из оригинала 24 июня 2012 г. Проверено 19 апреля 2012 г.
^ «Повторное использование данных, общедоступных в Интернете, в целях коммерческой агитации | CNIL» . www.cnil.fr (на французском языке) . Проверено 5 июля 2020 г.
^ FindDataLab.com (09.06.2020). «Можете ли вы по-прежнему выполнять парсинг веб-страниц с помощью новых рекомендаций CNIL?» . Середина . Проверено 5 июля 2020 г.
^ Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 года: обзор для бизнеса» . Австралийское управление связи. п. 6. Архивировано из оригинала 03 декабря 2019 г. Проверено 7 декабря 2017 г.
^ Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 г.: Практическое руководство для бизнеса» (PDF) . Австралийское управление связи. п. 20 . Проверено 7 декабря 2017 г.
^ «Парсинг веб-страниц для начинающих: руководство на 2024 год» . Проксивей . 31 августа 2023 г. Проверено 15 марта 2024 г.
^ Mayank Dhiman Взлом решений для мошенничества и обнаружения ботов OWASP AppSec Cali '2018, получено 10 февраля 2018 г.

[1] Молитва, Заон Сваабоу; Намош, Приглашающий; Уши, Одуэт; Осмеянная, праведность; Папа, Мэри-Джейн Мессенджер (28 июля 2021 г.). «SASSCAL WebSAPI: интерфейс прикладного программирования веб-скрапинга для поддержки доступа к данным о погоде SASSCAL» . Журнал науки о данных . 20:24 . doi : 10.5334/dsj-2021-024 . ISSN 1683-1470 . S2CID 237719804 .

[2] «История поисковых систем.com» . История поисковых систем . Проверено 26 ноября 2019 г.

[3] Сун, Жуйхуа; Microsoft Research (14 сентября 2007 г.). «Совместная оптимизация создания оберток и обнаружения шаблонов» (PDF) . Материалы 13-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . п. 894. дои : 10.1145/1281192.1281287 . ISBN 9781595936097 . S2CID 833565 . Архивировано из оригинала (PDF) 11 октября 2016 г.

[4] Парсинг веб-страниц на основе семантических аннотаций

[5] Руш, Уэйд (25 июля 2012 г.). «Diffbot использует компьютерное зрение, чтобы заново изобрести семантическую сеть» . www.xconomy.com . Проверено 15 марта 2013 г.

[6] Цехановский, Леон; Емельняк, Дариуш; Глор, Питер А. (2020). «УЧЕБНИК: Исследования ИИ без программирования: Искусство сражаться без боя: Наука о данных для качественных исследователей» . Журнал бизнес-исследований . 117 . Эльзевир Б.В.: 322–330. doi : 10.1016/j.jbusres.2020.06.012 . ISSN 0148-2963 .

[7] «Часто задаваемые вопросы о ссылках: являются ли условия использования веб-сайта обязательными для заключения контрактов?» . www.chillingeffects.org. 20 августа 2007 г. Архивировано из оригинала 8 марта 2002 г. Проверено 20 августа 2007 г.

[8] Кеннет, Хирши, Джеффри (1 января 2014 г.). «Симбиотические отношения: прагматическое принятие очистки данных» . Журнал технологического права Беркли . 29 (4). дои : 10.15779/Z38B39B . ISSN 1086-3818 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[9] «Интернет-право, глава 06: Посягательство на движимое имущество» . www.tomwbell.com. 20 августа 2007 г. Проверено 20 августа 2007 г.

[10] «Какие претензии о «посягательстве на движимое имущество» выдвинули некоторые компании или владельцы веб-сайтов?» . www.chillingeffects.org. 20 августа 2007 г. Архивировано из оригинала 8 марта 2002 г. Проверено 20 августа 2007 г.

[11] «Ticketmaster Corp. против Tickets.com, Inc» . 20 августа 2007 г. Проверено 20 августа 2007 г.

[12] «American Airlines против FareChase» (PDF) . 20 августа 2007 г. Архивировано из оригинала (PDF) 23 июля 2011 г. Проверено 20 августа 2007 г.

[13] «Американские авиалинии, иск об урегулировании дела FareChase» . Бесплатная библиотека. 13 июня 2003 г. Архивировано из оригинала 05 марта 2016 г. Проверено 26 февраля 2012 г.

[impervawp2011-14] Имперва (2011). Обнаружение и блокирование парсинг-атак сайтов . Официальный документ Импервы.

[15] Адлер, Кеннет А. (29 июля 2003 г.). «Споры вокруг «скребков экрана»: программное обеспечение помогает пользователям получать доступ к веб-сайтам, но деятельность конкурентов подвергается тщательному контролю» . Архивировано из оригинала 11 февраля 2011 г. Проверено 27 октября 2010 г.

[16] «QVC Inc. против Resultly LLC, № 14-06714 (ED, подано 24 ноября 2014 г.)» (PDF) . 24 ноября 2014 г. Архивировано из оригинала (PDF) 21 сентября 2013 г. Проверено 5 ноября 2015 г.

[17] «QVC Inc. против Resultly LLC, № 14-06714 (ED PA, подано 24 ноября 2014 г.)» . Окружной суд США Восточного округа Пенсильвании . Проверено 5 ноября 2015 г.

[18] Нойбургер, Джеффри Д. (5 декабря 2014 г.). «QVC подает в суд на приложение для покупок за веб-скрапинг, который предположительно вызвал сбой на сайте» . Обзор национального законодательства . ТОО «Проскауэр Роуз» . Проверено 5 ноября 2015 г.

[19] «Подняли ли Икбал/Твомбли планку претензий по поводу браузера?» (PDF) . 17 сентября 2010 г. Архивировано из оригинала (PDF) 23 июля 2011 г. Проверено 27 октября 2010 г.

[20] «Может ли сбор контента, не нарушающего авторские права, стать нарушением авторских прав... из-за того, как работают сборщики? | Techdirt» . Техдирт . 10 июня 2009 г. Проверено 24 мая 2016 г.

[21] «Facebook против Power Ventures» . Фонд электронных границ . Проверено 24 мая 2016 г.

[22] Чанг, Эндрю (14 июня 2021 г.). «Верховный суд США возобновил предложение LinkedIn защитить персональные данные» . Рейтер . Проверено 14 июня 2021 г.

[23] Уиттакер, Зак (18 апреля 2022 г.). «Веб-скрапинг является законным, подтверждает апелляционный суд США» . ТехКранч .

[24] «КНИГА РЕШЕНИЙ МОРСКОГО И ТОРГОВОГО СУДА» (PDF) (на датском языке). bvhd.dk. 24 февраля 2006 г. Архивировано из оригинала (PDF) 12 октября 2007 г. Проверено 30 мая 2007 г.

[25] «Решения Высокого суда Ирландии >> Ryanair Ltd - против Billigfluege.de GMBH 2010 IEHC 47 (26 февраля 2010 г.)» . Британский и Ирландский институт правовой информации. 26 февраля 2010 г. Проверено 19 апреля 2012 г.

[26] Мэтьюз, Айне (июнь 2010 г.). «Интеллектуальная собственность: Условия использования веб-сайта» . Выпуск 26: июнь 2010 г. Обновление адвокатов ЛК Шилдс. п. 03. Архивировано из оригинала 24 июня 2012 г. Проверено 19 апреля 2012 г.

[27] «Повторное использование данных, общедоступных в Интернете, в целях коммерческой агитации | CNIL» . www.cnil.fr (на французском языке) . Проверено 5 июля 2020 г.

[28] FindDataLab.com (09.06.2020). «Можете ли вы по-прежнему выполнять парсинг веб-страниц с помощью новых рекомендаций CNIL?» . Середина . Проверено 5 июля 2020 г.

[29] Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 года: обзор для бизнеса» . Австралийское управление связи. п. 6. Архивировано из оригинала 03 декабря 2019 г. Проверено 7 декабря 2017 г.

[30] Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 г.: Практическое руководство для бизнеса» (PDF) . Австралийское управление связи. п. 20 . Проверено 7 декабря 2017 г.

[31] «Парсинг веб-страниц для начинающих: руководство на 2024 год» . Проксивей . 31 августа 2023 г. Проверено 15 марта 2024 г.

[32] Mayank Dhiman Взлом решений для мошенничества и обнаружения ботов OWASP AppSec Cali '2018, получено 10 февраля 2018 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]