Jump to content

OutWit Hub

OutWit Hub
Разработчик(и) OutWit Технологии
Операционная система Microsoft Windows , MacOS , Linux
Тип Парсинг веб-страниц , менеджер загрузок
Лицензия Собственный
Веб-сайт перехитрить

OutWit Hub — это программное обеспечение для извлечения веб-данных , предназначенное для автоматического извлечения информации из онлайн-или локальных ресурсов. Он распознает и захватывает ссылки, изображения, документы, контакты, повторяющуюся лексику и фразы, RSS-каналы и преобразует структурированные и неструктурированные данные в форматированные таблицы, которые можно экспортировать в электронные таблицы или базы данных . Первая версия была выпущена в 2010 году. Текущая версия (9.0) доступна для Windows 10 и Windows 11, Linux и MacOS 10.

Программа включает в себя браузер на базе Mozilla и боковую панель, которая обеспечивает доступ к ряду представлений с предварительно установленными экстракторами. Веб-страницы и текстовые документы разбиты на различные составляющие, представленные в этих представлениях в виде таблиц. Приложение может перемещаться по сериям ссылок и последовательностям страниц результатов поиска , извлекать элементы информации, организовывать их в таблицы и экспортировать в различные форматы. Предопределенные экстракторы позволяют собирать структурированные таблицы, списки или каналы. Также можно создавать собственные парсеры для извлечения данных из менее структурированных элементов страницы. [ 1 ] Регулярные выражения можно включать в парсеры, а также в другие части приложения для определения маркеров распознавания переменных. [ 2 ]

Хотя OutWit Hub представлен как инструмент для нетехнических пользователей, тот факт, что приложение не использует структуру объектной модели документа для извлечения, предотвращает визуальный сбор данных по принципу «наведи и захвати» и вынуждает пользователя, который хочет создавать собственные средства очистки. определить маркеры в исходном коде страницы. Однако преимущество этого подхода заключается в том, что он позволяет более точно определять маски извлечения, чем узлы HTML, и ускоряет выполнение, поскольку дерево объектной модели документа не требуется отображать браузером во время извлечения.

Ограниченную бесплатную версию можно загрузить с сайта издателя и с сайтов загрузки условно-бесплатных программ . [ 3 ]

  • Распознавание и извлечение ссылок, адресов электронной почты, структурированных и неструктурированных данных, новостей RSS.
  • Извлечение и загрузка изображений и документов
  • Извлечение текста со словарем слов и групп слов по частоте
  • Автоматизированный просмотр с определяемыми пользователем правилами веб-исследования.
  • Автоматический запрос и генерация URL по шаблонам
  • Каталоги ссылок и запросов
  • Скребки на заказ
  • Автоматизация макросов
  • Периодическое выполнение заданий

Расширенные функции

[ редактировать ]

Версия приложения Enterprise включает в себя расширенные функции извлечения и автоматизации для извлечения определенных или больших объемов, отправку серии автоматически сгенерированных запросов HTTP или POST и загрузку очищенных данных на FTP-серверы.

Расширения браузера

[ редактировать ]

OutWit Hub — это расширение Firefox, выпуск которого прекращен. [ 4 ]

См. также

[ редактировать ]

Похожие инструменты

[ редактировать ]
  1. ^ «Использование «разделителей и меток» в Outwit Hub pro» . Рассыпание данных . Май 2013.
  2. ^ «Практическое руководство: парсинг уродливого HTML с помощью «регулярных выражений» в парсере OutWit Hub» . Интернет-журналистика . Ноябрь 2012 г.
  3. ^ «Как использовать OutWit Hub для бесплатного парсинга данных» . Интерхаки . март 2014 г.
  4. ^ «OutWit Hub – Дополнения для Firefox» . 15 ноября 2017 г. Архивировано из оригинала 15 ноября 2017 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 72713f6baf9fdbe04b7f1adb3a7435a1__1708259160
URL1:https://arc.ask3.ru/arc/aa/72/a1/72713f6baf9fdbe04b7f1adb3a7435a1.html
Заголовок, (Title) документа по адресу, URL1:
OutWit Hub - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)