OutWit Hub
Разработчик(и) | OutWit Технологии |
---|---|
Операционная система | Microsoft Windows , MacOS , Linux |
Тип | Парсинг веб-страниц , менеджер загрузок |
Лицензия | Собственный |
Веб-сайт | перехитрить |
OutWit Hub — это программное обеспечение для извлечения веб-данных , предназначенное для автоматического извлечения информации из онлайн-или локальных ресурсов. Он распознает и захватывает ссылки, изображения, документы, контакты, повторяющуюся лексику и фразы, RSS-каналы и преобразует структурированные и неструктурированные данные в форматированные таблицы, которые можно экспортировать в электронные таблицы или базы данных . Первая версия была выпущена в 2010 году. Текущая версия (9.0) доступна для Windows 10 и Windows 11, Linux и MacOS 10.
Программа включает в себя браузер на базе Mozilla и боковую панель, которая обеспечивает доступ к ряду представлений с предварительно установленными экстракторами. Веб-страницы и текстовые документы разбиты на различные составляющие, представленные в этих представлениях в виде таблиц. Приложение может перемещаться по сериям ссылок и последовательностям страниц результатов поиска , извлекать элементы информации, организовывать их в таблицы и экспортировать в различные форматы. Предопределенные экстракторы позволяют собирать структурированные таблицы, списки или каналы. Также можно создавать собственные парсеры для извлечения данных из менее структурированных элементов страницы. [ 1 ] Регулярные выражения можно включать в парсеры, а также в другие части приложения для определения маркеров распознавания переменных. [ 2 ]
Хотя OutWit Hub представлен как инструмент для нетехнических пользователей, тот факт, что приложение не использует структуру объектной модели документа для извлечения, предотвращает визуальный сбор данных по принципу «наведи и захвати» и вынуждает пользователя, который хочет создавать собственные средства очистки. определить маркеры в исходном коде страницы. Однако преимущество этого подхода заключается в том, что он позволяет более точно определять маски извлечения, чем узлы HTML, и ускоряет выполнение, поскольку дерево объектной модели документа не требуется отображать браузером во время извлечения.
Версии
[ редактировать ]Ограниченную бесплатную версию можно загрузить с сайта издателя и с сайтов загрузки условно-бесплатных программ . [ 3 ]
Функции
[ редактировать ]- Распознавание и извлечение ссылок, адресов электронной почты, структурированных и неструктурированных данных, новостей RSS.
- Извлечение и загрузка изображений и документов
- Извлечение текста со словарем слов и групп слов по частоте
- Автоматизированный просмотр с определяемыми пользователем правилами веб-исследования.
- Автоматический запрос и генерация URL по шаблонам
- Каталоги ссылок и запросов
- Скребки на заказ
- Автоматизация макросов
- Периодическое выполнение заданий
Расширенные функции
[ редактировать ]Версия приложения Enterprise включает в себя расширенные функции извлечения и автоматизации для извлечения определенных или больших объемов, отправку серии автоматически сгенерированных запросов HTTP или POST и загрузку очищенных данных на FTP-серверы.
Расширения браузера
[ редактировать ]Firefox
[ редактировать ]OutWit Hub — это расширение Firefox, выпуск которого прекращен. [ 4 ]
См. также
[ редактировать ]Похожие инструменты
[ редактировать ]- трубы Yahoo
- Automation Anywhere — веб-экстрактор и система автоматизации
- Octatools.com
Ссылки
[ редактировать ]- ^ «Использование «разделителей и меток» в Outwit Hub pro» . Рассыпание данных . Май 2013.
- ^ «Практическое руководство: парсинг уродливого HTML с помощью «регулярных выражений» в парсере OutWit Hub» . Интернет-журналистика . Ноябрь 2012 г.
- ^ «Как использовать OutWit Hub для бесплатного парсинга данных» . Интерхаки . март 2014 г.
- ^ «OutWit Hub – Дополнения для Firefox» . 15 ноября 2017 г. Архивировано из оригинала 15 ноября 2017 г.