Jump to content

StormCrawler

StormCrawler
Разработчик(и) ДигиталПеббл, ООО
Первоначальный выпуск 11 сентября 2014 г. ( 11.09.2014 )
Стабильная версия
2,8 / 29 марта 2023 г .; 16 месяцев назад ( 29.03.2023 )
Репозиторий
Написано в Ява
Тип Веб-сканер
Лицензия Лицензия Апач
Веб-сайт штурмовик .сеть

StormCrawler — это с открытым исходным кодом коллекция ресурсов для создания масштабируемых веб-сканеров с малой задержкой на Apache Storm . Он предоставляется по лицензии Apache и написан в основном на Java (языке программирования) .

StormCrawler является модульным и состоит из основного модуля, который предоставляет основные строительные блоки веб-сканера, такие как выборка, анализ и фильтрация URL-адресов. Помимо основных компонентов, проект также предоставляет внешние ресурсы, такие как, например, носик и болты для Elasticsearch и Apache Solr или ParserBolt, который использует Apache Tika для анализа различных форматов документов.

Проект используется различными организациями, [ 1 ] особенно Common Crawl [ 2 ] для создания большого и общедоступного набора новостей.

В октябре 2016 года Linux.com опубликовал вопросы и ответы с автором StormCrawler. [ 3 ] InfoQ запустил один в декабре 2016 года. [ 4 ] Сравнительный тест Apache Nutch был опубликован в январе 2017 года на сайте dzone.com. [ 5 ]

В нескольких исследовательских работах упоминалось использование StormCrawler, в частности:

  • Сканирование немецкой сети здравоохранения: предварительное исследование и анализ графиков. [ 6 ]
  • Создание многомиллионного страничного корпуса персидского языка. [ 7 ]
  • SIREN — механизм поиска и извлечения информации о безопасности. [ 8 ]

Wiki проекта содержит список видео и слайдов, доступных в Интернете. [ 9 ]

См. также

[ редактировать ]
  1. ^ «При поддержке · DigitalPebble/storm-crawler Wiki · GitHub» . Гитхаб.com . 2017-03-02 . Проверено 19 апреля 2017 г.
  2. ^ «Доступный набор данных новостей – обычное сканирование» .
  3. ^ «StormCrawler: SDK с открытым исходным кодом для создания веб-сканеров с помощью ApacheStorm | Linux.com | Источник информации о Linux» . Linux.com . 12.10.2016 . Проверено 19 апреля 2017 г.
  4. ^ «Жюльен Ниош о StormCrawler, гусеничных конвейерах с открытым исходным кодом, поддерживаемых Apache Storm» . Infoq.com . 15 декабря 2016 г. Проверено 19 апреля 2017 г.
  5. ^ «Битва краулеров: Apache Nutch против StormCrawler — большие данные DZone» . Dzone.com . Проверено 19 апреля 2017 г.
  6. ^ Зовалла, Ричард; Веттер, Томас; Пфайфер, Дэниел (2020). «Сканирование немецкой сети здравоохранения: предварительное исследование и анализ графиков» . Журнал медицинских интернет-исследований . 22 (7): e17853. дои : 10.2196/17853 . ПМК   7414401 . ПМИД   32706701 .
  7. ^ «MirasText: автоматически генерируемый текстовый корпус для персидского языка» .
  8. ^ Санагаварапу, Лалит Мохан; Матур, Нирадж; Агравал, Шриянш; Редди, Ю. Рагу (2018). «СИРЕНА — система поиска и извлечения безопасной информации». Достижения в области поиска информации . Конспекты лекций по информатике. Том. 10772. стр. 811–814. дои : 10.1007/978-3-319-76941-7_81 . ISBN  978-3-319-76940-0 .
  9. ^ «Презентации · DigitalPebble/Storm-Crawler Wiki · GitHub» . Гитхаб.com . 04.04.2017 . Проверено 19 апреля 2017 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 288098fdeb658565f29aa003387e8fde__1716714300
URL1:https://arc.ask3.ru/arc/aa/28/de/288098fdeb658565f29aa003387e8fde.html
Заголовок, (Title) документа по адресу, URL1:
StormCrawler - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)