StormCrawler
Тема этой статьи может не соответствовать рекомендациям Википедии по известности продуктов и услуг . ( сентябрь 2016 г. ) |
Разработчик(и) | ДигиталПеббл, ООО |
---|---|
Первоначальный выпуск | 11 сентября 2014 г. |
Стабильная версия | 2,8
/ 29 марта 2023 г |
Репозиторий | |
Написано в | Ява |
Тип | Веб-сканер |
Лицензия | Лицензия Апач |
Веб-сайт | штурмовик |
StormCrawler — это с открытым исходным кодом коллекция ресурсов для создания масштабируемых веб-сканеров с малой задержкой на Apache Storm . Он предоставляется по лицензии Apache и написан в основном на Java (языке программирования) .
StormCrawler является модульным и состоит из основного модуля, который предоставляет основные строительные блоки веб-сканера, такие как выборка, анализ и фильтрация URL-адресов. Помимо основных компонентов, проект также предоставляет внешние ресурсы, такие как, например, носик и болты для Elasticsearch и Apache Solr или ParserBolt, который использует Apache Tika для анализа различных форматов документов.
Проект используется различными организациями, [ 1 ] особенно Common Crawl [ 2 ] для создания большого и общедоступного набора новостей.
В октябре 2016 года Linux.com опубликовал вопросы и ответы с автором StormCrawler. [ 3 ] InfoQ запустил один в декабре 2016 года. [ 4 ] Сравнительный тест Apache Nutch был опубликован в январе 2017 года на сайте dzone.com. [ 5 ]
В нескольких исследовательских работах упоминалось использование StormCrawler, в частности:
- Сканирование немецкой сети здравоохранения: предварительное исследование и анализ графиков. [ 6 ]
- Создание многомиллионного страничного корпуса персидского языка. [ 7 ]
- SIREN — механизм поиска и извлечения информации о безопасности. [ 8 ]
Wiki проекта содержит список видео и слайдов, доступных в Интернете. [ 9 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «При поддержке · DigitalPebble/storm-crawler Wiki · GitHub» . Гитхаб.com . 2017-03-02 . Проверено 19 апреля 2017 г.
- ^ «Доступный набор данных новостей – обычное сканирование» .
- ^ «StormCrawler: SDK с открытым исходным кодом для создания веб-сканеров с помощью ApacheStorm | Linux.com | Источник информации о Linux» . Linux.com . 12.10.2016 . Проверено 19 апреля 2017 г.
- ^ «Жюльен Ниош о StormCrawler, гусеничных конвейерах с открытым исходным кодом, поддерживаемых Apache Storm» . Infoq.com . 15 декабря 2016 г. Проверено 19 апреля 2017 г.
- ^ «Битва краулеров: Apache Nutch против StormCrawler — большие данные DZone» . Dzone.com . Проверено 19 апреля 2017 г.
- ^ Зовалла, Ричард; Веттер, Томас; Пфайфер, Дэниел (2020). «Сканирование немецкой сети здравоохранения: предварительное исследование и анализ графиков» . Журнал медицинских интернет-исследований . 22 (7): e17853. дои : 10.2196/17853 . ПМК 7414401 . ПМИД 32706701 .
- ^ «MirasText: автоматически генерируемый текстовый корпус для персидского языка» .
- ^ Санагаварапу, Лалит Мохан; Матур, Нирадж; Агравал, Шриянш; Редди, Ю. Рагу (2018). «СИРЕНА — система поиска и извлечения безопасной информации». Достижения в области поиска информации . Конспекты лекций по информатике. Том. 10772. стр. 811–814. дои : 10.1007/978-3-319-76941-7_81 . ISBN 978-3-319-76940-0 .
- ^ «Презентации · DigitalPebble/Storm-Crawler Wiki · GitHub» . Гитхаб.com . 04.04.2017 . Проверено 19 апреля 2017 г.