Апач Натч
Apache Nutch — это расширяемый и масштабируемый с открытым исходным кодом проект программного обеспечения для веб-сканирования .
Функции
[ редактировать ]Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа медиа-типов, извлечения данных, выполнения запросов и кластеризации.
Сборщик («робот» или « веб-сканер ») был написан с нуля специально для этого проекта.
История
[ редактировать ]Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .
В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке задач сканирования и индексирования на нескольких машинах, проект Nutch также реализовал средство MapReduce и распределенную файловую систему . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .
В январе 2005 года Nutch присоединился к инкубатору Apache, из которого в июне того же года он стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [2]
В феврале 2014 года проект Common Crawl принял Nutch для открытого широкомасштабного сканирования веб-страниц. [3]
Когда-то целью проекта Nutch было создание глобальной крупномасштабной поисковой системы в Интернете, но сейчас это уже не так. [ нужна ссылка ]
История выпусков
[ редактировать ]1.х Ветвь | 2.х Ветвь | Дата выпуска | Описание |
---|---|---|---|
1.1 | 2010-06-06 | Этот выпуск включает в себя несколько крупных обновлений существующих библиотек (Hadoop, Solr, Tika и т. д.), от которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, Fetcher2). | |
1.2 | 2010-10-24 | Этот выпуск включает в себя несколько улучшений (добавление parse-html в качестве анализатора, настраиваемое для каждого поля), новые функции (включая добавление информации о времени во все классы инструментов и реализацию тайм-аутов анализатора), а также исправления ошибок (исправление NPE). в распределенном поиске, исправление проблем с форматированием XML для полей документа). | |
1.3 | 2011-06-07 | Этот выпуск включает в себя несколько улучшений (улучшенная поддержка анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего анализа, улучшенная идентификация языка и на порядок меньший архив исходного кода — всего около 2 МБ). | |
1.4 | 2011-11-26 | Этот выпуск включает в себя несколько улучшений, в том числе разрешение парсерам объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди Fetcher, повышение скорости Fetcher, более тесную интеграцию Tika и поддержку HTTP-аутентификации в индексации Solr. | |
1.5 | 2012-06-07 | Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения элементов LinkRank и WebGraph, а также ряд новых плагинов, охватывающих черные списки, фильтрацию и анализ, и это лишь некоторые из них. | |
2.0 | 2012-07-07 | Этот выпуск предлагает пользователям версию, ориентированную на крупномасштабное сканирование, основанную на абстракции хранения (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные высокопроизводительные хранилища данных. профильные хранилища SQL. | |
1.5.1 | 2012-07-10 | Этот выпуск представляет собой техническое обслуживание популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе. | |
2.1 | 2012-10-05 | Этот выпуск по-прежнему предоставляет пользователям Nutch упрощенную сборку дистрибутива Nutch на базе разработки 2.x, популярность которой среди сообщества растет. Помимо устранения примерно 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления для различных зависимостей Gora и введение возможности построения индексов в эластичном поиске. | |
1.6 | 2012-12-06 | Этот выпуск включает в себя более 20 исправлений ошибок, столько же улучшений, а также новые функции, включая новый HostNormalizer, возможность динамической установки fetchInterval по MIME-типу и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление роботов. документы noIndex. Другие заметные улучшения включают обновление ключевых зависимостей до Tika 1.2 и Automaton 1.11-8. | |
2.2 | 2013-06-08 | Этот выпуск включает в себя более 30 исправлений ошибок и более 25 улучшений, представляющих собой третий выпуск набирающей популярность серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного анализа robots.txt, а также обновления библиотеки до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8. | |
1.7 | 2013-06-24 | Этот выпуск включает в себя более 20 исправлений ошибок, а также множество улучшений; наиболее заметной особенностью является новая подключаемая архитектура индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. Вслед за недавним выпуском Nutch 2.2 разбор файла Robots.txt теперь делегирован Crawler-Commons. Обновления ключевых библиотек были внесены в Apache Hadoop 1.2.0 и Apache Tika 1.3. | |
2.2.1 | 2013-07-02 | Этот выпуск включает обновления библиотек до Apache Hadoop 1.2.0 и Apache Tika 1.3. В основном это исправление ошибки NUTCH-1591 — неправильное преобразование ByteBuffer в String. | |
1.8 | 2014-03-17 | Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок, а также 18 улучшений. | |
2.3 | 2015-01-22 | Версия Nutch 2.3 теперь поставляется в комплекте с автономным веб-приложением на базе Apache Wicket. Серверная часть SQL для Gora устарела. [4] | |
1.10 | 2015-05-06 | Этот выпуск включает обновления библиотеки до Tika 1.6, а также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых функций. [5] | |
1.11 | 2015-12-07 | Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, а также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций. [6] | |
2.3.1 | 2016-01-21 | Этот выпуск исправлений ошибок содержит около 40 исправленных проблем. | |
1.12 | 2016-06-18 | ||
1.13 | 2017-04-02 | ||
1.14 | 2017-12-23 | ||
1.15 | 2018-08-09 | ||
1.16 | 2019-10-11 | ||
2.4 | 2019-10-11 | Ожидается, что это будет последний выпуск серии 2.X, поскольку «ни один коммиттер активно над ним не работает». [7] | |
1.17 | 2020-07-02 | ||
1.18 | 2021-01-24 |
Масштабируемость
[ редактировать ]IBM Research изучила производительность [8] компании Nutch/Lucene в рамках проекта Commercial Scale Out (CSO). [9] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch/Lucene, может достичь уровня производительности на кластере блейд-серверов, недостижимого ни на одном масштабируемом компьютере, таком как POWER5 .
Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [10]
Связанные проекты
[ редактировать ]- Hadoop — платформа Java, поддерживающая распределенные приложения, работающие в больших кластерах.
Поисковые системы, созданные с помощью Nutch
[ редактировать ]- Common Crawl – общедоступное сканирование по всему Интернету, использование Nutch началось в 2014 году. [3]
- Creative Commons Search – реализация Nutch, использовавшаяся в период 2004–2006 гг. [11] [12] [13]
- DiscoverEd — прототип поиска открытых образовательных ресурсов, разработанный Creative Commons.
- Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивов и технически интересного контента.
- mozDex (неактивный)
- Wikia Search - запущен в 2008 г., закрыт в 2009 г. [14] [15]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б «Apache Nutch™ — Загрузки» . Проверено 11 июня 2024 г.
- ^ "Апач Натч -" . www.nutch.apache.org .
- ^ Перейти обратно: а б «Переход Common Crawl к Натчу – Common Crawl – Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 г.
- ^ «Выпуск Натча 2.3» . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 года . Проверено 18 января 2016 г.
- ^ «Примечания к выпуску Nutch 1.10» . АФС ДЖИРА . Фонд программного обеспечения Apache. 6 мая 2015 года . Проверено 18 января 2016 г.
- ^ «Примечания к выпуску Nutch 1.11» . АФС ДЖИРА . Фонд программного обеспечения Apache. 7 декабря 2015 года . Проверено 18 января 2016 г.
- ^ «Выпуск Nutch 2.4» . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 года . Проверено 20 мая 2022 г.
- ^ «Масштабируемость поисковой системы Nutch» (PDF) .
- ^ «Подготовка и установка базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинала (PDF) 3 декабря 2008 г.
- ^ Веб-сканер Sapphire — Статистика сканирования . Boston.lti.cs.cmu.edu (01 октября 2008 г.). Проверено 21 июля 2013 г.
- ^ «Наш обновленный поиск» . Креативное сообщество. 3 сентября 2004 г.
- ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Креативное сообщество. 2004-11-22. Архивировано из оригинала 7 января 2010 г.
- ^ «Новый интерфейс поиска CC» . Креативное сообщество. 2 августа 2006 г.
- ^ «Где я могу получить исходный код Wikia Search?» . Архивировано из оригинала 4 ноября 2011 г. Проверено 12 февраля 2010 г.
- ^ «Обновление Wikia – делаем больше того, что работает | Джимми Уэйлс» . 31 марта 2009 г.
Библиография
[ редактировать ]- Шоберг, Дж. (26 октября 2006 г.). Создание поисковых приложений с помощью Lucene и Nutch (1-е изд.). Апресс . п. 350. ИСБН 978-1-59059-687-6 . Архивировано из оригинала 2 декабря 2009 года . Проверено 15 августа 2009 г.