Jump to content

Апач Натч

(Перенаправлено с Натча )
Апач Натч
Оригинальный автор(ы) Даг Каттинг , Майк Кафарелла
Разработчик(и) Фонд программного обеспечения Apache
Стабильная версия
1.х 20.01.24 апреля 2024 г .; 3 месяца назад ( 24.04.2024 ) [1]
2.х 2.4 / 11 октября 2019 г .; 4 года назад ( 11.10.2019 ) [1]
Репозиторий Репозиторий Nutch на Github
Написано в Ява
Операционная система Кросс-платформенный
Тип Веб-сканер
Лицензия Лицензия Апач 2.0
Веб-сайт орех .apache .org

Apache Nutch — это расширяемый и масштабируемый с открытым исходным кодом проект программного обеспечения для веб-сканирования .

Талисман робота-нутча

Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа медиа-типов, извлечения данных, выполнения запросов и кластеризации.

Сборщик («робот» или « веб-сканер ») был написан с нуля специально для этого проекта.

Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .

В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке задач сканирования и индексирования на нескольких машинах, проект Nutch также реализовал средство MapReduce и распределенную файловую систему . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .

В январе 2005 года Nutch присоединился к инкубатору Apache, из которого в июне того же года он стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [2]

В феврале 2014 года проект Common Crawl принял Nutch для открытого широкомасштабного сканирования веб-страниц. [3]

Когда-то целью проекта Nutch было создание глобальной крупномасштабной поисковой системы в Интернете, но сейчас это уже не так. [ нужна ссылка ]

История выпусков

[ редактировать ]
1.х

Ветвь

2.х

Ветвь

Дата выпуска Описание
1.1 2010-06-06 Этот выпуск включает в себя несколько крупных обновлений существующих библиотек (Hadoop, Solr, Tika и т. д.), от которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, Fetcher2).
1.2 2010-10-24 Этот выпуск включает в себя несколько улучшений (добавление parse-html в качестве анализатора, настраиваемое для каждого поля), новые функции (включая добавление информации о времени во все классы инструментов и реализацию тайм-аутов анализатора), а также исправления ошибок (исправление NPE). в распределенном поиске, исправление проблем с форматированием XML для полей документа).
1.3 2011-06-07 Этот выпуск включает в себя несколько улучшений (улучшенная поддержка анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего анализа, улучшенная идентификация языка и на порядок меньший архив исходного кода — всего около 2 МБ).
1.4 2011-11-26 Этот выпуск включает в себя несколько улучшений, в том числе разрешение парсерам объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди Fetcher, повышение скорости Fetcher, более тесную интеграцию Tika и поддержку HTTP-аутентификации в индексации Solr.
1.5 2012-06-07 Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения элементов LinkRank и WebGraph, а также ряд новых плагинов, охватывающих черные списки, фильтрацию и анализ, и это лишь некоторые из них.
2.0 2012-07-07 Этот выпуск предлагает пользователям версию, ориентированную на крупномасштабное сканирование, основанную на абстракции хранения (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные высокопроизводительные хранилища данных. профильные хранилища SQL.
1.5.1 2012-07-10 Этот выпуск представляет собой техническое обслуживание популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе.
2.1 2012-10-05 Этот выпуск по-прежнему предоставляет пользователям Nutch упрощенную сборку дистрибутива Nutch на базе разработки 2.x, популярность которой среди сообщества растет. Помимо устранения примерно 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления для различных зависимостей Gora и введение возможности построения индексов в эластичном поиске.
1.6 2012-12-06 Этот выпуск включает в себя более 20 исправлений ошибок, столько же улучшений, а также новые функции, включая новый HostNormalizer, возможность динамической установки fetchInterval по MIME-типу и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление роботов. документы noIndex. Другие заметные улучшения включают обновление ключевых зависимостей до Tika 1.2 и Automaton 1.11-8.
2.2 2013-06-08 Этот выпуск включает в себя более 30 исправлений ошибок и более 25 улучшений, представляющих собой третий выпуск набирающей популярность серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного анализа robots.txt, а также обновления библиотеки до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8.
1.7 2013-06-24 Этот выпуск включает в себя более 20 исправлений ошибок, а также множество улучшений; наиболее заметной особенностью является новая подключаемая архитектура индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. Вслед за недавним выпуском Nutch 2.2 разбор файла Robots.txt теперь делегирован Crawler-Commons. Обновления ключевых библиотек были внесены в Apache Hadoop 1.2.0 и Apache Tika 1.3.
2.2.1 2013-07-02 Этот выпуск включает обновления библиотек до Apache Hadoop 1.2.0 и Apache Tika 1.3. В основном это исправление ошибки NUTCH-1591 — неправильное преобразование ByteBuffer в String.
1.8 2014-03-17 Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок, а также 18 улучшений.
2.3 2015-01-22 Версия Nutch 2.3 теперь поставляется в комплекте с автономным веб-приложением на базе Apache Wicket. Серверная часть SQL для Gora устарела. [4]
1.10 2015-05-06 Этот выпуск включает обновления библиотеки до Tika 1.6, а также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых функций. [5]
1.11 2015-12-07 Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, а также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций. [6]
2.3.1 2016-01-21 Этот выпуск исправлений ошибок содержит около 40 исправленных проблем.
1.12 2016-06-18
1.13 2017-04-02
1.14 2017-12-23
1.15 2018-08-09
1.16 2019-10-11
2.4 2019-10-11 Ожидается, что это будет последний выпуск серии 2.X, поскольку «ни один коммиттер активно над ним не работает». [7]
1.17 2020-07-02
1.18 2021-01-24

Масштабируемость

[ редактировать ]

IBM Research изучила производительность [8] компании Nutch/Lucene в рамках проекта Commercial Scale Out (CSO). [9] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch/Lucene, может достичь уровня производительности на кластере блейд-серверов, недостижимого ни на одном масштабируемом компьютере, таком как POWER5 .

Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [10]

[ редактировать ]
  • Hadoop — платформа Java, поддерживающая распределенные приложения, работающие в больших кластерах.

Поисковые системы, созданные с помощью Nutch

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б «Apache Nutch™ — Загрузки» . Проверено 11 июня 2024 г.
  2. ^ "Апач Натч -" . www.nutch.apache.org .
  3. ^ Перейти обратно: а б «Переход Common Crawl к Натчу – Common Crawl – Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 г.
  4. ^ «Выпуск Натча 2.3» . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 года . Проверено 18 января 2016 г.
  5. ^ «Примечания к выпуску Nutch 1.10» . АФС ДЖИРА . Фонд программного обеспечения Apache. 6 мая 2015 года . Проверено 18 января 2016 г.
  6. ^ «Примечания к выпуску Nutch 1.11» . АФС ДЖИРА . Фонд программного обеспечения Apache. 7 декабря 2015 года . Проверено 18 января 2016 г.
  7. ^ «Выпуск Nutch 2.4» . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 года . Проверено 20 мая 2022 г.
  8. ^ «Масштабируемость поисковой системы Nutch» (PDF) .
  9. ^ «Подготовка и установка базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинала (PDF) 3 декабря 2008 г.
  10. ^ Веб-сканер Sapphire — Статистика сканирования . Boston.lti.cs.cmu.edu (01 октября 2008 г.). Проверено 21 июля 2013 г.
  11. ^ «Наш обновленный поиск» . Креативное сообщество. 3 сентября 2004 г.
  12. ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Креативное сообщество. 2004-11-22. Архивировано из оригинала 7 января 2010 г.
  13. ^ «Новый интерфейс поиска CC» . Креативное сообщество. 2 августа 2006 г.
  14. ^ «Где я могу получить исходный код Wikia Search?» . Архивировано из оригинала 4 ноября 2011 г. Проверено 12 февраля 2010 г.
  15. ^ «Обновление Wikia – делаем больше того, что работает | Джимми Уэйлс» . 31 марта 2009 г.

Библиография

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e2a699186a2097dfb79b4fb69108208e__1718139960
URL1:https://arc.ask3.ru/arc/aa/e2/8e/e2a699186a2097dfb79b4fb69108208e.html
Заголовок, (Title) документа по адресу, URL1:
Apache Nutch - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)