Апач Лусене
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2012 г. ) |
![]() | |
Разработчик(и) | Фонд программного обеспечения Apache |
---|---|
Первоначальный выпуск | 1999 год |
Стабильная версия | 9.11.0 / 6 июня 2024 г [1] |
Репозиторий | |
Написано в | Ява |
Операционная система | Кросс-платформенный |
Тип | Поиск и индексация |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | люцена |
Apache Lucene — это с открытым исходным кодом поисковой системы бесплатная библиотека программного обеспечения , первоначально написанная на Java Дугом Каттингом . Он поддерживается Apache Software Foundation и распространяется под лицензией Apache Software License . Lucene широко используется в качестве стандартной основы для приложений поиска продукции. [2] [3] [4]
Lucene был портирован на другие языки программирования, включая Object Pascal , Perl , C# , C++ , Python , Ruby и PHP . [5]
История [ править ]
Дуг Каттинг первоначально написал Lucene в 1999 году. [6] Lucene была его пятой поисковой системой. Ранее он написал два, работая в Xerox PARC , один — в Apple , а четвертый — в Excite . [7] Первоначально он был доступен для загрузки на веб-сайте SourceForge . Apache Software Foundation В сентябре 2001 года он присоединился к семейству Java-продуктов с открытым исходным кодом Jakarta и в феврале 2005 года стал собственным проектом Apache верхнего уровня. Имя Lucene - это второе имя жены Дуга Каттинга и имя ее бабушки по материнской линии. [8]
Lucene ранее включала в себя ряд подпроектов, таких как Lucene.NET, Mahout , Tika и Nutch . Эти три теперь являются независимыми проектами высшего уровня.
В марте 2010 года поисковый сервер Apache Solr стал подпроектом Lucene, объединив сообщества разработчиков.
Версия 4.0 была выпущена 12 октября 2012 г. [9]
В марте 2021 года Lucene сменила логотип, и Apache Solr снова стал проектом Apache высшего уровня, независимым от Lucene.
Особенности и общее использование [ править ]
Хотя Lucene подходит для любого приложения, требующего полнотекстового индексирования и поиска, он признан за свою полезность при реализации поисковых систем Интернета и локального поиска по одному сайту. [10] [11]
Lucene включает функцию выполнения нечеткого поиска на основе расстояния редактирования . [12]
Lucene также использовался для реализации рекомендательных систем. [13] Например, класс MoreLikeThis в Lucene может генерировать рекомендации для похожих документов. При сравнении подхода «MoreLikeThis», основанного на векторном сходстве терминов, с показателями сходства документов на основе цитирования, такими как анализ близости совместного цитирования и совместного цитирования, подход Lucene преуспел в рекомендации документов с очень похожими структурными характеристиками и более узкой родственностью. . [14] Напротив, меры сходства документов на основе цитирования, как правило, больше подходят для рекомендации более широко связанных документов. [14] это означает, что подходы, основанные на цитировании, могут быть более подходящими для создания случайных рекомендаций, если рекомендуемые документы содержат цитаты в тексте.
Проекты на основе Lucene [ править ]
Lucene сама по себе представляет собой просто библиотеку индексирования и поиска и не содержит сканирования HTML и анализа функций . Однако несколько проектов расширяют возможности Lucene:
- Apache Nutch – обеспечивает сканирование веб-страниц и анализ HTML. [ нужна ссылка ]
- Apache Solr – корпоративный поисковый сервер
- CrateDB - распределенная база данных SQL с открытым исходным кодом, построенная на Lucene. [15]
- DocFetcher – многоплатформенное настольное приложение для поиска. [ нужна ссылка ]
- Elasticsearch — корпоративный поисковый сервер, выпущенный в 2010 году. [16] [17]
- Kinosearch — поисковая система, написанная на Perl и C. [18] и свободный порт Люсене. [19] Программное обеспечение Socialtext wiki использует эту поисковую систему, [18] тоже и вики MojoMojo . [20] Он также используется в базе данных метаболома человека (HMDB). [21] и База данных токсинов и токсинов-мишеней (T3DB). [22]
- MongoDB Atlas Search — облачное корпоративное поисковое приложение на основе MongoDB и Apache Lucene.
- OpenSearch - корпоративный поисковый сервер с открытым исходным кодом, основанный на ответвлении Elasticsearch 7.
- Swiftype — стартап корпоративного поиска на основе Lucene
См. также [ править ]
Ссылки [ править ]
- ^ «Добро пожаловать в Apache Lucene» . Раздел новостей Lucene™. Архивировано из оригинала 12 февраля 2021 года . Проверено 12 февраля 2020 г.
- ^ Камфуис, Крис; де Врис, Арьен П.; Бойцов, Леонид; Лин, Джимми (2020), «Какой BM25 вы имеете в виду? Крупномасштабное исследование воспроизводимости вариантов подсчета очков», в книге Хосе, Джоемон М.; Йылмаз, Эмине; Магальяйнс, Жуан; Кастельс, Пабло (ред.), «Достижения в области информационного поиска» , конспекты лекций по информатике, том. 12036, Чам: Springer International Publishing, стр. 28–34, номер doi : 10.1007/978-3-030-45442-5_4 , ISBN. 978-3-030-45441-8 , ПМК 7148026
- ^ Гранд, Адриан; Мьюир, Роберт; Ференци, Джим; Лин, Джимми (2020), «От MAXSCORE до Block-Max Wand: история о том, как Lucene значительно улучшила производительность оценки запросов», в Хосе, Джоемон М.; Йылмаз, Эмине; Магальяйнс, Жуан; Кастельс, Пабло (ред.), «Достижения в области информационного поиска» , конспекты лекций по информатике, том. 12036, Чам: Springer International Publishing, стр. 20–27, номер документа : 10.1007/978-3-030-45442-5_3 , ISBN. 978-3-030-45441-8 , ПМК 7148045
- ^ Аззопарди, Лейф; Мошфеги, Яшар; Халви, Мартин; Алхавалде, Рами С.; Балог, Кристиан; ДиБуччио, Эмануэле; Чеккарелли, Диего; Фернандес-Луна, Хуан М.; Халл, Чарли; Мэнникс, Джейк; Палчоудхури, Саупарна (14 февраля 2017 г.). «Lucene4IR: Разработка ресурсов для оценки информационного поиска с использованием Lucene» . Форум ACM SIGIR . 50 (2): 58–75. дои : 10.1145/3053408.3053421 . ISSN 0163-5840 . S2CID 212416159 .
- ^ «LuceneImplementations» . apache.org . Архивировано из оригинала 6 октября 2015 года . Проверено 23 сентября 2015 г.
- ^ Анализатор ключевых слов «Лучший поиск с помощью Apache Lucene и Solr» (PDF) . 19 ноября 2007 г. Архивировано из оригинала (PDF) 31 января 2012 г.
- ^ Каттинг, Дуг (07.06.2019). «Я написал пару поисковых систем в Xerox PARC, затем V-Twin в Apple, затем переписал поиск Excite, затем Lucene. Итак, Lucene можно считать V-Twin 3.0? Почти 25 лет спустя V-Twin все еще жив включен как Mac OS X Search Kit!" . @cutting . Проверено 19 июня 2019 г.
- ^ Баркер, Дин (2016). Управление веб-контентом . О'Рейли. п. 233. ИСБН 978-1491908105 .
- ^ «Apache Lucene — Добро пожаловать в Apache Lucene» . apache.org . Архивировано из оригинала 4 февраля 2016 года . Проверено 4 февраля 2016 г.
- ^ МакКэндлесс, Майкл; Хэтчер, Эрик; Господнетич, Отис (2010). Lucene в действии, второе издание . Мэннинг. п. 8 . ISBN 978-1933988177 .
- ^ «Система семантического хранения GNU/Linux» (PDF) . glscube.org . Архивировано из оригинала (PDF) 1 июня 2010 г.
- ^ «Apache Lucene — синтаксис анализатора запросов» . lucene.apache.org . Архивировано из оригинала 2 мая 2017 г.
- ^ Дж. Бил, С. Лангер и Б. Гипп, «Архитектура и наборы данных системы рекомендаций по исследовательским работам Docear», в материалах 3-го международного семинара по горным научным публикациям (WOSP 2014) на совместной конференции ACM / IEEE по Цифровые библиотеки (JCDL 2014), Лондон, Великобритания, 2014 г.
- ^ Jump up to: Перейти обратно: а б М. Шварцер, М. Шуботц, Н. Мёшке, К. Брайтингер, В. Маркл и Б. Гипп, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf «Оценка Рекомендации на основе ссылок для Википедии» в материалах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам (JCDL), Нью-Йорк, штат Нью-Йорк, США, 2016 г., стр. 191–200.
- ^ Уэйнер, Питер. «11 передовых баз данных, которые стоит изучить прямо сейчас» . ИнфоМир. Архивировано из оригинала 21 сентября 2015 года . Проверено 21 сентября 2015 г.
- ^ «Elasticsearch: RESTful, распределенный поиск и аналитика — Elastic» . elastic.co . Архивировано из оригинала 8 октября 2015 года . Проверено 23 сентября 2015 г.
- ^ «Будущее Compass и Elasticsearch» . чувак терпит . Архивировано из оригинала 15 октября 2015 г. Проверено 14 октября 2015 г.
- ^ Jump up to: Перейти обратно: а б Нативидад, Анжела. «Поиск обновлений в социальных сетях, Goes Kino» . Провод CMS. Архивировано из оригинала 29 сентября 2012 г. Проверено 31 мая 2011 г.
- ^ Марвин Хамфри. «КиноПоиск — Библиотека поисковых систем. — Metacpan.org» . p3rl.org . Проверено 23 сентября 2015 г.
- ^ Димент, Кирен; Траут, Мэтт С. (2009). «Кулинарная книга катализатора». Полное руководство по катализатору . Апресс . п. 280 . ISBN 978-1-4302-2365-8 .
- ^ Уишарт, Д.С. ; и др. (январь 2009 г.). «HMDB: база знаний о метаболоме человека» . Нуклеиновые кислоты Рез. 37 (Проблема с базой данных): D603–10. дои : 10.1093/нар/gkn810 . ПМЦ 2686599 . ПМИД 18953024 .
- ^ Лим, Эмилия; Пон, Эллисон; Джумбу, Янник; Нокс, Крейг; Шривастава, Савита; Го, Ань Чи; Невё, Ванесса; Уишарт, Дэвид С. (январь 2010 г.). «T3DB: подробно аннотированная база данных распространенных токсинов и их целей» . Нуклеиновые кислоты Рез . 38 (Проблема с базой данных): D781–6. дои : 10.1093/нар/gkp934 . ПМЦ 2808899 . ПМИД 19897546 .
Библиография [ править ]
- Господнетик, Отис; Эрик Хэтчер; Майкл МакКэндлесс (28 июня 2009 г.). Lucene в действии (2-е изд.). Публикации Мэннинга . ISBN 978-1-9339-8817-7 .
- Господнетик, Отис; Эрик Хэтчер (1 декабря 2004 г.). Lucene в действии (1-е изд.). Публикации Мэннинга . ISBN 978-1-9323-9428-3 .
Внешние ссылки [ править ]
- Проекты Apache Software Foundation
- Бесплатное программное обеспечение для поисковых систем
- Библиотеки Java (язык программирования)
- Библиотеки C Sharp
- Кроссплатформенное программное обеспечение
- Программное обеспечение, использующее лицензию Apache
- Программное обеспечение поисковой системы
- Программное обеспечение Паскаль (язык программирования)
- программное обеспечение 1999 года