Морковь2
![]() Результаты веб-поиска, кластеризованные с помощью Carrot 2 Алгоритм Lingo. | |
Разработчик(и) | Поиск моркови |
---|---|
Стабильная версия | 4.5.2 / 6 ноября 2023 г. |
Репозиторий | github |
Написано в | Ява |
Операционная система | Кросс-платформенный |
Тип | Интеллектуальный анализ текста и кластерный анализ |
Лицензия | Лицензия BSD |
Веб-сайт | поиск |
Морковь² [1] — это механизм кластеризации результатов поиска с открытым исходным кодом. [2] Он может автоматически группировать небольшие коллекции документов, например, результаты поиска или рефераты документов, в тематические категории. Carrot² написан на Java и распространяется под лицензией BSD .
История [ править ]
Первоначальная версия Carrot² была реализована в 2001 году Давидом Вайсом в рамках его магистерской диссертации для проверки применимости алгоритма кластеризации STC для кластеризации результатов поиска на польском языке. [3] В 2003 году был добавлен ряд других алгоритмов кластеризации результатов поиска, в том числе Lingo, [4] новый алгоритм кластеризации текста, разработанный специально для кластеризации результатов поиска. Хотя исходный код Carrot² был доступен с 2002 года, официально версия 1.0 была выпущена только в 2006 году. В том же году была выпущена версия 2.0 с улучшенным пользовательским интерфейсом и расширенным набором инструментов. В 2009 году версия 3.0 принесла значительные улучшения качества кластеризации, упрощенный API и новое приложение с графическим интерфейсом для настройки кластеризации на основе Eclipse Rich Client Platform . В 2020 году версия 4.0.0 принесла дальнейшее упрощение API, очистку кода и удаление рабочего стола Workbench. Версия 4.1.0 возвращает Workbench в виде веб-приложения.
Выпускать | Дата выпуска | Основные изменения и новые функции |
---|---|---|
4.6.0 | май 2024 г. | Обновления зависимостей, улучшения системы сборки. |
4.5.2 | ноябрь 2023 г. | Обновления зависимостей, улучшения системы сборки. |
4.5.1 | май 2023 г. | Обновления зависимостей, исправления мелких ошибок. |
4.5.0 | ноябрь 2022 г. | Обновления зависимостей, исправления ошибок. |
4.4.3 | август 2022 г. | Обновления зависимостей, исправления ошибок в STC и связанной инфраструктуре. |
4.4.0, 4.4.1, 4.4.2 | декабрь 2021 г. | Исправления безопасности и обновления зависимостей. |
4.3.0 | июль 2021 г. | Незначительные изменения API и исправления ошибок. Улучшения в рабочей среде (интерфейс поиска DCS). |
4.2.0, 4.2.1 | март 2021 г. | Улучшения в словарях JSON и рабочей среде. Исправления ошибок. |
4.1.0 | январь 2021 г. | Веб-версия Workbench. Словари JSON и новые возможности фильтрации. Полировка API. |
4.0.0 | июль 2020 г. | Изменения и упрощения API во всей кодовой базе. Удаление устаревших технологий и инструментов. Новая документация и очистка кода. |
3.16.2 | сентябрь 2019 г. | Обновите сторонние библиотеки (проблемы, связанные с безопасностью). |
3.16.1 | январь 2019 г. | Обновление JS визуализаций. Миграция Microsoft Bing API v5 на v7. |
3.16.0 | май 2018 г. | Исправлены проблемы совместимости Java 9+. Совместимость Workbench с дистрибутивами Ubuntu. Обновления источников документов и удаление нефункциональных источников документов. |
3.15.1 | Март 2017 г. | Исправление для версии .NET, которое могло привести к непроверяемым исключениям ввода-вывода в недоступном текущем рабочем каталоге. |
3.15.0 | Октябрь 2016 г. | Переход API Bing V2 на V5. Обновление сторонних зависимостей. Внутренняя косметика. |
3.14.0 | Сентябрь 2016 г. | Улучшения рабочей среды (поддержка высокого разрешения, улучшения MacOSX, исправления ошибок). PubMed переходит на HTTPs. Другие мелкие улучшения. |
3.13.0 | июль 2016 г. | Исправлены ошибки API сервлетов, исправлены ошибки Workbench, удален источник документов Google, исправлены коды языков для нескольких языков. |
3.12.0 | февраль 2016 г. | Обновление словаря польского языка Morfologik, инфраструктурные изменения и корректировки, позволяющие C2 работать в соответствии с более строгими политиками менеджера безопасности. |
3.11.0 | Октябрь 2015 г. | Обновление Apache Lucene, исправления ошибок и набор изменений из второстепенных версий 3.10.x. |
3.10.4 | Октябрь 2015 г. | Обновление библиотеки Морфологик. |
3.10.3 | август 2015 г. | Перепакован Google Guava, чтобы избежать конфликтов в Solr. |
3.10.2 | июль 2015 г. | Незначительные исправления в Workbench (отображение кластера на арабском языке). |
3.10.1 | май 2015 г. | Визуализация Aduna исключена из дистрибутива MacOS. Небольшие исправления в Верстаке. |
3.10.0 | май 2015 г. | Обновления визуализации. Исправления ошибок. Обновления зависимостей библиотеки. |
3.9.4 | ноябрь 2014 г. | Обновление FoamTree. Новые атрибуты для многоязычной кластеризации. Исправления визуализации. |
3.9.3 | июль 2014 г. | Обновление FoamTree. Исправления и настройки инфраструктуры (jflex, URL-адреса репозитория sonatype). |
3.9.2 | апрель 2014 г. | Исправлена ошибка в FoamTree HTML5. |
3.9.1 | апрель 2014 г. | Исправление ошибок, обновление визуализаций HTML5. |
3.9.0 | февраль 2014 г. | Визуализации HTML5 заменяют Flash, обновление зависимостей библиотеки, исправления ошибок. |
3.8.1 | Октябрь 2013 г. | Исправлены ошибки, небольшие изменения в функционале. |
3.8.0 | июль 2013 г. | Исправления ошибок, обновления зависимостей библиотеки. |
3.7.1 | май 2013 г. | Исправлены мелкие ошибки (выпуск обслуживания 3.7.0). |
3.7.0 | апрель 2013 г. | Изменения в инфраструктуре ядра (строковые идентификаторы), улучшенная интеграция Solr с XSLT, настройки Workbench для более крупных входных данных, обновленные зависимости. |
3.6.3 | апрель 2013 г. | Незначительные исправления ошибок и улучшения: настройка адаптера Solr XSLT, настройки Workbench для больших входных данных, обновленные зависимости. |
3.6.2 | ноябрь 2012 г. | Мелкие исправления ошибок и улучшения. |
3.6.1 | август 2012 г. | Исправления мелких ошибок. |
3.6.0 | июнь 2012 г. | Инфраструктурные изменения, рефакторинг и исправления ошибок. |
3.5.3 | декабрь 2011 г. | Обновления инфраструктуры в результате миграции на GitHub. Обновление рабочей среды до SWT 3.7.1. |
3.5.2 | Сентябрь 2011 г. | Поддержка Ajax на сервере кластеризации документов, улучшен источник документов Bing, улучшения Workbench, исправлены ошибки. |
3.5.1 | июнь 2011 г. | Исправлены ошибки, улучшена интеграция визуализации, удалена поддержка Yahoo BOSS API. |
3.5.0 | май 2011 г. | Визуализация FoamTree, кластеризация k-средних пополам, улучшения управления ресурсами |
3.4.3 | март 2011 г. | Распространение в Maven. центральный репозиторий |
3.4.2 | октябрь 2010 г. | Исправления ошибок |
3.4.1 | сентябрь 2010 г. | Пакет совместимости Solr 1.4.x, исправления ошибок |
3.4.0 | август 2010 г. | .NET API для вызова кластеризации Carrot² |
3.3.0 | апрель 2010 г. | Значительные улучшения масштабируемости алгоритма кластеризации STC. |
3.2.0 | март 2010 г. | Экспериментальная поддержка кластеризации арабского и корейского контента, приложение командной строки для кластеризации в пакетном режиме, LGPL. удалены зависимости под лицензией |
3.1.0 | сентябрь 2009 г. | Экспериментальная поддержка кластеризации китайского контента, плагин кластеризации результатов поиска для Apache Solr |
3.1.0 | сентябрь 2009 г. | Экспериментальная поддержка кластеризации китайского контента, плагин кластеризации результатов поиска для Apache Solr |
3.0.1 | март 2009 г. | Инструмент кластеризации документов доступен для Mac OS X |
3.0.0 | январь 2009 г. | Добавлена рабочая среда Document Clustering Workbench для удобного экспериментирования с кластеризацией Carrot², радикально упрощен Java API, повторно реализовано веб-приложение кластеризации результатов поиска, руководство пользователя. [5] доступный |
2.1.0 | август 2007 г. | Добавлен сервер кластеризации документов для представления кластеризации как REST. службы |
2.0.0 | сентябрь 2006 г. | Новый пользовательский интерфейс веб-приложения кластеризации результатов поиска. |
1.0.0 | январь 2006 г. | Первый официальный релиз, двоичные файлы доступны на SourceForge. |
0.0.0 | с 2002 года | Инкубационные выпуски, исходный код доступен на SourceForge. |
Архитектура [ править ]
Carrot² 4.0 — это преимущественно библиотека программирования Java с общедоступными API-интерфейсами для управления ресурсами конкретного языка, настройки и выполнения алгоритмов. Компонент HTTP/REST (сервер кластеризации документов) предусмотрен для взаимодействия с другими языками.
Алгоритмы кластеризации [ править ]
Carrot² предлагает несколько алгоритмов кластеризации документов, в которых особое внимание уделяется качеству меток кластера:
- жаргон: [4] алгоритм кластеризации, основанный на разложении по сингулярным значениям
- СТК: [6] суффиксного дерева Кластеризация
Спин-оффы [ править ]
Поиск моркови [ править ]
Морковный поиск, [7] коммерческое продолжение проекта Carrot², работает над дальнейшим развитием Carrot², предлагает алгоритм кластеризации текста в реальном времени. [8] совместимость с инфраструктурой Carrot², а также консультационные услуги по интеллектуальному анализу текста на основе открытого и проприетарного программного обеспечения.
Лаборатории моркови поиска
Carrot² положил начало ряду независимых проектов с открытым исходным кодом, выпущенных под эгидой Carrot Search Labs. [9] Следующие проекты опубликованы или были опубликованы в рамках этой инициативы:
- Рандомизированное тестирование: средство запуска тестов JUnit со встроенными утилитами, позволяющими выполнять каждый тест немного по-разному (рандомизированным). Также задача ANT для запуска тестов JUnit на параллельных JVM с балансировкой нагрузки и другими наворотами.
- Высокопроизводительные коллекции примитивов для Java (HPPC): списки, наборы, карты и другие коллекции примитивов для Java, настроенные на максимальную производительность и эффективность использования памяти.
- SmartSprites: полностью автоматическое обслуживание CSS-спрайтов; никакого утомительного копирования и вставки в CSS при добавлении или изменении спрайтовых изображений.
Прекращенные проекты:
- jSuffixArrays: несколько реализаций Java структуры данных Suffix Array с различными характеристиками производительности и памяти.
- JUnitBenchmarks: набор расширений для превращения тестов JUnit4 в микротесты производительности с мониторингом GC, измерением временных отклонений и простой графической визуализацией.
См. также [ править ]
Ссылки [ править ]
- ^ Проект Carrot2, Станислав Осински, Дэвид Вайс. «Carrot2 — механизм кластеризации результатов поиска с открытым исходным кодом» .
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Морковь 2 демонстрация кластеризации результатов поиска
- ^ Дэвид Вайс: Интерфейс кластеризации для результатов веб-поиска на польском и английском языках. Магистерская диссертация. Познаньский технологический университет, Познань, Польша, 2001 г. Скачать PDF
- ^ Jump up to: Перейти обратно: а б Станислав Осинский, Давид Вайс: концептуальный алгоритм кластеризации результатов поиска . IEEE Intelligent Systems, май/июнь, 3 (том 20), 2005 г., стр. 48–54.
- ^ «Морковь2» .
- ^ Орен Замир, Орен Эциони : Кластеризация веб-документов: технико-экономическое обоснование , Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (1998), стр. 46–54.
- ^ Carrot Search sc «Carrot Search: программное обеспечение для кластеризации и визуализации документов» .
- ^ Поиск моркови sc «Поиск моркови: Lingo3G: механизм кластеризации текстовых документов» .
- ^ Поиск моркови sc «Лаборатория поиска моркови» .