Jump to content

Морковь2

Морковь 2
Разработчик(и) Поиск моркови
Стабильная версия
4.5.2 / 6 ноября 2023 г. ( 2023-11-06 )
Репозиторий github /морковь2 /морковь2 /
Написано в Ява
Операционная система Кросс-платформенный
Тип Интеллектуальный анализ текста и кластерный анализ
Лицензия Лицензия BSD
Веб-сайт поиск .carrot2 .org

Морковь² [1] — это механизм кластеризации результатов поиска с открытым исходным кодом. [2] Он может автоматически группировать небольшие коллекции документов, например, результаты поиска или рефераты документов, в тематические категории. Carrot² написан на Java и распространяется под лицензией BSD .

История [ править ]

Первоначальная версия Carrot² была реализована в 2001 году Давидом Вайсом в рамках его магистерской диссертации для проверки применимости алгоритма кластеризации STC для кластеризации результатов поиска на польском языке. [3] В 2003 году был добавлен ряд других алгоритмов кластеризации результатов поиска, в том числе Lingo, [4] новый алгоритм кластеризации текста, разработанный специально для кластеризации результатов поиска. Хотя исходный код Carrot² был доступен с 2002 года, официально версия 1.0 была выпущена только в 2006 году. В том же году была выпущена версия 2.0 с улучшенным пользовательским интерфейсом и расширенным набором инструментов. В 2009 году версия 3.0 принесла значительные улучшения качества кластеризации, упрощенный API и новое приложение с графическим интерфейсом для настройки кластеризации на основе Eclipse Rich Client Platform . В 2020 году версия 4.0.0 принесла дальнейшее упрощение API, очистку кода и удаление рабочего стола Workbench. Версия 4.1.0 возвращает Workbench в виде веб-приложения.

Релизы Carrot²
Выпускать Дата выпуска Основные изменения и новые функции
4.6.0 май 2024 г. Обновления зависимостей, улучшения системы сборки.
4.5.2 ноябрь 2023 г. Обновления зависимостей, улучшения системы сборки.
4.5.1 май 2023 г. Обновления зависимостей, исправления мелких ошибок.
4.5.0 ноябрь 2022 г. Обновления зависимостей, исправления ошибок.
4.4.3 август 2022 г. Обновления зависимостей, исправления ошибок в STC и связанной инфраструктуре.
4.4.0, 4.4.1, 4.4.2 декабрь 2021 г. Исправления безопасности и обновления зависимостей.
4.3.0 июль 2021 г. Незначительные изменения API и исправления ошибок. Улучшения в рабочей среде (интерфейс поиска DCS).
4.2.0, 4.2.1 март 2021 г. Улучшения в словарях JSON и рабочей среде. Исправления ошибок.
4.1.0 январь 2021 г. Веб-версия Workbench. Словари JSON и новые возможности фильтрации. Полировка API.
4.0.0 июль 2020 г. Изменения и упрощения API во всей кодовой базе. Удаление устаревших технологий и инструментов. Новая документация и очистка кода.
3.16.2 сентябрь 2019 г. Обновите сторонние библиотеки (проблемы, связанные с безопасностью).
3.16.1 январь 2019 г. Обновление JS визуализаций. Миграция Microsoft Bing API v5 на v7.
3.16.0 май 2018 г. Исправлены проблемы совместимости Java 9+. Совместимость Workbench с дистрибутивами Ubuntu. Обновления источников документов и удаление нефункциональных источников документов.
3.15.1 Март 2017 г. Исправление для версии .NET, которое могло привести к непроверяемым исключениям ввода-вывода в недоступном текущем рабочем каталоге.
3.15.0 Октябрь 2016 г. Переход API Bing V2 на V5. Обновление сторонних зависимостей. Внутренняя косметика.
3.14.0 Сентябрь 2016 г. Улучшения рабочей среды (поддержка высокого разрешения, улучшения MacOSX, исправления ошибок). PubMed переходит на HTTPs. Другие мелкие улучшения.
3.13.0 июль 2016 г. Исправлены ошибки API сервлетов, исправлены ошибки Workbench, удален источник документов Google, исправлены коды языков для нескольких языков.
3.12.0 февраль 2016 г. Обновление словаря польского языка Morfologik, инфраструктурные изменения и корректировки, позволяющие C2 работать в соответствии с более строгими политиками менеджера безопасности.
3.11.0 Октябрь 2015 г. Обновление Apache Lucene, исправления ошибок и набор изменений из второстепенных версий 3.10.x.
3.10.4 Октябрь 2015 г. Обновление библиотеки Морфологик.
3.10.3 август 2015 г. Перепакован Google Guava, чтобы избежать конфликтов в Solr.
3.10.2 июль 2015 г. Незначительные исправления в Workbench (отображение кластера на арабском языке).
3.10.1 май 2015 г. Визуализация Aduna исключена из дистрибутива MacOS. Небольшие исправления в Верстаке.
3.10.0 май 2015 г. Обновления визуализации. Исправления ошибок. Обновления зависимостей библиотеки.
3.9.4 ноябрь 2014 г. Обновление FoamTree. Новые атрибуты для многоязычной кластеризации. Исправления визуализации.
3.9.3 июль 2014 г. Обновление FoamTree. Исправления и настройки инфраструктуры (jflex, URL-адреса репозитория sonatype).
3.9.2 апрель 2014 г. Исправлена ​​ошибка в FoamTree HTML5.
3.9.1 апрель 2014 г. Исправление ошибок, обновление визуализаций HTML5.
3.9.0 февраль 2014 г. Визуализации HTML5 заменяют Flash, обновление зависимостей библиотеки, исправления ошибок.
3.8.1 Октябрь 2013 г. Исправлены ошибки, небольшие изменения в функционале.
3.8.0 июль 2013 г. Исправления ошибок, обновления зависимостей библиотеки.
3.7.1 май 2013 г. Исправлены мелкие ошибки (выпуск обслуживания 3.7.0).
3.7.0 апрель 2013 г. Изменения в инфраструктуре ядра (строковые идентификаторы), улучшенная интеграция Solr с XSLT, настройки Workbench для более крупных входных данных, обновленные зависимости.
3.6.3 апрель 2013 г. Незначительные исправления ошибок и улучшения: настройка адаптера Solr XSLT, настройки Workbench для больших входных данных, обновленные зависимости.
3.6.2 ноябрь 2012 г. Мелкие исправления ошибок и улучшения.
3.6.1 август 2012 г. Исправления мелких ошибок.
3.6.0 июнь 2012 г. Инфраструктурные изменения, рефакторинг и исправления ошибок.
3.5.3 декабрь 2011 г. Обновления инфраструктуры в результате миграции на GitHub. Обновление рабочей среды до SWT 3.7.1.
3.5.2 Сентябрь 2011 г. Поддержка Ajax на сервере кластеризации документов, улучшен источник документов Bing, улучшения Workbench, исправлены ошибки.
3.5.1 июнь 2011 г. Исправлены ошибки, улучшена интеграция визуализации, удалена поддержка Yahoo BOSS API.
3.5.0 май 2011 г. Визуализация FoamTree, кластеризация k-средних пополам, улучшения управления ресурсами
3.4.3 март 2011 г. Распространение в Maven. центральный репозиторий
3.4.2 октябрь 2010 г. Исправления ошибок
3.4.1 сентябрь 2010 г. Пакет совместимости Solr 1.4.x, исправления ошибок
3.4.0 август 2010 г. .NET API для вызова кластеризации Carrot²
3.3.0 апрель 2010 г. Значительные улучшения масштабируемости алгоритма кластеризации STC.
3.2.0 март 2010 г. Экспериментальная поддержка кластеризации арабского и корейского контента, приложение командной строки для кластеризации в пакетном режиме, LGPL. удалены зависимости под лицензией
3.1.0 сентябрь 2009 г. Экспериментальная поддержка кластеризации китайского контента, плагин кластеризации результатов поиска для Apache Solr
3.1.0 сентябрь 2009 г. Экспериментальная поддержка кластеризации китайского контента, плагин кластеризации результатов поиска для Apache Solr
3.0.1 март 2009 г. Инструмент кластеризации документов доступен для Mac OS X
3.0.0 январь 2009 г. Добавлена ​​рабочая среда Document Clustering Workbench для удобного экспериментирования с кластеризацией Carrot², радикально упрощен Java API, повторно реализовано веб-приложение кластеризации результатов поиска, руководство пользователя. [5] доступный
2.1.0 август 2007 г. Добавлен сервер кластеризации документов для представления кластеризации как REST. службы
2.0.0 сентябрь 2006 г. Новый пользовательский интерфейс веб-приложения кластеризации результатов поиска.
1.0.0 январь 2006 г. Первый официальный релиз, двоичные файлы доступны на SourceForge.
0.0.0 с 2002 года Инкубационные выпуски, исходный код доступен на SourceForge.

Архитектура [ править ]

Carrot² 4.0 — это преимущественно библиотека программирования Java с общедоступными API-интерфейсами для управления ресурсами конкретного языка, настройки и выполнения алгоритмов. Компонент HTTP/REST (сервер кластеризации документов) предусмотрен для взаимодействия с другими языками.

Алгоритмы кластеризации [ править ]

Carrot² предлагает несколько алгоритмов кластеризации документов, в которых особое внимание уделяется качеству меток кластера:

Спин-оффы [ править ]

Поиск моркови [ править ]

Морковный поиск, [7] коммерческое продолжение проекта Carrot², работает над дальнейшим развитием Carrot², предлагает алгоритм кластеризации текста в реальном времени. [8] совместимость с инфраструктурой Carrot², а также консультационные услуги по интеллектуальному анализу текста на основе открытого и проприетарного программного обеспечения.

Лаборатории моркови поиска

Carrot² положил начало ряду независимых проектов с открытым исходным кодом, выпущенных под эгидой Carrot Search Labs. [9] Следующие проекты опубликованы или были опубликованы в рамках этой инициативы:

  • Рандомизированное тестирование: средство запуска тестов JUnit со встроенными утилитами, позволяющими выполнять каждый тест немного по-разному (рандомизированным). Также задача ANT для запуска тестов JUnit на параллельных JVM с балансировкой нагрузки и другими наворотами.
  • Высокопроизводительные коллекции примитивов для Java (HPPC): списки, наборы, карты и другие коллекции примитивов для Java, настроенные на максимальную производительность и эффективность использования памяти.
  • SmartSprites: полностью автоматическое обслуживание CSS-спрайтов; никакого утомительного копирования и вставки в CSS при добавлении или изменении спрайтовых изображений.

Прекращенные проекты:

  • jSuffixArrays: несколько реализаций Java структуры данных Suffix Array с различными характеристиками производительности и памяти.
  • JUnitBenchmarks: набор расширений для превращения тестов JUnit4 в микротесты производительности с мониторингом GC, измерением временных отклонений и простой графической визуализацией.

См. также [ править ]

Ссылки [ править ]

  1. ^ Проект Carrot2, Станислав Осински, Дэвид Вайс. «Carrot2 — механизм кластеризации результатов поиска с открытым исходным кодом» . {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
  2. ^ Морковь 2 демонстрация кластеризации результатов поиска
  3. ^ Дэвид Вайс: Интерфейс кластеризации для результатов веб-поиска на польском и английском языках. Магистерская диссертация. Познаньский технологический университет, Познань, Польша, 2001 г. Скачать PDF
  4. ^ Jump up to: Перейти обратно: а б Станислав Осинский, Давид Вайс: концептуальный алгоритм кластеризации результатов поиска . IEEE Intelligent Systems, май/июнь, 3 (том 20), 2005 г., стр. 48–54.
  5. ^ «Морковь2» .
  6. ^ Орен Замир, Орен Эциони : Кластеризация веб-документов: технико-экономическое обоснование , Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (1998), стр. 46–54.
  7. ^ Carrot Search sc «Carrot Search: программное обеспечение для кластеризации и визуализации документов» .
  8. ^ Поиск моркови sc «Поиск моркови: Lingo3G: механизм кластеризации текстовых документов» .
  9. ^ Поиск моркови sc «Лаборатория поиска моркови» .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ca9d523d6dc31e04e47db627c7594009__1716538140
URL1:https://arc.ask3.ru/arc/aa/ca/09/ca9d523d6dc31e04e47db627c7594009.html
Заголовок, (Title) документа по адресу, URL1:
Carrot2 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)