Лемур Проект
![]() | Тема этой статьи Википедии может не соответствовать общему правилу по известности . ( декабрь 2020 г. ) |
Проект Lemur — это результат сотрудничества Центра интеллектуального поиска информации Массачусетского университета в Амхерсте и Института языковых технологий Университета Карнеги-Меллон . Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Проект наиболее известен своими поисковыми системами Indri и Galago, наборами данных ClueWeb09 и ClueWeb12, а также библиотекой ранжирования RankLib. Программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.
Философия разработки программного обеспечения Lemur Project подчеркивает современную точность, гибкость и эффективность. Например, поисковая система Indri обеспечивает точный поиск больших текстовых коллекций «из коробки», а данные хранятся в доступной форме, что позволяет разрабатывать новые стратегии поиска. Программное обеспечение проекта Lemur распространяется по лицензиям с открытым исходным кодом, что обеспечивает гибкость ученым и разработчикам программного обеспечения.
Для создания Lemur использовались языки программирования C , C++ и Java . Он поставляется вместе с исходными файлами и инструкциями по сборке. Предоставленный исходный код может быть изменен с целью разработки новых библиотек. Он совместим с различными операционными системами, включая Linux и Windows.
Функции
[ редактировать ]Lemur поддерживает следующие функции:
- Индексирование:
- Текст на английском, китайском и арабском языках
- Словообразование
- Стоп-слова
- Токенизация
- Переход и инкрементная индексация
- Поиск:
- Специальный поиск ( TF-IDF и InQuery)
- Переход и межъязыковый поиск
- Языковое моделирование
- Обновление модели запроса
- Двухэтапное сглаживание
- Обратная связь по актуальности
- Язык структурированных запросов
- с подстановочными знаками Соответствие терминов
- Распределенный ИК:
- Выборка на основе запросов
- Рейтинг на основе базы данных (CORI)
- Объединение результатов
- Кластеризация документов
- Подведение итогов
- Простая обработка текста
Компоненты
[ редактировать ]Lemur Project состоит из следующих компонентов:
- Поисковая система Indri на C++
- Среда исследования поисковой системы Galago на Java
- Библиотека обучения ранжированию RankLib
- Устанавливаем приложение для интеллектуального анализа данных
- Наборы данных ClueWeb09 и ClueWeb12
- Панель инструментов журнала запросов
Последняя версия
[ редактировать ]Обновления компонентов проекта Lemur производятся два раза в год, в июне и декабре.Последняя версия поисковой системы Indri — 5.17.Последняя версия поисковой системы Galago — версия 3.18.Последняя версия библиотеки ранжирования RankLib — 2.14.Последняя версия приложения для интеллектуального анализа данных Sifaka — 1.8.
Поисковая система Индри
[ редактировать ]Поисковая система Indri — один из компонентов, разработанных проектом Lemur Project. Это открытый исходный код. Язык запросов, используемый в Indri, позволяет исследователям индексировать данные или структурировать документы с помощью простых инструкций командной строки. Indri предлагает гибкость в плане адаптации к различным текущим приложениям. Его также можно распределить по кластеру узлов для повышения производительности. Поисковая система Indri может обрабатывать большие коллекции данных и понимать различные форматы данных, такие как HTML и XML .
API Indri поддерживает различные языки программирования и сценариев, такие как C++, Java , C# и PHP .
Особенности поисковой системы Indri
[ редактировать ]- Может использовать несколько представлений документов
- Явное взвешивание терминов
- Надежный язык запросов
- Формально обоснованный
- Высокоэффективный
- Может быть эффективно реализовано