Корпоративный поиск
Корпоративный поиск — это программная технология для поиска источников данных внутри компании, обычно в интрасети и базы данных содержимом . Поиск обычно предлагается только внутренним пользователям компании. [1] [2] Корпоративный поиск можно противопоставить веб-поиску , который применяет технологию поиска к документам в открытой сети, и настольному поиску , который применяет технологию поиска к содержимому на одном компьютере.
Корпоративные поисковые системы индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие корпоративные поисковые системы объединяют структурированные и неструктурированные данные . в своих коллекциях [3] Корпоративные поисковые системы также используют средства контроля доступа для обеспечения соблюдения политики безопасности для своих пользователей. [4]
Поиск предприятия можно рассматривать как разновидность вертикального поиска предприятия.
Компоненты поисковой системы предприятия
[ редактировать ]В корпоративной поисковой системе контент проходит различные этапы от исходного репозитория до результатов поиска:
Осведомленность о контенте
[ редактировать ]Осведомленность о контенте (или «сбор контента») обычно представляет собой модель «выталкивания» или «вытягивания». В модели push исходная система интегрируется с поисковой системой таким образом, что она подключается к ней и отправляет новый контент непосредственно в ее API . Эта модель используется, когда важна индексация в реальном времени. В модели извлечения программное обеспечение собирает контент из источников с помощью соединителя, такого как веб-искатель или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами в поисках нового, обновленного или удаленного контента. [5]
Обработка и анализ контента
[ редактировать ]Содержимое из разных источников может иметь множество разных форматов или типов документов, например XML, HTML, форматы документов Office или простой текст. На этапе обработки контента входящие документы преобразуются в обычный текст с использованием фильтров документов. Также часто необходимо нормализовать контент различными способами, чтобы улучшить запоминаемость или точность . Они могут включать в себя стемминг , лемматизацию , расширение синонимов , извлечение сущностей , разметку частей речи .
В рамках обработки и анализа применяется токенизация для разделения контента на токены , которые являются базовой единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты, чтобы обеспечить лучшее запоминание.
Индексирование
[ редактировать ]Результирующий текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте терминов .
Обработка запросов
[ редактировать ]Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых терминов, которые вводит пользователь, а также действий навигации, таких как фасетирование и разбиение на страницы.
Соответствие
[ редактировать ]Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «попадания»), ссылающиеся на совпадающие исходные документы. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.
См. также
[ редактировать ]- Совместная поисковая система
- Определенное хранилище данных
- Корпоративные закладки
- Доступ к информации предприятия
- Фасетный поиск
- Извлечение информации
- Управление знаниями
- Список поисковых систем
- Анализ текста
- Вертикальный поиск
Ссылки
[ редактировать ]- ^ Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в области информационного поиска . 11 : 1–142. дои : 10.1561/1500000053 .
- ^ «Что такое корпоративный поиск?» .
- ^ «Новое лицо корпоративного поиска: объединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинала (PDF) 28 октября 2015 г. Проверено 27 мая 2013 г.
- ^ «Требования безопасности к корпоративному поиску: часть 1 – Разработка новых идей» .
- ^ «Понимание сбора и индексирования контента» .