Корпоративный поиск

Корпоративный поиск — это программная технология для поиска источников данных внутри компании, обычно в интрасети и базы данных содержимом . Поиск обычно предлагается только внутренним пользователям компании. ^[1]^[2] Корпоративный поиск можно противопоставить веб-поиску , который применяет технологию поиска к документам в открытой сети, и настольному поиску , который применяет технологию поиска к содержимому на одном компьютере.

Корпоративные поисковые системы индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие корпоративные поисковые системы объединяют структурированные и неструктурированные данные . в своих коллекциях ^[3] Корпоративные поисковые системы также используют средства контроля доступа для обеспечения соблюдения политики безопасности для своих пользователей. ^[4]

Поиск предприятия можно рассматривать как разновидность вертикального поиска предприятия.

Компоненты поисковой системы предприятия

В корпоративной поисковой системе контент проходит различные этапы от исходного репозитория до результатов поиска:

Осведомленность о контенте

Осведомленность о контенте (или «сбор контента») обычно представляет собой модель «выталкивания» или «вытягивания». В модели push исходная система интегрируется с поисковой системой таким образом, что она подключается к ней и отправляет новый контент непосредственно в ее API . Эта модель используется, когда важна индексация в реальном времени. В модели извлечения программное обеспечение собирает контент из источников с помощью соединителя, такого как веб-искатель или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами в поисках нового, обновленного или удаленного контента. ^[5]

Обработка и анализ контента

Содержимое из разных источников может иметь множество разных форматов или типов документов, например XML, HTML, форматы документов Office или простой текст. На этапе обработки контента входящие документы преобразуются в обычный текст с использованием фильтров документов. Также часто необходимо нормализовать контент различными способами, чтобы улучшить запоминаемость или точность . Они могут включать в себя стемминг , лемматизацию , расширение синонимов , извлечение сущностей , разметку частей речи .

В рамках обработки и анализа применяется токенизация для разделения контента на токены , которые являются базовой единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты, чтобы обеспечить лучшее запоминание.

Индексирование

Результирующий текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте терминов .

Обработка запросов

Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых терминов, которые вводит пользователь, а также действий навигации, таких как фасетирование и разбиение на страницы.

Соответствие

Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «попадания»), ссылающиеся на совпадающие исходные документы. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

См. также

Ссылки

^ Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в области информационного поиска . 11 : 1–142. дои : 10.1561/1500000053 .
^ «Что такое корпоративный поиск?» .
^ «Новое лицо корпоративного поиска: объединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинала (PDF) 28 октября 2015 г. Проверено 27 мая 2013 г.
^ «Требования безопасности к корпоративному поиску: часть 1 – Разработка новых идей» .
^ «Понимание сбора и индексирования контента» .

[FnTIR-1] Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в области информационного поиска . 11 : 1–142. дои : 10.1561/1500000053 .

[2] «Что такое корпоративный поиск?» .

[3] «Новое лицо корпоративного поиска: объединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинала (PDF) 28 октября 2015 г. Проверено 27 мая 2013 г.

[4] «Требования безопасности к корпоративному поиску: часть 1 – Разработка новых идей» .

[5] «Понимание сбора и индексирования контента» .

[1]

[2]

[3]

[4]

[5]