Jump to content

Корпоративный поиск

(Перенаправлено из корпоративного поиска )

Корпоративный поиск — это программная технология для поиска источников данных внутри компании, обычно в интрасети и базы данных содержимом . Поиск обычно предлагается только внутренним пользователям компании. [1] [2] Корпоративный поиск можно противопоставить веб-поиску , который применяет технологию поиска к документам в открытой сети, и настольному поиску , который применяет технологию поиска к содержимому на одном компьютере.

Корпоративные поисковые системы индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие корпоративные поисковые системы объединяют структурированные и неструктурированные данные . в своих коллекциях [3] Корпоративные поисковые системы также используют средства контроля доступа для обеспечения соблюдения политики безопасности для своих пользователей. [4]

Поиск предприятия можно рассматривать как разновидность вертикального поиска предприятия.

Компоненты поисковой системы предприятия

[ редактировать ]

В корпоративной поисковой системе контент проходит различные этапы от исходного репозитория до результатов поиска:

Осведомленность о контенте

[ редактировать ]

Осведомленность о контенте (или «сбор контента») обычно представляет собой модель «выталкивания» или «вытягивания». В модели push исходная система интегрируется с поисковой системой таким образом, что она подключается к ней и отправляет новый контент непосредственно в ее API . Эта модель используется, когда важна индексация в реальном времени. В модели извлечения программное обеспечение собирает контент из источников с помощью соединителя, такого как веб-искатель или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами в поисках нового, обновленного или удаленного контента. [5]

Обработка и анализ контента

[ редактировать ]

Содержимое из разных источников может иметь множество разных форматов или типов документов, например XML, HTML, форматы документов Office или простой текст. На этапе обработки контента входящие документы преобразуются в обычный текст с использованием фильтров документов. Также часто необходимо нормализовать контент различными способами, чтобы улучшить запоминаемость или точность . Они могут включать в себя стемминг , лемматизацию , расширение синонимов , извлечение сущностей , разметку частей речи .

В рамках обработки и анализа применяется токенизация для разделения контента на токены , которые являются базовой единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты, чтобы обеспечить лучшее запоминание.

Индексирование

[ редактировать ]

Результирующий текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте терминов .

Обработка запросов

[ редактировать ]

Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых терминов, которые вводит пользователь, а также действий навигации, таких как фасетирование и разбиение на страницы.

Соответствие

[ редактировать ]

Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «попадания»), ссылающиеся на совпадающие исходные документы. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

См. также

[ редактировать ]
  1. ^ Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в области информационного поиска . 11 : 1–142. дои : 10.1561/1500000053 .
  2. ^ «Что такое корпоративный поиск?» .
  3. ^ «Новое лицо корпоративного поиска: объединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинала (PDF) 28 октября 2015 г. Проверено 27 мая 2013 г.
  4. ^ «Требования безопасности к корпоративному поиску: часть 1 – Разработка новых идей» .
  5. ^ «Понимание сбора и индексирования контента» .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e7341e57dab573c479581d47bad0f516__1715858760
URL1:https://arc.ask3.ru/arc/aa/e7/16/e7341e57dab573c479581d47bad0f516.html
Заголовок, (Title) документа по адресу, URL1:
Enterprise search - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)