Федеративный поиск

Федеративный поиск извлекает информацию из различных источников с помощью поискового приложения, созданного на основе одной или нескольких поисковых систем. ^[1] Пользователь делает один запрос, который распространяется по поисковым системам , базам данных или другим системам запросов, участвующим в федерации. Затем федеративный поиск объединяет результаты, полученные от поисковых систем, для представления пользователю. Федеративный поиск можно использовать для интеграции разрозненных информационных ресурсов в рамках одной крупной организации («предприятия») или для всей сети.

Федеративный поиск, в отличие от распределенного поиска, требует централизованной координации ресурсов, доступных для поиска. Это предполагает как координацию запросов, передаваемых отдельным поисковым системам, так и объединение результатов поиска, возвращаемых каждой из них.

Цель

Федеративный поиск возник для удовлетворения потребности в поиске по нескольким разрозненным источникам контента с помощью одного запроса. Это позволяет пользователю осуществлять поиск в нескольких базах данных одновременно в режиме реального времени, приводить результаты из различных баз данных в удобную форму, а затем представлять результаты пользователю.

По сути, это подход к агрегированию или интеграции информации: он обеспечивает единый доступ ко многим информационным ресурсам и обычно возвращает данные в стандартной или частично гомогенизированной форме. Другие подходы включают создание корпоративного хранилища данных , озера данных или концентратора данных . Федеративный поиск запрашивает много раз разными способами (каждый источник запрашивается отдельно), в то время как другие подходы импортируют и преобразовывают данные много раз, обычно в ходе ночных пакетных процессов. Федеративный поиск обеспечивает просмотр всех источников в режиме реального времени (при условии, что все они находятся в сети и доступны).

В промышленных поисковых системах, таких как LinkedIn , федеративный поиск используется для персонализации вертикальных предпочтений для неоднозначных запросов. ^[2] Например, когда пользователь задает в LinkedIn запрос типа «машинное обучение», он или она может иметь в виду поиск людей с навыками машинного обучения, вакансий, требующих навыков машинного обучения, или контента по этой теме. В таких случаях федеративный поиск может использовать намерения пользователя (например, прием на работу, поиск работы или потребление контента) для персонализации вертикального порядка для каждого отдельного пользователя.

Процесс

По описанию Питера Джаксо (2004 г.) ^[3]), федеративный поиск состоит из (1) преобразования запроса и его рассылки группе разрозненных баз данных или других веб-ресурсов с соответствующим синтаксисом, (2) объединения результатов, собранных из баз данных, (3) представления их в кратком виде. и унифицированный формат с минимальным дублированием, и (4) предоставление средств, выполняемых автоматически или пользователем портала, для сортировки объединенного набора результатов.

Порталы федеративного поиска, как коммерческие, так и с открытым доступом , обычно осуществляют поиск в библиографических базах данных общего доступа , каталогах библиотек открытого доступа в Интернете ( OPAC ), поисковых системах в Интернете, таких как Google , и/или в государственных или корпоративных коллекциях данных открытого доступа. Эти отдельные источники информации отправляют обратно в интерфейс портала список результатов поискового запроса. Пользователь может просмотреть этот список совпадений. Некоторые порталы просто сканируют фактические результаты базы данных и не позволяют пользователю напрямую войти в приложение источника информации. Более сложные методы устранят дублирование списка результатов путем слияния и удаления дубликатов. На многих порталах доступны дополнительные функции, но основная идея одна: повысить точность и релевантность отдельных поисков, а также сократить время, необходимое для поиска ресурсов.

Этот процесс дает федеративному поиску некоторые ключевые преимущества по сравнению с существующими поисковыми системами на основе сканеров. Федеративный поиск не должен налагать никаких требований или обременений на владельцев отдельных источников информации, кроме обработки возросшего трафика. Федеративный поиск по своей сути так же актуален, как и отдельные источники информации, поскольку поиск по ним осуществляется в режиме реального времени.

Выполнение

Одним из применений федеративного поиска является система метапоиска . Однако метапоисковый подход не устраняет недостатков компонентных поисковых систем, таких как неполные индексы. Документы, которые не индексируются поисковыми системами, создают так называемую глубокую сеть или невидимую сеть. Google Scholar — один из примеров многих проектов, пытающихся решить эту проблему путем индексации электронных документов, которые поисковые системы игнорируют. А метапоисковый подход, как и лежащая в его основе технология поисковых систем, работает только с источниками информации, хранящимися в электронной форме.

Одной из основных задач метапоиска является обеспечение совместимости поискового запроса с компонентами поисковых систем, которые объединяются и объединяются. Когда словарь поиска или модель данных поисковой системы отличается от модели данных одной или нескольких сторонних целевых систем, запрос должен быть переведен в каждую из сторонних целевых систем. Это можно сделать с помощью простого перевода элементов данных или может потребоваться семантический перевод . Например, если одна поисковая система позволяет цитировать точные строки или n-граммы, а другая нет, запрос необходимо перевести, чтобы он был совместим с каждой поисковой системой. Чтобы перевести точный строковый запрос в кавычках, его можно разбить на набор перекрывающихся N-грамм , которые с наибольшей вероятностью дадут желаемые результаты поиска в каждой поисковой системе.

Еще одна проблема, с которой приходится сталкиваться при внедрении федеративных поисковых систем, — это масштабируемость. Трудно поддерживать производительность и скорость ответа объединенной поисковой системы, поскольку она объединяет все больше и больше источников информации. Одной из реализаций федеративного поиска, которая начала решать эту проблему, является WorldWideScience , размещенный в США Министерства энергетики Отделе научной и технической информации . Во всем миреНаука ^[4] состоит из более чем 40 источников информации, некоторые из которых сами являются объединенными поисковыми порталами. Одним из таких порталов является Science.gov. ^[5] который сам по себе объединяет более 30 источников информации, представляющих большую часть результатов исследований и разработок федерального правительства США. Science.gov возвращает результаты с самым высоким рейтингом в WorldWideScience, который затем объединяет и ранжирует эти результаты с результатами поиска, полученными из других источников информации, входящих в состав WorldWideScience. ^[5] Такой подход каскадного федеративного поиска позволяет выполнять поиск по большому количеству источников информации с помощью одного запроса.

Еще одно приложение Sesam, работающее в Норвегии и Швеции, было создано на основе платформы с открытым исходным кодом, специализирующейся на решениях федеративного поиска. Сесат, ^[6] аббревиатура от Sesam Search Application Toolkit — это платформа, которая предоставляет большую часть инфраструктуры и функций, необходимых для обработки параллельного и конвейерного поиска, а также их элегантного отображения в пользовательском интерфейсе, что позволяет инженерам сосредоточиться на настройке конфигурации индекса/базы данных.

Чтобы персонализировать вертикальные заказы в федеративном поиске, поисковая система LinkedIn ^[2] использует профиль искателя и его недавнюю деятельность, чтобы сделать вывод о его или ее намерениях, таких как прием на работу, поиск работы и потребление контента, а затем использует намерение, наряду со многими другими сигналами, для ранжирования вертикальных заказов, которые лично актуальны для отдельного искателя.

SWIRL Поиск ^[7] — это объединенная поисковая система с открытым исходным кодом, выпущенная под лицензией Apache 2.0. Он включает в себя готовые соединители с популярными поисковыми системами с открытым исходным кодом и повторно ранжирует результаты с использованием сходства косинус-векторов.

Проблемы

Федеративный поиск представляет собой ряд серьезных проблем по сравнению с обычным поиском по одному источнику:

1. Передача полномочий
[ редактировать ]
Когда федеративный поиск выполняется по безопасным источникам данных, учетные данные пользователей должны передаваться.для каждой базовой поисковой системы, чтобы обеспечить соответствующую безопасность. Если у пользователя разныеучетные данные для входа в разные системы, должно быть средство сопоставления их идентификатора входа в каждый поискдомен безопасности движка. ^[8]
2. Сопоставление навигаторов списка результатов в единую форму
[ редактировать ]
Предположим, выполняется поиск по трем сайтам недвижимости, каждый из которых предоставляет список названий городов с гиперссылками, на которые можно щелкнуть, чтобы увидеть совпадения только в каждом городе. В идеале эти аспекты следует объединить в один набор, но это создает дополнительные технические проблемы. ^[9] Система также должна понимать ссылки «следующая страница», если она позволит пользователю пролистывать объединенные результаты.
Частично эту проблему преобразования в общую форму можно решить, если объединенные ресурсы поддерживают связанные открытые данные через RDF . Онтологии (правила) могут быть добавлены для отображения результатов в общие формы с использованием этой технологии.
3. Сортировка и подсчет результатов.
[ редактировать ]
Каждый веб-ресурс имеет собственное понятие оценки релевантности и может поддерживать определенный порядок сортировки результатов. Релевантность сильно различается среди «федератов» в поиске, поэтому знать, как чередовать результаты, чтобы показать наиболее релевантные, сложно или невозможно.
4. Надежный запрос
[ редактировать ]
Возможно, федеративному поиску придется ограничиться минимальным набором возможностей запроса, которые являются общими для всех федераций. Например, если Google поддерживает отрицание и кавычки, а science.gov нет, то федеральный поиск не сможет поддерживать отрицание и кавычки.
5. Доступность и тайм-аут
[ редактировать ]
По мере роста числа федератов (федеративных источников) вероятность появления одного или нескольких медленных или автономных федератов становится высокой. Федеративный поиск должен решить, когда рассматривать федерацию в автономном режиме или ждать медленного ответа. Время ответа будет определяться самым медленным федератом из группы.
6. Разработка и тестирование внутри предприятия (а не в общедоступном Интернете)
[ редактировать ]
Группам разработчиков обычно не следует воздействовать на работающие производственные системы, поскольку они выполняют обычную работу, не говоря уже о интенсивном нагрузочном тестировании. Кроме того, некоторые ресурсы безопасны, и их не следует произвольно запрашивать и раскрывать в процессе разработки из соображений конфиденциальности и безопасности. Поэтому среды разработки, тестирования и тестирования производительности должны включать установку и настройку многих подсистем, чтобы обеспечить безопасное и надежное тестирование.
7. HA/DR ( высокая доступность и аварийное восстановление )
[ редактировать ]
Чтобы вся объединенная система была HA/DR, каждая подсистема должна быть HA/DR.
Аналогично, моделирование производительности и планирование мощности объединенной системы требуют моделирования, планирования, а иногда и расширения всех объединенных систем.

По всем вышеперечисленным причинам внутри предприятия может быть предпочтительнее использовать концентратор данных или озеро данных или гибридный подход. Концентраторы и озера данных упрощают разработку и доступ, но могут возникнуть некоторые задержки перед тем, как данные станут доступны (без специальной логики синхронизации). В сети федерация более типична.

См. также

Ссылки

^ «Что такое федеративный поиск?» . Блог Ковео . Ковео. 16 июня 2020 г. Проверено 29 июня 2020 г.
^ Jump up to: ^а ^б Арья, Дхрув; Ха-Тук, Вьетнам; Синха, Шакти (2015). «Персонализированный федеративный поиск в LinkedIn». Материалы 24-й Международной конференции ACM по управлению информацией и знаниями (CIKM) . стр. 1699–1702. arXiv : 1602.04924 . дои : 10.1145/2806416.2806615 . ISBN 9781450337946 .
^ Мысли о федеративном поиске. Хачо, Петер, Information Today, октябрь 2004 г., Vol. 21, Выпуск 9
^ WorldWideScience
^ Jump up to: ^а ^б Science.gov
^ «Сесат» . Архивировано из оригинала 20 июля 2015 г. Проверено 17 августа 2019 г.
^ «ВИХРЕВЫЙ ПОИСК» . Гитхаб . Проверено 8 сентября 2022 г.
^ Сопоставление требований безопасности с корпоративным поиском
^ 20+ различий между Интернетом и корпоративным поиском - часть 1

Дальнейшее чтение

Федеративный поиск 101. Линоски, Алексис, Вальчик, Тайн, Библиотечный журнал, лето 2008 г. Net Connect, Vol. 133 . Этот контент был перенесен сюда , но для получения всей статьи вам понадобится учетная запись удаленного доступа через местную библиотеку.
Кокс, Кристофер Н. Федеративный поиск: решение или неудача для онлайн-библиотечных услуг. Бингемтон, Нью-Йорк: Haworth Information Press, 2007. Содержание.
Учебник по федеративному поиску. Ледерман С., AltSearchEngines, январь 2009 г. Этот материал был переопубликован здесь. Архивировано 14 ноября 2019 г. на Wayback Machine , в блоге коммерческой поисковой компании.
Си, Ло; Шокоуи, Милад (2011). «Федеративный поиск». Основы и тенденции в области информационного поиска . 5 : 1–102. дои : 10.1561/1500000010 . S2CID 33433994 .

[1] «Что такое федеративный поиск?» . Блог Ковео . Ковео. 16 июня 2020 г. Проверено 29 июня 2020 г.

[:0-2] Jump up to: ^а ^б Арья, Дхрув; Ха-Тук, Вьетнам; Синха, Шакти (2015). «Персонализированный федеративный поиск в LinkedIn». Материалы 24-й Международной конференции ACM по управлению информацией и знаниями (CIKM) . стр. 1699–1702. arXiv : 1602.04924 . дои : 10.1145/2806416.2806615 . ISBN 9781450337946 .

[3] Мысли о федеративном поиске. Хачо, Петер, Information Today, октябрь 2004 г., Vol. 21, Выпуск 9

[4] WorldWideScience

[Science.gov-5] Jump up to: ^а ^б Science.gov

[6] «Сесат» . Архивировано из оригинала 20 июля 2015 г. Проверено 17 августа 2019 г.

[7] «ВИХРЕВЫЙ ПОИСК» . Гитхаб . Проверено 8 сентября 2022 г.

[8] Сопоставление требований безопасности с корпоративным поиском

[9] 20+ различий между Интернетом и корпоративным поиском - часть 1

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

v т и Интернет-поиск
Типы	Поисковая система в Интернете ( список ) Метапоисковая система Мультимедийный поиск Совместная поисковая система Межъязыковой поиск Локальный поиск Вертикальный поиск Социальный поиск Поиск изображений Поиск аудио Поисковая система видео Корпоративный поиск Семантический поиск Поисковая система на естественном языке Голосовой поиск
Инструменты	Межъязыковой поиск информации Поиск по звуку Поисковый маркетинг Поисковая оптимизация Меры оценки Поисковая архитектура Поиск по выбору Поиск документов Анализ текста Веб-сканер Мультипоиск Федеративный поиск Поисковый агрегатор Индексирование / Веб-индексирование Целенаправленный сканер Ловушка для паука Стандарт исключения роботов Распределенное сканирование веб-страниц Веб-архивирование Программное обеспечение для зеркалирования веб-сайтов Веб-запрос Классификация веб-запросов
Протоколы и стандарты	Z39,50 Веб-служба поиска/получения Поиск/получение по URL-адресу Открытый поиск Представительская государственная передача Глобальный информационный сервер
См. также	Поисковая система Поиск на рабочем столе Онлайн-поиск