Поиск близости (текст)
При обработке текста поиск по близости ищет документы, в которых два или более отдельно совпадающих термина находятся в пределах заданного расстояния , где расстояние — это количество промежуточных слов или символов. Помимо близости, некоторые реализации могут также налагать ограничение на порядок слов, при котором порядок в искомом тексте должен быть идентичен порядку поискового запроса. Поиск по близости выходит за рамки простого сопоставления слов, добавляя ограничение близости, и обычно рассматривается как форма расширенного поиска.
Например, с помощью поиска можно найти «дом из красного кирпича» и сопоставить такие фразы, как «дом из красного кирпича» или «дом из красного кирпича». Ограничивая близость, можно сопоставить эти фразы, избегая при этом документов, в которых слова разбросаны или разбросаны по странице, а также в несвязанных статьях антологии.
Обоснование
[ редактировать ]Основное лингвистическое предположение поиска близости заключается в том, что близость слов в документе подразумевает связь между словами. Учитывая, что авторы документов пытаются сформулировать предложения, содержащие одну идею или группу связанных идей в соседних предложениях или организованных в абзацы, в структуре документа существует относительно высокая вероятность того, что слова, используемые вместе, связаны между собой. С другой стороны, когда два слова находятся на противоположных концах книги, вероятность связи между словами относительно мала. Ограничивая результаты поиска включением только совпадений, в которых слова находятся в пределах заданной максимальной близости или расстояния, предполагается, что результаты поиска имеют более высокую релевантность, чем совпадения, в которых слова разбросаны.
Коммерческие поисковые системы Интернета имеют тенденцию выдавать слишком много совпадений (известных как отзыв) для среднего поискового запроса. Поиск по близости — это один из методов уменьшения количества совпадений страниц и повышения релевантности совпадающих страниц за счет использования близости слов для облегчения ранжирования. В качестве дополнительного преимущества поиск по близости помогает бороться со спамдексом , избегая веб-страниц, содержащих списки словарей или списки из тысяч слов, которые в противном случае имели бы высокий рейтинг, если бы поисковая система была сильно предвзята к частоте слов .
Логический синтаксис и операторы
[ редактировать ]Обратите внимание, что поиск по близости может означать, что только некоторые ключевые слова должны находиться в пределах указанного расстояния. Поиск по близости можно использовать с другим синтаксисом поиска и/или элементами управления, чтобы обеспечить более четкие поисковые запросы. Иногда операторы запроса, такие как NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE или FAR, используются для указания предела поиска по близости между указанными ключевыми словами: например, «кирпичный РЯДОМ с домом».
Использование в коммерческих поисковых системах
[ редактировать ]Что касается неявного/автоматического поиска по сравнению с явным поиском по близости, то по состоянию на ноябрь 2008 года большинство поисковых систем Интернета реализуют только функцию неявного поиска по близости. То есть они автоматически ранжируют выше те результаты поиска, где ключевые слова пользователя имеют хороший «общий показатель близости» в таких результатах. Если в поисковом запросе присутствуют только два ключевых слова, это не отличается от явного поиска по близости, при котором между двумя ключевыми словами помещается оператор NEAR. Однако если присутствуют три или более трех ключевых слов, пользователю часто важно указать, какие подмножества этих ключевых слов ожидают близости в результатах поиска. Это полезно, если пользователь хочет выполнить поиск по известному уровню техники (например, найти существующий подход для выполнения конкретной задачи, найти документ, раскрывающий систему, которая демонстрирует процедурное поведение, совместно выполняемое несколькими компонентами, и связи между этими компонентами).
Веб-поисковые системы , которые поддерживают поиск по близости с помощью явного оператора близости в своем языке запросов, включают Walhello , Exalead , Yandex , Yahoo! , Альтависта и Бинг :
- При использовании поисковой системы Walhello близость можно определить по количеству символов между ключевыми словами. [1]
- Поисковая система Exalead позволяет пользователю указать необходимую близость, как максимальное количество слов между ключевыми словами. Синтаксис:
(keyword1 NEAR/n keyword2)
где n — количество слов. [2] - Яндекс использует синтаксис
keyword1 /n keyword2
для поиска двух ключевых слов, разделенных не более чем слов и поддерживает несколько других вариантов этого синтаксиса. [3] - Yahoo! и Altavista поддерживают недокументированного оператора NEAR. [4] [5] Синтаксис:
keyword1 NEAR keyword2
. - Поиск Google поддерживает AROUND(#). [6] [7]
- Bing поддерживает NEAR. [8] Синтаксис:
keyword1 near:n keyword2
где n = количество максимальных разделительных слов.
Упорядоченный поиск в Google и Yahoo! поисковых системах можно использовать подстановочные знаки звездочки (*) : в Google это соответствует одному или нескольким словам, [9] и в Yahoo! Поиск соответствует ровно одному слову. [10] (Это легко проверить, выполнив поиск по следующей фразе в Google и Yahoo!: «привыкание * к библиоскопии».)
Эмулировать неупорядоченный поиск оператора NEAR можно с помощью комбинации упорядоченного поиска. Например, чтобы указать близкое совпадение слов «дом» и «собака», можно указать следующее поисковое выражение: «домашняя собака» ИЛИ «собачий дом» ИЛИ «дом * собака» ИЛИ «собака * дом» ИЛИ «дом**собака» ИЛИ «собака**дом».
См. также
[ редактировать ]- Обработка сложных терминов
- Изменить расстояние
- Поиск информации
- Поисковая система
- Индексация поисковых систем – как индексируются тексты для поддержки поиска по близости
- Семантическая близость
Примечания
[ редактировать ]- ^ «О Walhello». Архивировано 1 мая 2012 г. на archive.today , посещение 23 декабря 2009 г.
- ^ «Синтаксис веб-поиска» , посещение 23 декабря 2009 г.
- ^ Страница помощи Яндекса по языку запросов (на русском языке)
- ^ «Успешный запрос близости Yahoo!» (22 февраля 2010 г.)
- ^ «Неудачный запрос близости Yahoo!» (22 февраля 2010 г.)
- ^ «GuidingTech: познакомьтесь с малоизвестным оператором поиска Google»
- ^ «Google предлагает поиск по близости» (8 февраля 2011 г.)
- ^ «Как использовать операторы расширенного поиска Bing»
- ^ "Дополнительная справка по поиску в Google" посещено 23 декабря 2009 г.
- ^ «Обзор Yahoo! Search», сайт Search Engine Showdown, посещение 23 декабря 2009 г.