Jump to content

Поиск близости (текст)

При обработке текста поиск по близости ищет документы, в которых два или более отдельно совпадающих термина находятся в пределах заданного расстояния , где расстояние — это количество промежуточных слов или символов. Помимо близости, некоторые реализации могут также налагать ограничение на порядок слов, при котором порядок в искомом тексте должен быть идентичен порядку поискового запроса. Поиск по близости выходит за рамки простого сопоставления слов, добавляя ограничение близости, и обычно рассматривается как форма расширенного поиска.

Например, с помощью поиска можно найти «дом из красного кирпича» и сопоставить такие фразы, как «дом из красного кирпича» или «дом из красного кирпича». Ограничивая близость, можно сопоставить эти фразы, избегая при этом документов, в которых слова разбросаны или разбросаны по странице, а также в несвязанных статьях антологии.

Обоснование

[ редактировать ]

Основное лингвистическое предположение поиска близости заключается в том, что близость слов в документе подразумевает связь между словами. Учитывая, что авторы документов пытаются сформулировать предложения, содержащие одну идею или группу связанных идей в соседних предложениях или организованных в абзацы, в структуре документа существует относительно высокая вероятность того, что слова, используемые вместе, связаны между собой. С другой стороны, когда два слова находятся на противоположных концах книги, вероятность связи между словами относительно мала. Ограничивая результаты поиска включением только совпадений, в которых слова находятся в пределах заданной максимальной близости или расстояния, предполагается, что результаты поиска имеют более высокую релевантность, чем совпадения, в которых слова разбросаны.

Коммерческие поисковые системы Интернета имеют тенденцию выдавать слишком много совпадений (известных как отзыв) для среднего поискового запроса. Поиск по близости — это один из методов уменьшения количества совпадений страниц и повышения релевантности совпадающих страниц за счет использования близости слов для облегчения ранжирования. В качестве дополнительного преимущества поиск по близости помогает бороться со спамдексом , избегая веб-страниц, содержащих списки словарей или списки из тысяч слов, которые в противном случае имели бы высокий рейтинг, если бы поисковая система была сильно предвзята к частоте слов .

Логический синтаксис и операторы

[ редактировать ]

Обратите внимание, что поиск по близости может означать, что только некоторые ключевые слова должны находиться в пределах указанного расстояния. Поиск по близости можно использовать с другим синтаксисом поиска и/или элементами управления, чтобы обеспечить более четкие поисковые запросы. Иногда операторы запроса, такие как NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE или FAR, используются для указания предела поиска по близости между указанными ключевыми словами: например, «кирпичный РЯДОМ с домом».

Использование в коммерческих поисковых системах

[ редактировать ]

Что касается неявного/автоматического поиска по сравнению с явным поиском по близости, то по состоянию на ноябрь 2008 года большинство поисковых систем Интернета реализуют только функцию неявного поиска по близости. То есть они автоматически ранжируют выше те результаты поиска, где ключевые слова пользователя имеют хороший «общий показатель близости» в таких результатах. Если в поисковом запросе присутствуют только два ключевых слова, это не отличается от явного поиска по близости, при котором между двумя ключевыми словами помещается оператор NEAR. Однако если присутствуют три или более трех ключевых слов, пользователю часто важно указать, какие подмножества этих ключевых слов ожидают близости в результатах поиска. Это полезно, если пользователь хочет выполнить поиск по известному уровню техники (например, найти существующий подход для выполнения конкретной задачи, найти документ, раскрывающий систему, которая демонстрирует процедурное поведение, совместно выполняемое несколькими компонентами, и связи между этими компонентами).

Веб-поисковые системы , которые поддерживают поиск по близости с помощью явного оператора близости в своем языке запросов, включают Walhello , Exalead , Yandex , Yahoo! , Альтависта и Бинг :

  • При использовании поисковой системы Walhello близость можно определить по количеству символов между ключевыми словами. [1]
  • Поисковая система Exalead позволяет пользователю указать необходимую близость, как максимальное количество слов между ключевыми словами. Синтаксис: (keyword1 NEAR/n keyword2) где n — количество слов. [2]
  • Яндекс использует синтаксис keyword1 /n keyword2 для поиска двух ключевых слов, разделенных не более чем слов и поддерживает несколько других вариантов этого синтаксиса. [3]
  • Yahoo! и Altavista поддерживают недокументированного оператора NEAR. [4] [5] Синтаксис: keyword1 NEAR keyword2.
  • Поиск Google поддерживает AROUND(#). [6] [7]
  • Bing поддерживает NEAR. [8] Синтаксис: keyword1 near:n keyword2 где n = количество максимальных разделительных слов.

Упорядоченный поиск в Google и Yahoo! поисковых системах можно использовать подстановочные знаки звездочки (*) : в Google это соответствует одному или нескольким словам, [9] и в Yahoo! Поиск соответствует ровно одному слову. [10] (Это легко проверить, выполнив поиск по следующей фразе в Google и Yahoo!: «привыкание * к библиоскопии».)

Эмулировать неупорядоченный поиск оператора NEAR можно с помощью комбинации упорядоченного поиска. Например, чтобы указать близкое совпадение слов «дом» и «собака», можно указать следующее поисковое выражение: «домашняя собака» ИЛИ «собачий дом» ИЛИ «дом * собака» ИЛИ «собака * дом» ИЛИ «дом**собака» ИЛИ «собака**дом».

См. также

[ редактировать ]

Примечания

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b54470ebe6f5da0e1bf5fcf1e6c10ab4__1707419640
URL1:https://arc.ask3.ru/arc/aa/b5/b4/b54470ebe6f5da0e1bf5fcf1e6c10ab4.html
Заголовок, (Title) документа по адресу, URL1:
Proximity search (text) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)