Jump to content

Сложная обработка

Обработка сложных терминов при поиске информации — это сопоставление результатов поиска на основе сложных терминов . Сложные термины создаются путем объединения двух или более простых терминов; например, «тройной» — это термин из одного слова, а «тройной обход сердца» — составной термин.

Обработка сложных терминов — это новый подход к старой проблеме: как можно повысить релевантность результатов поиска, сохранив при этом простоту использования? Используя этот метод, поиск показателей выживаемости после тройного шунтирования сердца у пожилых людей позволит найти документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это можно выполнить с помощью поиска понятий , который сам по себе использует обработку составных терминов. Это позволит автоматически извлечь ключевые понятия (в данном случае «выживаемость», «тройное шунтирование сердца» и «пожилые люди») и использовать эти понятия для выбора наиболее подходящих документов.

Техники [ править ]

В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки сложных терминов. [1]

CLAMOR — это европейский совместный проект, целью которого является поиск лучшего способа классификации при сборе и распространении промышленной информации и статистики. CLAMOR, судя по всему, использует лингвистический подход, а не метод, основанный на статистическом моделировании . [2]

История [ править ]

Методы вероятностного взвешивания односложных терминов появились как минимум в 1976 году в знаковой публикации Стивена Э. Робертсона и Карен Сперк Джонс . [3] Робертсон заявил, что предположение о независимости слов необоснованно и существует ради математического удобства. Его возражение против термина «независимость» не является новой идеей, возникшей по крайней мере в 1964 году, когда Х. Х. Уильямс заявил, что «[т] предположение о независимости слов в документе обычно делается из соображений математического удобства». [4]

В 2004 году Анна Линн Паттерсон подала патенты на «фразовый поиск в системе поиска информации». [5] на которые Google впоследствии приобрела. права [6]

Адаптивность [ править ]

Статистическая обработка сложных терминов более адаптируема, чем процесс, описанный Паттерсоном. Ее процесс направлен на поиск во Всемирной паутине , где обширные статистические знания общих поисковых запросов могут быть использованы для определения фраз-кандидатов. Статистическая обработка сложных терминов больше подходит для приложений корпоративного поиска , где такие априорные знания недоступны.

Статистическая обработка сложных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOR, который должен учитывать синтаксические свойства терминов (т.е. часть речи, род, число и т. д.) и их комбинации. CLAMOR сильно зависит от языка, тогда как статистический подход не зависит от языка.

Приложения [ править ]

Обработка сложных терминов позволяет приложениям поиска информации, таким как поисковые системы , выполнять сопоставление на основе концепций из нескольких слов, а не отдельных слов по отдельности, которые могут быть весьма неоднозначными.

Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам. Логические поисковые системы усложняют задачу, позволяя пользователю указывать дополнительные требования. Например, в слове «Тайгер РЯДОМ с Вудсом И (гольф ИЛИ игра в гольф) НЕ Volkswagen» используются операторы «РЯДОМ», «И», «ИЛИ» и «НЕ», чтобы указать, что эти слова должны соответствовать определенным требованиям. Фразовый поиск проще в использовании, но требует, чтобы в результатах появлялась точная указанная фраза.

См. также [ править ]

Ссылки [ править ]

  1. ^ «Латеральное мышление при поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 20 июня 2008 г. Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. в Wayback Machine.
  2. ^ [2] Проект Национальной статистики CLAMOR
  3. ^ Робертсон, SE ; Сперк Джонс, К. (1976). «Релевантность поисковых запросов». Журнал Американского общества информатики . 27 (3): 129. дои : 10.1002/asi.4630270302 .
  4. ^ УИЛЬЯМС, Дж. Х. (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Методы статистической ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала 17 июля 2011 г. Проверено 21 мая 2015 г.
  5. ^ США 20060031195  
  6. ^ Google приобретает патентные заявки Cuil
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: eda8d7da2bf0ddd4d7ab279228e45436__1609448700
URL1:https://arc.ask3.ru/arc/aa/ed/36/eda8d7da2bf0ddd4d7ab279228e45436.html
Заголовок, (Title) документа по адресу, URL1:
Compound-term processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)