Сложная обработка
Обработка сложных терминов при поиске информации — это сопоставление результатов поиска на основе сложных терминов . Сложные термины создаются путем объединения двух или более простых терминов; например, «тройной» — это термин из одного слова, а «тройной обход сердца» — составной термин.
Обработка сложных терминов — это новый подход к старой проблеме: как можно повысить релевантность результатов поиска, сохранив при этом простоту использования? Используя этот метод, поиск показателей выживаемости после тройного шунтирования сердца у пожилых людей позволит найти документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это можно выполнить с помощью поиска понятий , который сам по себе использует обработку составных терминов. Это позволит автоматически извлечь ключевые понятия (в данном случае «выживаемость», «тройное шунтирование сердца» и «пожилые люди») и использовать эти понятия для выбора наиболее подходящих документов.
Техники [ править ]
В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки сложных терминов. [1]
CLAMOR — это европейский совместный проект, целью которого является поиск лучшего способа классификации при сборе и распространении промышленной информации и статистики. CLAMOR, судя по всему, использует лингвистический подход, а не метод, основанный на статистическом моделировании . [2]
История [ править ]
Методы вероятностного взвешивания односложных терминов появились как минимум в 1976 году в знаковой публикации Стивена Э. Робертсона и Карен Сперк Джонс . [3] Робертсон заявил, что предположение о независимости слов необоснованно и существует ради математического удобства. Его возражение против термина «независимость» не является новой идеей, возникшей по крайней мере в 1964 году, когда Х. Х. Уильямс заявил, что «[т] предположение о независимости слов в документе обычно делается из соображений математического удобства». [4]
В 2004 году Анна Линн Паттерсон подала патенты на «фразовый поиск в системе поиска информации». [5] на которые Google впоследствии приобрела. права [6]
Адаптивность [ править ]
Статистическая обработка сложных терминов более адаптируема, чем процесс, описанный Паттерсоном. Ее процесс направлен на поиск во Всемирной паутине , где обширные статистические знания общих поисковых запросов могут быть использованы для определения фраз-кандидатов. Статистическая обработка сложных терминов больше подходит для приложений корпоративного поиска , где такие априорные знания недоступны.
Статистическая обработка сложных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOR, который должен учитывать синтаксические свойства терминов (т.е. часть речи, род, число и т. д.) и их комбинации. CLAMOR сильно зависит от языка, тогда как статистический подход не зависит от языка.
Приложения [ править ]
Обработка сложных терминов позволяет приложениям поиска информации, таким как поисковые системы , выполнять сопоставление на основе концепций из нескольких слов, а не отдельных слов по отдельности, которые могут быть весьма неоднозначными.
Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам. Логические поисковые системы усложняют задачу, позволяя пользователю указывать дополнительные требования. Например, в слове «Тайгер РЯДОМ с Вудсом И (гольф ИЛИ игра в гольф) НЕ Volkswagen» используются операторы «РЯДОМ», «И», «ИЛИ» и «НЕ», чтобы указать, что эти слова должны соответствовать определенным требованиям. Фразовый поиск проще в использовании, но требует, чтобы в результатах появлялась точная указанная фраза.
См. также [ править ]
Ссылки [ править ]
- ^ «Латеральное мышление при поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 20 июня 2008 г. Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. в Wayback Machine.
- ^ [2] Проект Национальной статистики CLAMOR
- ^ Робертсон, SE ; Сперк Джонс, К. (1976). «Релевантность поисковых запросов». Журнал Американского общества информатики . 27 (3): 129. дои : 10.1002/asi.4630270302 .
- ^ УИЛЬЯМС, Дж. Х. (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Методы статистической ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала 17 июля 2011 г. Проверено 21 мая 2015 г.
- ^ США 20060031195
- ^ Google приобретает патентные заявки Cuil