Сложная обработка

Обработка сложных терминов при поиске информации — это сопоставление результатов поиска на основе сложных терминов . Сложные термины создаются путем объединения двух или более простых терминов; например, «тройной» — это термин из одного слова, а «тройной обход сердца» — составной термин.

Обработка сложных терминов — это новый подход к старой проблеме: как можно повысить релевантность результатов поиска, сохранив при этом простоту использования? Используя этот метод, поиск показателей выживаемости после тройного шунтирования сердца у пожилых людей позволит найти документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это можно выполнить с помощью поиска понятий , который сам по себе использует обработку составных терминов. Это позволит автоматически извлечь ключевые понятия (в данном случае «выживаемость», «тройное шунтирование сердца» и «пожилые люди») и использовать эти понятия для выбора наиболее подходящих документов.

Техники [ править ]

В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки сложных терминов. ^[1]

CLAMOR — это европейский совместный проект, целью которого является поиск лучшего способа классификации при сборе и распространении промышленной информации и статистики. CLAMOR, судя по всему, использует лингвистический подход, а не метод, основанный на статистическом моделировании . ^[2]

История [ править ]

Методы вероятностного взвешивания односложных терминов появились как минимум в 1976 году в знаковой публикации Стивена Э. Робертсона и Карен Сперк Джонс . ^[3] Робертсон заявил, что предположение о независимости слов необоснованно и существует ради математического удобства. Его возражение против термина «независимость» не является новой идеей, возникшей по крайней мере в 1964 году, когда Х. Х. Уильямс заявил, что «[т] предположение о независимости слов в документе обычно делается из соображений математического удобства». ^[4]

В 2004 году Анна Линн Паттерсон подала патенты на «фразовый поиск в системе поиска информации». ^[5] на которые Google впоследствии приобрела. права ^[6]

Адаптивность [ править ]

Статистическая обработка сложных терминов более адаптируема, чем процесс, описанный Паттерсоном. Ее процесс направлен на поиск во Всемирной паутине , где обширные статистические знания общих поисковых запросов могут быть использованы для определения фраз-кандидатов. Статистическая обработка сложных терминов больше подходит для приложений корпоративного поиска , где такие априорные знания недоступны.

Статистическая обработка сложных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOR, который должен учитывать синтаксические свойства терминов (т.е. часть речи, род, число и т. д.) и их комбинации. CLAMOR сильно зависит от языка, тогда как статистический подход не зависит от языка.

Приложения [ править ]

Обработка сложных терминов позволяет приложениям поиска информации, таким как поисковые системы , выполнять сопоставление на основе концепций из нескольких слов, а не отдельных слов по отдельности, которые могут быть весьма неоднозначными.

Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам. Логические поисковые системы усложняют задачу, позволяя пользователю указывать дополнительные требования. Например, в слове «Тайгер РЯДОМ с Вудсом И (гольф ИЛИ игра в гольф) НЕ Volkswagen» используются операторы «РЯДОМ», «И», «ИЛИ» и «НЕ», чтобы указать, что эти слова должны соответствовать определенным требованиям. Фразовый поиск проще в использовании, но требует, чтобы в результатах появлялась точная указанная фраза.

См. также [ править ]

Ссылки [ править ]

^ «Латеральное мышление при поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 20 июня 2008 г. Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. в Wayback Machine.
^ [2] Проект Национальной статистики CLAMOR
^ Робертсон, SE ; Сперк Джонс, К. (1976). «Релевантность поисковых запросов». Журнал Американского общества информатики . 27 (3): 129. дои : 10.1002/asi.4630270302 .
^ УИЛЬЯМС, Дж. Х. (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Методы статистической ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала 17 июля 2011 г. Проверено 21 мая 2015 г.
^ США 20060031195
^ Google приобретает патентные заявки Cuil

[1] «Латеральное мышление при поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15 ноября 2017 г. Проверено 20 июня 2008 г. Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. в Wayback Machine.

[2] [2] Проект Национальной статистики CLAMOR

[3] Робертсон, SE ; Сперк Джонс, К. (1976). «Релевантность поисковых запросов». Журнал Американского общества информатики . 27 (3): 129. дои : 10.1002/asi.4630270302 .

[4] УИЛЬЯМС, Дж. Х. (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Методы статистической ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала 17 июля 2011 г. Проверено 21 мая 2015 г.

[5] США 20060031195

[6] Google приобретает патентные заявки Cuil

[1]

[2]

[3]

[4]

[5]

[6]