Расширение запроса
Расширение запроса ( QE ) — это процесс переформулирования данного запроса для повышения производительности операций поиска информации , особенно в контексте понимания запроса . [1] В контексте поисковых систем расширение запроса включает в себя оценку ввода пользователя (какие слова были введены в область поискового запроса, а иногда и другие типы данных ) и расширение поискового запроса для соответствия дополнительным документам. Расширение запроса включает в себя такие методы, как:
- Нахождение синонимов слов, а также поиск синонимов
- Нахождение семантически связанных слов (например , антонимов , меронимов , гипонимов , гиперонимов )
- Нахождение всех различных морфологических форм слов путем определения основы каждого слова в поисковом запросе.
- Исправление орфографических ошибок и автоматический поиск исправленной формы или предложение ее в результатах
- Повторное взвешивание терминов в исходном запросе
Расширение запросов — это методология, изучаемая в области информатики , особенно в области обработки естественного языка и поиска информации .
Компромиссы между точностью и полнотой [ править ]
Поисковые системы используют расширение запросов, чтобы повысить качество результатов поиска пользователей. Предполагается, что пользователи не всегда формулируют поисковые запросы, используя лучшие термины. Лучше всего в этом случае может быть то, что база данных не содержит введенных пользователем терминов.
Благодаря определению термина, введенного пользователем, сопоставляется больше документов, поскольку сопоставляются также альтернативные словоформы для термина, введенного пользователем, что увеличивает общий объем запоминаемости . Это происходит за счет снижения точности . Расширение поискового запроса для поиска синонимов введенного пользователем термина также увеличивает запоминаемость за счет точности. Это связано с характером уравнения расчета точности: больший отзыв неявно приводит к снижению точности, учитывая, что коэффициенты полноты являются частью знаменателя. Также предполагается, что больший объем отзыва отрицательно влияет на общее качество результатов поиска, поскольку многие пользователи не хотят, чтобы они просматривали больше результатов, независимо от точности.
Целью расширения запросов в этом отношении является увеличение отзыва, точность может потенциально увеличиться (а не уменьшиться, как это математически приравнивается), за счет включения в набор результатов страниц, которые более релевантны (более высокого качества) или, по крайней мере, одинаково релевантны. Страницы, которые не были бы включены в набор результатов и потенциально могут быть более релевантными желаемому запросу пользователя, включаются и без расширения запроса не были бы включены, независимо от релевантности . В то же время многие современные коммерческие поисковые системы используют частоту слов ( tf-idf ) для ранжирования. [ нужна ссылка ] Ранжируя вхождение введенных пользователем слов, синонимов и альтернативных морфологических форм, документы с более высокой плотностью (высокая частота и близость) имеют тенденцию перемещаться выше в результатах поиска, что приводит к более высокому качеству результатов поиска вблизи на вершине результатов, несмотря на больший отзыв.
Методы расширения запроса [ править ]
Автоматические методы расширения запросов были предложены в 1960 году Мароном и Кунсом. [2] Современные методы расширения запросов подразумевают либо анализ коллекции документов (глобальной, либо локальной). [3] или основаны на словаре или онтологии . [4] Глобальный анализ коллекции документов применяется для поиска связей между терминами. Локальный анализ относится к обратной связи по релевантности, представленной Роккио. [5] Роккио предложил вручную оценить некоторые из полученных документов и использовать эту информацию обратной связи для расширения запроса. Поскольку сбор мнений пользователей может быть затруднительным, релевантными считаются только первые найденные документы. Это так называемая обратная связь псевдорелевантности (PRF). [6] Обратная связь по псевдорелевантности в среднем эффективна, но может испортить результаты по некоторым запросам. [7] особенно сложные, поскольку наиболее часто извлекаемые документы, вероятно, не имеют отношения к делу. Псевдорелевантные документы используются для поиска терминов-кандидатов на расширение, которые встречаются одновременно со многими терминами запроса. [8] Эта идея получила дальнейшее развитие в рамках формализма языковой модели релевантности в позиционной релевантности. [9] и модели релевантности близости [10] которые учитывают расстояние до условий запроса в псевдорелевантных документах. Еще одним направлением расширения запросов является представление индексов и терминов запроса в векторном пространстве, которое можно использовать для поиска связанных терминов во время запроса с использованием семантических векторов или встраивания слов . [11] [12]
В более общем смысле, расширение запроса и его аналог расширения документа сегодня реализуются в виде векторных баз данных с использованием различных схем кодирования, основанных на глубоком обучении . [13]
См. также [ править ]
- Поиск документов
- Поиск информации
- Лингвистика
- Морфология (лингвистика)
- Обработка естественного языка
- Поисковая система
- Индексация поисковыми системами
- Стемминг
Библиотеки программного обеспечения [ править ]
- QueryTermAnalyzer с открытым исходным кодом, C#. Вес термина запроса на основе машинного обучения и анализатор синонимов для расширения запроса.
- LucQE — с открытым исходным кодом, Java. Предоставляет платформу вместе с несколькими реализациями, которые позволяют выполнять расширение запросов с использованием Apache Lucene .
- Xapian — это поисковая библиотека с открытым исходным кодом, которая включает поддержку расширения запросов.
- ReQue с открытым исходным кодом, Python. Настраиваемая программная среда и набор наборов данных «золотого стандарта» для обучения и оценки методов контролируемого расширения запросов. [14] [15]
Ссылки [ править ]
Цитаты [ править ]
- ^ Вектомова, Ольга; Ван, Ин (2006). «Исследование влияния близости терминов на расширение запроса». Журнал информатики . 32 (4): 324–333. CiteSeerX 10.1.1.552.5987 . дои : 10.1177/0165551506065787 . S2CID 7265523 .
- ^ Марон, М.Э. и Кунс, Дж.Л., 1960. Об релевантности, вероятностном индексировании и поиске информации. Журнал ACM 7, 3, 216–244.
- ^ К. Карпинето и Дж. Романо. Обзор автоматического расширения запросов при поиске информации. ACM Computing Surveys, 44(1):1-50, январь 2012 г.
- ^ Дж. Бхогал, А. Макфарлейн и П. Смит. Обзор расширения запросов на основе онтологий. Инф. Процесс. Manage., 43(4):866-886, июль 2007 г.
- ^ Дж. Роккио. Релевантность обратной связи при поиске информации. В Поисковой системе SMART, стр. 313-323. 1971.
- ^ К. Бакли. Автоматическое расширение запроса с использованием SMART: TREC 3. В материалах третьей конференции по поиску текста (TREC-3). Специальная публикация NIST, стр. 69-80. Национальный институт стандартов и технологий, 1995.
- ^ Дж. Амати, К. Карпинето и Дж. Романо. Сложность запроса, надежность и выборочное применение расширения запроса. Достижения в области информационного поиска, с. 127-137, 2004.
- ^ Дж. Сюй и В. Б. Крофт. Расширение запросов с использованием локального и глобального анализа документов. В материалах 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, страницы 4–11. АКМ, 1996.
- ^ Ю. Льв и К. Чжай. Модель позиционной релевантности для обратной связи о псевдорелевантности. В материалах 33-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 579-586.АКМ, 2010.
- ^ Л. Ермакова, Дж. Мот и Е. Никитина. 2016. Модель релевантности близости для расширения запросов. В материалах 31-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '16). ACM, Нью-Йорк, штат Нью-Йорк, США, 1054–1059. DOI: https://doi.org/10.1145/2851613.2851696.
- ^ Салгрен, Магнус, Юсси Карлгрен, Рикард Кестер и Тимо Ярвинен. 2003. «Автоматическое расширение запроса с использованием случайной индексации». Достижения в области межъязыкового поиска информации: третий семинар Форума межъязыковой оценки (CLEF). Спрингер.
- ^ С. Кузи, А. Шток, О. Курлянд. 2016. Расширение запроса с использованием встраивания слов. В материалах 25-й Международной конференции ACM по управлению информацией и знаниями (CIKM '16). ACM, Нью-Йорк, штат Нью-Йорк, США, 1929–1932 гг. DOI: https://doi.org/10.1145/2983323.2983876.
- ^ Лин, Джимми; Ногейра, Родриго; Йейтс, Эндрю (13 октября 2020 г.). «Предварительно обученные преобразователи для ранжирования текста: BERT и не только». arXiv : 2010.06467 [ cs.IR ].
- ^ Махтаб Таманнаи, Хосейн Фани, Фаттане Зарринкалам, Джамиль Самух, Самад Пайдар, Ибрагим Багери:ReQue: настраиваемый рабочий процесс и сбор наборов данных для уточнения запросов. ЦИКМ 2020: 3165-3172
- ^ Хосейн Фани, Махтаб Таманнаи, Фаттане Зарринкалам, Джамиль Самух, Самад Пайдар, Ибрагим Багери; Расширяемый набор инструментов для методов уточнения запросов и создания наборов данных золотого стандарта. В достижениях в области информационного поиска: 43-я Европейская конференция по IR-исследованиям (ECIR'21), 2021 г.
Источники [ править ]
- Д. Эбберли, Д. Кирби, С. Реналс и Т. Робинсон, Система поиска новостей вещания THISL. В Proc. Семинар ESCA ETRW по доступу к информации в устном аудио , (Кембридж), стр. 14–19, 1999. Раздел о расширении запроса - краткий математический обзор.
- Р. Навильи, П. Веларди. Анализ стратегий расширения запросов на основе онтологий . Учеб. семинара по адаптивному извлечению и интеллектуальному анализу текста (ATEM 2003) , на 14-й Европейской конференции по машинному обучению (ECML 2003) , Цавтат-Дубровник, Хорватия, 22–26 сентября 2003 г., стр. 42–49. Анализ расширения запросов. методы, использующие WordNet в качестве эталонной онтологии.
- Ю. Цю и Х. П. Фрей. Расширение запросов на основе концепций . В материалах SIGIR-93, 16-й Международной конференции ACM по исследованиям и разработкам в области поиска информации , Питтсбург, SIGIR Forum, ACM Press, июнь 1993 г. - академический документ о конкретном методе расширения запросов.
- Эфтимис Н. Эфтимиадис. Расширение запроса . В: Марта Э. Уильямс (редактор), Ежегодный обзор информационных систем и технологий (ARIST) , т. 31, стр. 121–187, 1996 г. - Введение для менее технических читателей.