Jump to content

Классификация веб-запросов

является Классификация/категоризация тем веб-запросов проблемой информатики . Задача состоит в том, чтобы отнести поисковый запрос в Интернете к одной или нескольким предопределенным категориям на основе его тем. Важность классификации запросов подчеркивается многими службами веб-поиска. Прямое применение — предоставить лучшие страницы результатов поиска для пользователей с интересами разных категорий. Например, пользователи, отправляющие веб-запрос « яблоко », могут ожидать увидеть веб-страницы, связанные с фруктовым яблоком, или они могут предпочесть видеть продукты или новости, связанные с компьютерной компанией. Службы онлайн-рекламы могут полагаться на результаты классификации запросов для более точного продвижения различных продуктов. Страницы результатов поиска можно группировать по категориям, предсказанным алгоритмом классификации запросов. Однако вычисление классификации запросов нетривиально. В отличие от задач классификации документов , запросы, отправляемые пользователями веб-поиска, обычно короткие и неоднозначные; Кроме того, значения запросов со временем меняются. Таким образом, классификация тем запроса намного сложнее, чем традиционные задачи классификации документов.

КДДКУП 2005

[ редактировать ]

Конкурс KDDCUP 2005 [1] подчеркнул интересы в классификации запросов. Целью конкурса является классификация 800 000 запросов реальных пользователей по 67 целевым категориям. Каждый запрос может принадлежать более чем одной целевой категории. В качестве примера задачи контроля качества, учитывая запрос «яблоко», его следует классифицировать по ранжированным категориям: «Компьютеры \ Аппаратное обеспечение; Жилье \ Еда и кулинария».

Запрос Категории
яблоко Компьютеры \ Аппаратное обеспечение
Жизнь \ Еда и кулинария
ФИФА 2006 Спорт \ Футбол
Спорт \ Расписание и билеты
Развлечения \ Игры и игрушки
рецепты чизкейков Жизнь \ Еда и кулинария
Информация \ Искусство и гуманитарные науки
стихотворение о дружбе Информация \ Искусство и гуманитарные науки
Жизнь \ Знакомства и отношения

Трудности

[ редактировать ]

Классификация тем веб-запросов заключается в автоматическом присвоении запроса некоторым предопределенным категориям. В отличие от традиционных задач классификации документов, существует несколько основных трудностей, которые мешают пониманию веб-запросов :

Как получить подходящее представление функций для веб-запросов?

[ редактировать ]

Многие запросы короткие, а термины запроса содержат много шума. Например, в наборе данных KDDCUP 2005 чаще всего встречаются запросы, содержащие 3 слова (22%). При этом 79% запросов содержат не более 4 слов. Пользовательский запрос часто имеет несколько значений. Например, « яблоко » может означать вид фрукта или компьютерную компанию. « Ява » может означать язык программирования или остров в Индонезии. В наборе данных KDDCUP 2005 большинство запросов содержат более одного значения. Поэтому использование только ключевых слов запроса для настройки модели векторного пространства для классификации нецелесообразно.

  • Методы, основанные на расширении запросов [2] [3] начните с обогащения запросов пользователей к коллекции текстовых документов через поисковые системы . Таким образом, каждый запрос представлен псевдодокументом, который состоит из фрагментов страниц результатов с самым высоким рейтингом, полученных поисковой системой. Впоследствии текстовые документы классифицируются по целевым категориям с использованием классификатора на основе синонимов или статистических классификаторов, таких как наивный байесовский метод (NB) и машины опорных векторов (SVM).

Как адаптировать изменения запросов и категорий с течением времени?

[ редактировать ]

Смысл запросов также может меняться со временем. Таким образом, старые помеченные обучающие запросы могут скоро оказаться без данных и бесполезными. Большим вопросом становится то, как сделать классификатор адаптивным с течением времени. Например, слово « Барселона » имеет новое значение нового микропроцессора AMD, хотя оно относится к городу или футбольному клубу до 2007 года. Таким образом, распределение значений этого термина в Интернете является функцией времени. .

  • Метод, основанный на промежуточной таксономии [4] сначала строит связующий классификатор на основе промежуточной таксономии, такой как Open Directory Project (ODP), в автономном режиме. Затем этот классификатор используется в онлайн-режиме для сопоставления запросов пользователей с целевыми категориями с помощью промежуточной таксономии. Преимущество этого подхода в том, что мостовой классификатор необходимо обучать только один раз, и он адаптируется к каждому новому набору целевых категорий и входящих запросов.

Как использовать немаркированные журналы запросов для классификации запросов?

[ редактировать ]

Поскольку размеченные вручную данные обучения для классификации запросов стоят дорого, то, как использовать очень большой журнал запросов веб-поисковой системы в качестве источника неразмеченных данных для помощи в автоматической классификации запросов, становится актуальной проблемой. Эти журналы записывают поведение пользователей Интернета при поиске информации через поисковую систему. С течением времени журналы запросов стали богатым ресурсом, содержащим знания пользователей Интернета о Всемирной паутине.

  • Метод кластеризации запросов [5] пытается связать связанные запросы путем кластеризации «данных сеанса», которые содержат несколько запросов и информацию о кликах в результате одного взаимодействия с пользователем. Они учитывают термины из результирующих документов, которые являются общими для набора запросов. Показано, что использование ключевых слов запроса вместе с данными сеанса является наиболее эффективным методом кластеризации запросов.
  • Метод, основанный на селективных предпочтениях [6] пытается использовать некоторые правила ассоциации между терминами запроса, чтобы облегчить классификацию запроса. Учитывая данные обучения, они используют несколько подходов классификации, включая точное совпадение с использованием размеченных данных, сопоставление N-грамм с использованием размеченных данных и классификаторы, основанные на восприятии. Они делают упор на подходе, заимствованном из компьютерной лингвистики, под названием «селективные предпочтения». Если x и y образуют пару (x; y) и y принадлежит категории c, то все остальные пары (x; z), возглавляемые x, принадлежат категории c. Они используют немаркированные данные журнала запросов для анализа этих правил и проверки эффективности своих подходов на некоторых помеченных запросах.

Приложения

[ редактировать ]
  • Метапоисковые системы отправляют запрос пользователя в несколько поисковых систем и объединяют лучшие результаты каждой из них в один общий список. Поисковая система может организовать большое количество веб-страниц в результатах поиска в соответствии с потенциальными категориями выдаваемого запроса для удобства навигации веб-пользователей.
  • Вертикальный поиск , по сравнению с общим поиском, фокусируется на конкретных областях и удовлетворяет конкретные информационные потребности нишевых аудиторий и профессий. Как только поисковая система сможет предсказать категорию информации, которую ищет пользователь Интернета, она сможет автоматически выбирать определенную вертикальную поисковую систему, не заставляя пользователя явно обращаться к вертикальной поисковой системе.
  • Интернет-реклама [7] [8] Целью является предоставление интересной рекламы пользователям Интернета во время их поисковой деятельности. Поисковая система может предоставлять пользователям Интернета релевантную рекламу в соответствии с их интересами, так что пользователи Интернета могут сэкономить время и усилия на исследованиях, а рекламодатели могут сократить свои расходы на рекламу.

Все эти службы полагаются на понимание поисковых намерений веб-пользователей посредством их веб-запросов.

См. также

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 450e42574bfd54f6962141eee6118f18__1638056820
URL1:https://arc.ask3.ru/arc/aa/45/18/450e42574bfd54f6962141eee6118f18.html
Заголовок, (Title) документа по адресу, URL1:
Web query classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)