Классификация веб-запросов
![]() | Эту статью может потребовать очистки Википедии , чтобы она соответствовала стандартам качества . ( Март 2011 г. ) |
является Классификация/категоризация тем веб-запросов проблемой информатики . Задача состоит в том, чтобы отнести поисковый запрос в Интернете к одной или нескольким предопределенным категориям на основе его тем. Важность классификации запросов подчеркивается многими службами веб-поиска. Прямое применение — предоставить лучшие страницы результатов поиска для пользователей с интересами разных категорий. Например, пользователи, отправляющие веб-запрос « яблоко », могут ожидать увидеть веб-страницы, связанные с фруктовым яблоком, или они могут предпочесть видеть продукты или новости, связанные с компьютерной компанией. Службы онлайн-рекламы могут полагаться на результаты классификации запросов для более точного продвижения различных продуктов. Страницы результатов поиска можно группировать по категориям, предсказанным алгоритмом классификации запросов. Однако вычисление классификации запросов нетривиально. В отличие от задач классификации документов , запросы, отправляемые пользователями веб-поиска, обычно короткие и неоднозначные; Кроме того, значения запросов со временем меняются. Таким образом, классификация тем запроса намного сложнее, чем традиционные задачи классификации документов.
КДДКУП 2005
[ редактировать ]Конкурс KDDCUP 2005 [1] подчеркнул интересы в классификации запросов. Целью конкурса является классификация 800 000 запросов реальных пользователей по 67 целевым категориям. Каждый запрос может принадлежать более чем одной целевой категории. В качестве примера задачи контроля качества, учитывая запрос «яблоко», его следует классифицировать по ранжированным категориям: «Компьютеры \ Аппаратное обеспечение; Жилье \ Еда и кулинария».
Запрос | Категории |
---|---|
яблоко | Компьютеры \ Аппаратное обеспечение Жизнь \ Еда и кулинария |
ФИФА 2006 | Спорт \ Футбол Спорт \ Расписание и билеты Развлечения \ Игры и игрушки |
рецепты чизкейков | Жизнь \ Еда и кулинария Информация \ Искусство и гуманитарные науки |
стихотворение о дружбе | Информация \ Искусство и гуманитарные науки Жизнь \ Знакомства и отношения |
Трудности
[ редактировать ]Классификация тем веб-запросов заключается в автоматическом присвоении запроса некоторым предопределенным категориям. В отличие от традиционных задач классификации документов, существует несколько основных трудностей, которые мешают пониманию веб-запросов :
Как получить подходящее представление функций для веб-запросов?
[ редактировать ]Многие запросы короткие, а термины запроса содержат много шума. Например, в наборе данных KDDCUP 2005 чаще всего встречаются запросы, содержащие 3 слова (22%). При этом 79% запросов содержат не более 4 слов. Пользовательский запрос часто имеет несколько значений. Например, « яблоко » может означать вид фрукта или компьютерную компанию. « Ява » может означать язык программирования или остров в Индонезии. В наборе данных KDDCUP 2005 большинство запросов содержат более одного значения. Поэтому использование только ключевых слов запроса для настройки модели векторного пространства для классификации нецелесообразно.
- Методы, основанные на расширении запросов [2] [3] начните с обогащения запросов пользователей к коллекции текстовых документов через поисковые системы . Таким образом, каждый запрос представлен псевдодокументом, который состоит из фрагментов страниц результатов с самым высоким рейтингом, полученных поисковой системой. Впоследствии текстовые документы классифицируются по целевым категориям с использованием классификатора на основе синонимов или статистических классификаторов, таких как наивный байесовский метод (NB) и машины опорных векторов (SVM).
Как адаптировать изменения запросов и категорий с течением времени?
[ редактировать ]Смысл запросов также может меняться со временем. Таким образом, старые помеченные обучающие запросы могут скоро оказаться без данных и бесполезными. Большим вопросом становится то, как сделать классификатор адаптивным с течением времени. Например, слово « Барселона » имеет новое значение нового микропроцессора AMD, хотя оно относится к городу или футбольному клубу до 2007 года. Таким образом, распределение значений этого термина в Интернете является функцией времени. .
- Метод, основанный на промежуточной таксономии [4] сначала строит связующий классификатор на основе промежуточной таксономии, такой как Open Directory Project (ODP), в автономном режиме. Затем этот классификатор используется в онлайн-режиме для сопоставления запросов пользователей с целевыми категориями с помощью промежуточной таксономии. Преимущество этого подхода в том, что мостовой классификатор необходимо обучать только один раз, и он адаптируется к каждому новому набору целевых категорий и входящих запросов.
Как использовать немаркированные журналы запросов для классификации запросов?
[ редактировать ]Поскольку размеченные вручную данные обучения для классификации запросов стоят дорого, то, как использовать очень большой журнал запросов веб-поисковой системы в качестве источника неразмеченных данных для помощи в автоматической классификации запросов, становится актуальной проблемой. Эти журналы записывают поведение пользователей Интернета при поиске информации через поисковую систему. С течением времени журналы запросов стали богатым ресурсом, содержащим знания пользователей Интернета о Всемирной паутине.
- Метод кластеризации запросов [5] пытается связать связанные запросы путем кластеризации «данных сеанса», которые содержат несколько запросов и информацию о кликах в результате одного взаимодействия с пользователем. Они учитывают термины из результирующих документов, которые являются общими для набора запросов. Показано, что использование ключевых слов запроса вместе с данными сеанса является наиболее эффективным методом кластеризации запросов.
- Метод, основанный на селективных предпочтениях [6] пытается использовать некоторые правила ассоциации между терминами запроса, чтобы облегчить классификацию запроса. Учитывая данные обучения, они используют несколько подходов классификации, включая точное совпадение с использованием размеченных данных, сопоставление N-грамм с использованием размеченных данных и классификаторы, основанные на восприятии. Они делают упор на подходе, заимствованном из компьютерной лингвистики, под названием «селективные предпочтения». Если x и y образуют пару (x; y) и y принадлежит категории c, то все остальные пары (x; z), возглавляемые x, принадлежат категории c. Они используют немаркированные данные журнала запросов для анализа этих правил и проверки эффективности своих подходов на некоторых помеченных запросах.
Приложения
[ редактировать ]- Метапоисковые системы отправляют запрос пользователя в несколько поисковых систем и объединяют лучшие результаты каждой из них в один общий список. Поисковая система может организовать большое количество веб-страниц в результатах поиска в соответствии с потенциальными категориями выдаваемого запроса для удобства навигации веб-пользователей.
- Вертикальный поиск , по сравнению с общим поиском, фокусируется на конкретных областях и удовлетворяет конкретные информационные потребности нишевых аудиторий и профессий. Как только поисковая система сможет предсказать категорию информации, которую ищет пользователь Интернета, она сможет автоматически выбирать определенную вертикальную поисковую систему, не заставляя пользователя явно обращаться к вертикальной поисковой системе.
- Интернет-реклама [7] [8] Целью является предоставление интересной рекламы пользователям Интернета во время их поисковой деятельности. Поисковая система может предоставлять пользователям Интернета релевантную рекламу в соответствии с их интересами, так что пользователи Интернета могут сэкономить время и усилия на исследованиях, а рекламодатели могут сократить свои расходы на рекламу.
Все эти службы полагаются на понимание поисковых намерений веб-пользователей посредством их веб-запросов.
См. также
[ редактировать ]- Классификация документов
- Поисковый запрос в Интернете
- Поиск информации
- Расширение запроса
- Наивный классификатор Байеса
- Машины опорных векторов
- Мета-поиск
- Вертикальный поиск
- Интернет-реклама
Ссылки
[ редактировать ]- ^ Набор данных KDDCUP 2005 г.
- ^ Шен и др. «Q2C@UST: наше выигрышное решение для классификации запросов» . ACM SIGKDD Exploration, декабрь 2005 г., том 7, выпуск 2 .
- ^ Шен и др. «Расширение запросов для классификации веб-запросов» . АСМ ТОЙС, Vol. 24, № 3, июль 2006 г.
- ^ Шен и др. «Построение мостов для классификации веб-запросов» . АСМ СИГИР, 2006 г.
- ^ Вен и др. «Кластеризация запросов с использованием пользовательских журналов» , ACM TOIS, том 20, выпуск 1, январь 2002 г.
- ^ Бейтцель и др. «Автоматическая классификация веб-запросов с использованием очень больших журналов немаркированных запросов» , ACM TOIS, том 25, выпуск 2, апрель 2007 г.
- ^ Интеллектуальный анализ данных и анализ аудитории для рекламы (ADKDD'07) , семинар KDD, 2007 г.
- ^ Таргетинг и ранжирование онлайн-рекламы (TROA'08) , семинар WWW, 2008 г.
Дальнейшее чтение
[ редактировать ]- Шен. «Понимание веб-запросов на основе обучения» . Кандидатская диссертация , HKUST , июнь 2007 г.