Понимание запроса

Понимание запроса — это процесс определения намерений пользователя поисковой системы путем извлечения семантического значения из ключевых слов искателя. ^[1] Методы понимания запроса обычно применяются до того, как поисковая система получит и ранжирует результаты. Он связан с обработкой естественного языка , но конкретно ориентирован на понимание поисковых запросов. Понимание запросов лежит в основе таких технологий, как Amazon Alexa , ^[2] Apple от Siri . ^[3] Гугл Ассистент , ^[4] IBM Watson , ^[5] и Microsoft от Cortana . ^[6]

Методы [ править ]

Токенизация [ править ]

Токенизация — это процесс разбиения текстовой строки на слова или другие значимые элементы, называемые токенами. Обычно токенизация происходит на уровне слов. Однако иногда бывает сложно определить, что подразумевается под словом. Часто токенизатор полагается на простые эвристики, такие как разделение строки на символы пунктуации и пробелы . Токенизация является более сложной задачей в языках без пробелов между словами, таких как китайский и японский . Токенизация текста на этих языках требует использования сегментации слов алгоритмов . ^[7]

Исправление орфографии [ править ]

Орфографическая коррекция — это процесс автоматического обнаружения и исправления орфографических ошибок в поисковых запросах. Большинство алгоритмов исправления орфографии основаны на языковой модели , которая определяет априорную вероятность предполагаемого запроса, и модели ошибок (обычно модель канала с шумом ), которая определяет вероятность конкретной орфографической ошибки с учетом предполагаемого запроса. ^[8]

Стемминг и лемматизация [ править ]

Во многих, но не во всех языках слова изменяются, чтобы отразить их роль в высказывании, в котором они появляются: такое слово, как *care*, может фигурировать не только в базовой форме. как *заботится*, *заботится*, *заботится* и другие. Вариации между различными формами слова, вероятно, не будут иметь большого значения для относительно грубой модели значения, используемой в поисковой системе, и по этой причине задача объединения различных форм слова является потенциально полезным методом для увеличить отзыв поисковой системы. ^[9]

Языки мира различаются по степени морфологической изменчивости, и для некоторых языков существуют простые методы сведения запрашиваемого слова к его лемме , корневой форме или основе . В некоторых других языках эта операция включает нетривиальную обработку строк. Существительное в английском языке обычно встречается в четырех вариантах: *cat* *cat's* *cats* *cats'* или *child* *child´s* *дети* *дети*. Другие языки имеют больше вариаций. Например, в финском языке потенциально имеется около 5000 форм существительного. ^[10] и во многих языках флективные формы не ограничиваются аффиксами , а меняют суть самого слова.

Алгоритмы стемминга, также известные как стеммеры, обычно используют набор простых правил для удаления суффиксов, предназначенных для моделирования правил словоизменения языка. ^[11]

Более продвинутые методы, методы лемматизации , группируют изменяемые формы слова с помощью более сложных наборов правил, основанных на части речи слова или его записи в лексической базе данных , преобразуя изменяемое слово посредством поиска или серии преобразований к его лемме. Долгое время считалось, что морфологическая нормализация в целом не улучшает производительность поиска. ^[12]

Как только внимание специалистов по поиску информации переключилось на другие языки, помимо английского, выяснилось, что для некоторых языков можно найти очевидные преимущества. ^[13]

Распознавание объектов [ править ]

Распознавание сущностей — это процесс поиска и классификации сущностей в текстовой строке. Распознавание именованных объектов уделяет особое внимание именованным объектам , таким как имена людей, мест и организаций. Кроме того, распознавание объектов включает в себя идентификацию понятий в запросах, которые могут быть представлены фразами, состоящими из нескольких слов. Системы распознавания сущностей обычно используют лингвистические методы на основе грамматики или статистические машинного обучения . модели ^[14]

Переписывание запроса [ править ]

Переписывание запроса — это процесс автоматического переформулирования поискового запроса для более точного отражения его цели. Расширение запроса добавляет дополнительные термины запроса, например синонимы, чтобы получить больше документов и тем самым увеличить запоминаемость. Ослабление запроса удаляет термины запроса, чтобы уменьшить требования к документу, соответствующему запросу, тем самым также увеличивая запоминаемость . Другие формы переписывания запросов, такие как автоматическое преобразование последовательных терминов запроса в фразы и ограничение терминов запроса определенными полями , направлены на повышение точности . Поисковая система Apache Lucene ^[15] использует перезапись запроса для преобразования сложных запросов в более примитивные запросы, такие как выражения с подстановочными знаками (например, quer*) в логический запрос совпадающих терминов из индекса (например, запросы OR). ^[16]

См. также [ править ]

Ссылки [ править ]

^ «Семинар Специальной группы по информационному поиску (SIGIR) Ассоциации вычислительной техники (ACM), 2010 г., по представлению и пониманию запросов» (PDF) .
^ «Amazon AI — искусственный интеллект» .
^ «iOS — Siri — Apple» .
^ «Как Google использует машинное обучение в своих алгоритмах поиска» .
^ «Когда Уотсон встретил Siri: сделка Apple с IBM может сделать Siri намного умнее» .
^ «История Кортаны, убийцы Siri от Microsoft» .
^ «Токенизация» .
^ «Как написать корректор орфографии» .
^ Лоу, Томас; Робертс, Дэвид; Курц, Питердата = 1973. Дополнительная обработка текста для онлайн-поиска (система RADCOL). Том 1 . Документ ДТИК. {{cite book}}: CS1 maint: numeric names: authors list (link)Леннон, Мартин; Пирс, Дэвид; Тарри, Брайан Д.; Уиллетт, Питер (1981). «Оценка некоторых алгоритмов объединения для поиска информации». Информационный учёный . 3 (4). МУДРЕЦ.
^ Карлссон, Фред (2008). Финский язык: необходимая грамматика . Рутледж.
^ Ловинс, Джули (1968). Разработка алгоритма стемминга . Группа обработки информации Массачусетского технологического института.
^ Харман, Донна (1991). «Насколько эффективен суффикс?». Журнал Американского общества информатики . 42 (1): 7–15. doi : 10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P .
^ Попович, Миркоч; Уиллетт, Питер (1981). «Эффективность стемминга для доступа к словенским текстовым данным на естественном языке». Информационный учёный . 3 (4). МУДРЕЦ.
^ «Обзор распознавания и классификации названных объектов» (PDF) .
^ «Апач Люсене» .
^ «Запрос в документации по API Lucene 6.4.1» .

[1] «Семинар Специальной группы по информационному поиску (SIGIR) Ассоциации вычислительной техники (ACM), 2010 г., по представлению и пониманию запросов» (PDF) .

[2] «Amazon AI — искусственный интеллект» .

[3] «iOS — Siri — Apple» .

[4] «Как Google использует машинное обучение в своих алгоритмах поиска» .

[5] «Когда Уотсон встретил Siri: сделка Apple с IBM может сделать Siri намного умнее» .

[6] «История Кортаны, убийцы Siri от Microsoft» .

[7] «Токенизация» .

[8] «Как написать корректор орфографии» .

[9] Лоу, Томас; Робертс, Дэвид; Курц, Питердата = 1973. Дополнительная обработка текста для онлайн-поиска (система RADCOL). Том 1 . Документ ДТИК. {{cite book}}: CS1 maint: numeric names: authors list (link)Леннон, Мартин; Пирс, Дэвид; Тарри, Брайан Д.; Уиллетт, Питер (1981). «Оценка некоторых алгоритмов объединения для поиска информации». Информационный учёный . 3 (4). МУДРЕЦ.

[10] Карлссон, Фред (2008). Финский язык: необходимая грамматика . Рутледж.

[11] Ловинс, Джули (1968). Разработка алгоритма стемминга . Группа обработки информации Массачусетского технологического института.

[12] Харман, Донна (1991). «Насколько эффективен суффикс?». Журнал Американского общества информатики . 42 (1): 7–15. doi : 10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P .

[13] Попович, Миркоч; Уиллетт, Питер (1981). «Эффективность стемминга для доступа к словенским текстовым данным на естественном языке». Информационный учёный . 3 (4). МУДРЕЦ.

[14] «Обзор распознавания и классификации названных объектов» (PDF) .

[15] «Апач Люсене» .

[16] «Запрос в документации по API Lucene 6.4.1» .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]