Jump to content

Словарное несоответствие

Словарное несоответствие — распространенное явление при использовании естественных языков, возникающее, когда разные люди по-разному называют одну и ту же вещь или концепцию.

Фурнас и др. (1987), возможно, были первыми, кто количественно изучил проблему несоответствия словарного запаса. [1] Их результаты показывают, что в среднем в 80% случаев разные люди (эксперты в одной области) называют одно и то же по-разному. Обычно существуют десятки возможных названий, которые можно отнести к одному и тому же предмету. Это исследование послужило мотивом для работы над латентно-семантическим индексированием .

Несоответствие словаря между созданными пользователем запросами и соответствующими документами в корпусе вызывает проблему несоответствия терминов при поиске информации . Чжао и Каллан (2010) [2] были, пожалуй, первыми, кто количественно изучил проблему несоответствия словарного запаса в условиях поиска. Их результаты показывают, что средний термин запроса не встречается в 30–40% документов, релевантных запросу пользователя. Они также показали, что эта вероятность несовпадения является центральной вероятностью в одной из фундаментальных вероятностных моделей поиска, модели двоичной независимости . Они разработали новые методы прогнозирования веса термина, которые потенциально могут привести к увеличению точности поиска на 50-80% по сравнению с сильными моделями поиска по ключевым словам. Дальнейшие исследования в этом направлении показывают, что опытные пользователи могут использовать расширение логической конъюнктивной нормальной формы для повышения производительности поиска на 50-300% по сравнению с нерасширенными запросами по ключевым словам. [3]

Методы, которые могут уменьшить несоответствие

[ редактировать ]
  1. ^ Фурнас, Г. и др., Словарная проблема в общении между человеком и системой, Communications of ACM, 1987, 30 (11), стр. 964-971.
  2. ^ Чжао Л. и Каллан Дж., Прогнозирование необходимости терминов, Материалы 19-й конференции ACM по управлению информацией и знаниями (CIKM 2010). Торонто, Канада, 2010 г.
  3. ^ Jump up to: а б Чжао Л. и Каллан Дж. Автоматическая диагностика несоответствия терминов для выборочного расширения запроса, SIGIR 2012.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5bf54c80851ae62f8910d872fd0f8897__1719462420
URL1:https://arc.ask3.ru/arc/aa/5b/97/5bf54c80851ae62f8910d872fd0f8897.html
Заголовок, (Title) документа по адресу, URL1:
Vocabulary mismatch - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)