Словарное несоответствие
Эта статья нуждается в дополнительных цитатах для проверки . ( июнь 2015 г. ) |
Словарное несоответствие — распространенное явление при использовании естественных языков, возникающее, когда разные люди по-разному называют одну и ту же вещь или концепцию.
Фурнас и др. (1987), возможно, были первыми, кто количественно изучил проблему несоответствия словарного запаса. [1] Их результаты показывают, что в среднем в 80% случаев разные люди (эксперты в одной области) называют одно и то же по-разному. Обычно существуют десятки возможных названий, которые можно отнести к одному и тому же предмету. Это исследование послужило мотивом для работы над латентно-семантическим индексированием .
Несоответствие словаря между созданными пользователем запросами и соответствующими документами в корпусе вызывает проблему несоответствия терминов при поиске информации . Чжао и Каллан (2010) [2] были, пожалуй, первыми, кто количественно изучил проблему несоответствия словарного запаса в условиях поиска. Их результаты показывают, что средний термин запроса не встречается в 30–40% документов, релевантных запросу пользователя. Они также показали, что эта вероятность несовпадения является центральной вероятностью в одной из фундаментальных вероятностных моделей поиска, модели двоичной независимости . Они разработали новые методы прогнозирования веса термина, которые потенциально могут привести к увеличению точности поиска на 50-80% по сравнению с сильными моделями поиска по ключевым словам. Дальнейшие исследования в этом направлении показывают, что опытные пользователи могут использовать расширение логической конъюнктивной нормальной формы для повышения производительности поиска на 50-300% по сравнению с нерасширенными запросами по ключевым словам. [3]
Методы, которые могут уменьшить несоответствие
[ редактировать ]- Стемминг
- Полнотекстовое индексирование вместо индексации только ключевых слов или рефератов.
- Индексирование текста входящих ссылок из других документов (или других социальных тегов )
- Расширение запроса . Исследование Чжао и Каллана, 2012 г. [3] Использование созданных экспертами вручную запросов в конъюнктивной нормальной форме показало, что расширение поисконима в булевой конъюнктивной нормальной форме гораздо более эффективно, чем традиционное расширение набора слов, например расширение Роккио .
- Модели, основанные на переводе
Ссылки
[ редактировать ]- ^ Фурнас, Г. и др., Словарная проблема в общении между человеком и системой, Communications of ACM, 1987, 30 (11), стр. 964-971.
- ^ Чжао Л. и Каллан Дж., Прогнозирование необходимости терминов, Материалы 19-й конференции ACM по управлению информацией и знаниями (CIKM 2010). Торонто, Канада, 2010 г.
- ^ Jump up to: а б Чжао Л. и Каллан Дж. Автоматическая диагностика несоответствия терминов для выборочного расширения запроса, SIGIR 2012.