Межъязыковой поиск информации
Межъязыковый поиск информации ( CLIR ) — это подполе поиска информации, занимающееся поиском информации, написанной на языке, отличном от языка запроса пользователя. [1] Термин «межъязыковой информационный поиск» имеет множество синонимов, из которых, пожалуй, наиболее частыми являются следующие: межъязыковый информационный поиск, транслингвальный информационный поиск, многоязычный информационный поиск. Термин «многоязычный поиск информации» в более общем смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перенесена для обработки материалов с одного языка на другой. Термин «многоязычный поиск информации» (MLIR) предполагает изучение систем, которые принимают запросы на информацию на разных языках и возвращают объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Межъязыковый поиск информации более конкретно относится к случаю использования, когда пользователи формулируют свои информационные потребности на одном языке, а система извлекает соответствующие документы на другом. Для этого большинство систем CLIR используют различные методы перевода. Методы CLIR можно разделить на разные категории в зависимости от разных ресурсов перевода: [2]
- Методы CLIR на основе словарей
- Методы CLIR на основе параллельных корпусов
- Сопоставимые методы CLIR на основе корпусов
- Методы CLIR на основе машинного переводчика
Системы CLIR усовершенствовались настолько, что самые точные многоязычные и межъязыковые специальные системы поиска информации сегодня почти так же эффективны, как одноязычные системы. [3] Другие связанные задачи доступа к информации, такие как мониторинг мультимедиа , фильтрация и маршрутизация информации, анализ настроений и извлечение информации , требуют более сложных моделей и, как правило, большей обработки и анализа интересующих элементов информации. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.
В основном различные механизмы изменения человеческого языка создают проблемы покрытия для систем поиска информации: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению информационной потребности, заданной пользователем. Это может быть верно даже в одноязычном случае, но это особенно верно при межъязыковом поиске информации, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком больше, чем для тех, кто владеет им свободно. [4] Конкретные технологии, используемые для служб CLIR, включают морфологический анализ для обработки изменений , разложения или составного разделения для обработки сложных терминов , а также механизмы перевода для перевода запроса с одного языка на другой.
Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. [5] Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную конференцию по текстовому поиску (TREC), чтобы обсудить свои выводы относительно различных систем и методов поиска информации, и конференция послужила отправной точкой для подобласти CLIR. [6] Первые эксперименты CLIR проводились на TREC-6 в Национальном институте стандартов и технологий (NIST) 19–21 ноября 1997 года. [7]
В Google Search была функция межъязыкового поиска, которая была удалена в 2013 году. [8]
См. также
[ редактировать ]- EXCLAIM (Расширяемая межъязыковая автоматическая информационная машина)
- CLEF (Конференция и лаборатории Форума оценки, ранее известного как Форум межъязыковой оценки)
Ссылки
[ редактировать ]- ^ Ван, Цзяньцян и Дуглас В. Орд. «Сопоставление значений для межъязыкового поиска информации». Обработка информации и управление 48.4 (2012): 631-53.
- ^ Цай, Пейшань. «Введение в межъязыковые подходы к поиску информации» . www.mikeandpeishan.com . Архивировано из оригинала 04.11.2022 . Проверено 4 ноября 2022 г.
- ^ Орд, Дуглас. «Многоязычный доступ к информации». Понимание информационно-поисковых систем (2011): 373-80. Веб.
- ^ Айрио, Эйя (2008). «Кому выгодна CLIR при поиске в Интернете?» . Журнал документации . 64 (5): 760–778. дои : 10.1108/00220410810899754 .
- ^ Материалы этого семинара можно найти в книге «Поиск межъязыковой информации» (Grefenstette, изд. Kluwer, 1998). ISBN 0-7923-8122-X .
- ^ Ольвера-Лобо, Мария-Долорес. «Межязычный поиск информации в Интернете». Справочник по исследованиям социальных аспектов семантических технологий и веб-сервисов (без даты): 704-19. Веб.
- ^ Ворхис, Эллен М.; Харман, Донна (1999). «Обзор шестой конференции по поиску текста (TREC-6)» . Обработка информации и управление .
- ^ «Google отказывается от опции поиска «Переведенные иностранные страницы» из-за отсутствия использования» . 20 мая 2013 г.