Jump to content

Межъязыковой поиск информации


Межъязыковый поиск информации ( CLIR ) — это подполе поиска информации, занимающееся поиском информации, написанной на языке, отличном от языка запроса пользователя. [1] Термин «межъязыковой информационный поиск» имеет множество синонимов, из которых, пожалуй, наиболее частыми являются следующие: межъязыковый информационный поиск, транслингвальный информационный поиск, многоязычный информационный поиск. Термин «многоязычный поиск информации» в более общем смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перенесена для обработки материалов с одного языка на другой. Термин «многоязычный поиск информации» (MLIR) предполагает изучение систем, которые принимают запросы на информацию на разных языках и возвращают объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Межъязыковый поиск информации более конкретно относится к случаю использования, когда пользователи формулируют свои информационные потребности на одном языке, а система извлекает соответствующие документы на другом. Для этого большинство систем CLIR используют различные методы перевода. Методы CLIR можно разделить на разные категории в зависимости от разных ресурсов перевода: [2]

  • Методы CLIR на основе словарей
  • Методы CLIR на основе параллельных корпусов
  • Сопоставимые методы CLIR на основе корпусов
  • Методы CLIR на основе машинного переводчика

Системы CLIR усовершенствовались настолько, что самые точные многоязычные и межъязыковые специальные системы поиска информации сегодня почти так же эффективны, как одноязычные системы. [3] Другие связанные задачи доступа к информации, такие как мониторинг мультимедиа , фильтрация и маршрутизация информации, анализ настроений и извлечение информации , требуют более сложных моделей и, как правило, большей обработки и анализа интересующих элементов информации. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.

В основном различные механизмы изменения человеческого языка создают проблемы покрытия для систем поиска информации: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению информационной потребности, заданной пользователем. Это может быть верно даже в одноязычном случае, но это особенно верно при межъязыковом поиске информации, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком больше, чем для тех, кто владеет им свободно. [4] Конкретные технологии, используемые для служб CLIR, включают морфологический анализ для обработки изменений , разложения или составного разделения для обработки сложных терминов , а также механизмы перевода для перевода запроса с одного языка на другой.

Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. [5] Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную конференцию по текстовому поиску (TREC), чтобы обсудить свои выводы относительно различных систем и методов поиска информации, и конференция послужила отправной точкой для подобласти CLIR. [6] Первые эксперименты CLIR проводились на TREC-6 в Национальном институте стандартов и технологий (NIST) 19–21 ноября 1997 года. [7]

В Google Search была функция межъязыкового поиска, которая была удалена в 2013 году. [8]

См. также

[ редактировать ]
  • EXCLAIM (Расширяемая межъязыковая автоматическая информационная машина)
  • CLEF (Конференция и лаборатории Форума оценки, ранее известного как Форум межъязыковой оценки)
  1. ^ Ван, Цзяньцян и Дуглас В. Орд. «Сопоставление значений для межъязыкового поиска информации». Обработка информации и управление 48.4 (2012): 631-53.
  2. ^ Цай, Пейшань. «Введение в межъязыковые подходы к поиску информации» . www.mikeandpeishan.com . Архивировано из оригинала 04.11.2022 . Проверено 4 ноября 2022 г.
  3. ^ Орд, Дуглас. «Многоязычный доступ к информации». Понимание информационно-поисковых систем (2011): 373-80. Веб.
  4. ^ Айрио, Эйя (2008). «Кому выгодна CLIR при поиске в Интернете?» . Журнал документации . 64 (5): 760–778. дои : 10.1108/00220410810899754 .
  5. ^ Материалы этого семинара можно найти в книге «Поиск межъязыковой информации» (Grefenstette, изд. Kluwer, 1998). ISBN   0-7923-8122-X .
  6. ^ Ольвера-Лобо, Мария-Долорес. «Межязычный поиск информации в Интернете». Справочник по исследованиям социальных аспектов семантических технологий и веб-сервисов (без даты): 704-19. Веб.
  7. ^ Ворхис, Эллен М.; Харман, Донна (1999). «Обзор шестой конференции по поиску текста (TREC-6)» . Обработка информации и управление .
  8. ^ «Google отказывается от опции поиска «Переведенные иностранные страницы» из-за отсутствия использования» . 20 мая 2013 г.
[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9e206ff28f21a19dd9177c2b69515f9a__1713766800
URL1:https://arc.ask3.ru/arc/aa/9e/9a/9e206ff28f21a19dd9177c2b69515f9a.html
Заголовок, (Title) документа по адресу, URL1:
Cross-language information retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)