восклицать
Расширяемая межъязыковая автоматическая информационная машина (EXCLAIM) представляла собой интегрированный инструмент для межъязыкового поиска информации (CLIR), созданный в Калифорнийском университете в Санта-Крус в начале 2006 года, с некоторой поддержкой более десятка языков. Ведущими разработчиками были Джастин Нугер и Джесси Саба Киршнер.
Ранняя работа над CLIR зависела от создания вручную параллельных корпусов для каждой пары языков. Этот метод является трудоемким по сравнению с параллельными корпусами, создаваемыми автоматически. Более эффективный способ поиска данных для обучения системы CLIR — использовать соответствующие страницы в Интернете , написанные на разных языках. [1]
EXCLAIM использует идею скрытых параллельных корпусов в сети , автоматизируя выравнивание таких корпусов в различных доменах. Наиболее значимым из них является сама Arc.Ask3.Ru , включающая статьи на 250 языках . Роль EXCLAIM заключается в использовании инструментов семантики и лингвистического анализа для согласования информации в этих Arc.Ask3.Ruх так, чтобы их можно было рассматривать как параллельные корпуса. EXCLAIM также можно расширить, чтобы включить информацию из многих других источников, таких как Китайский общественный ресурсный центр здравоохранения (CCHRC).
Одна из основных целей проекта EXCLAIM — предоставить вычислительные инструменты и инструменты CLIR для языков меньшинств и языков, находящихся под угрозой исчезновения , которые часто доступны только для мощных или процветающих языков большинства.
Текущий статус
[ редактировать ]В 2009 году EXCLAIM находился в стадии бета-тестирования с разной степенью функциональности для разных языков. Поддержка CLIR с использованием набора данных Википедии и самой последней версии EXCLAIM (v.0.5), включая полную поддержку UTF-8 и стемминг Porter для английского компонента, была доступна для следующих двадцати трех языков:
Поддержка использования набора данных Википедии и более ранней версии EXCLAIM (v.0.3) доступна для следующих языков:
Голландский |
испанский |
Значительные изменения в самой последней версии EXCLAIM включают поддержку китайского языка. Разработав поддержку этого языка, EXCLAIM добавила решения проблем сегментации и кодирования , которые позволят расширить систему на многие другие языки, написанные с использованием неевропейских орфографических соглашений. Эта поддержка предоставляется через набор инструментов Модульной системы обрезки и переформатирования ( TARMS ).
В будущих версиях EXCLAIM система будет поддерживать дополнительные языки. Другие цели включают в себя включение доступных скрытых наборов данных в дополнение к набору данных Википедии.
План разработки EXCLAIM предусматривает создание интегрированного инструмента CLIR, который можно будет использовать для поиска информации на английском языке на любом из поддерживаемых языков или поиска информации на английском языке на любом из поддерживаемых языков после выпуска EXCLAIM 1.0. Будущие версии позволят осуществлять поиск с любого поддерживаемого языка на любой другой, а также поиск на нескольких языках.
Дальнейшие применения
[ редактировать ]EXCLAIM был включен в несколько проектов, которые полагаются на расширение межъязыковых запросов как часть своих серверных частей . Одним из таких проектов является платформа создания программного обеспечения для кросс-лингвистической читаемости , подробно описанная в работе, представленной на ACL 2009 . [2]
Примечания и ссылки
[ редактировать ]- ^ «Межязычный поиск информации на основе параллельных текстов и автоматический анализ параллельных текстов в Интернете» (PDF) . АКМ-СИГИР 1999 . Проверено 2 декабря 2006 г.
- ^ «Межъязыковая система читаемости» (PDF) . ACL-IJNLP 2009 . Проверено 4 сентября 2009 г.