Jump to content

восклицать

Расширяемая межъязыковая автоматическая информационная машина (EXCLAIM) представляла собой интегрированный инструмент для межъязыкового поиска информации (CLIR), созданный в Калифорнийском университете в Санта-Крус в начале 2006 года, с некоторой поддержкой более десятка языков. Ведущими разработчиками были Джастин Нугер и Джесси Саба Киршнер.

Ранняя работа над CLIR зависела от создания вручную параллельных корпусов для каждой пары языков. Этот метод является трудоемким по сравнению с параллельными корпусами, создаваемыми автоматически. Более эффективный способ поиска данных для обучения системы CLIR — использовать соответствующие страницы в Интернете , написанные на разных языках. [1]

EXCLAIM использует идею скрытых параллельных корпусов в сети , автоматизируя выравнивание таких корпусов в различных доменах. Наиболее значимым из них является сама Arc.Ask3.Ru , включающая статьи на 250 языках . Роль EXCLAIM заключается в использовании инструментов семантики и лингвистического анализа для согласования информации в этих Arc.Ask3.Ruх так, чтобы их можно было рассматривать как параллельные корпуса. EXCLAIM также можно расширить, чтобы включить информацию из многих других источников, таких как Китайский общественный ресурсный центр здравоохранения (CCHRC).

Одна из основных целей проекта EXCLAIM — предоставить вычислительные инструменты и инструменты CLIR для языков меньшинств и языков, находящихся под угрозой исчезновения , которые часто доступны только для мощных или процветающих языков большинства.

Текущий статус

[ редактировать ]

В 2009 году EXCLAIM находился в стадии бета-тестирования с разной степенью функциональности для разных языков. Поддержка CLIR с использованием набора данных Википедии и самой последней версии EXCLAIM (v.0.5), включая полную поддержку UTF-8 и стемминг Porter для английского компонента, была доступна для следующих двадцати трех языков:

албанский
амхарский
Бенгальский
Готика
Греческий
исландский
индонезийский
ирландский
яванский
латышский
малагасийский
Мандаринский китайский
Науатль
Навахо
кечуа
Сардинский
суахили
Тагальский
тибетский
турецкий
валлийский
Волоф
идиш

Поддержка использования набора данных Википедии и более ранней версии EXCLAIM (v.0.3) доступна для следующих языков:

Голландский
испанский

Значительные изменения в самой последней версии EXCLAIM включают поддержку китайского языка. Разработав поддержку этого языка, EXCLAIM добавила решения проблем сегментации и кодирования , которые позволят расширить систему на многие другие языки, написанные с использованием неевропейских орфографических соглашений. Эта поддержка предоставляется через набор инструментов Модульной системы обрезки и переформатирования ( TARMS ).

В будущих версиях EXCLAIM система будет поддерживать дополнительные языки. Другие цели включают в себя включение доступных скрытых наборов данных в дополнение к набору данных Википедии.

План разработки EXCLAIM предусматривает создание интегрированного инструмента CLIR, который можно будет использовать для поиска информации на английском языке на любом из поддерживаемых языков или поиска информации на английском языке на любом из поддерживаемых языков после выпуска EXCLAIM 1.0. Будущие версии позволят осуществлять поиск с любого поддерживаемого языка на любой другой, а также поиск на нескольких языках.

Дальнейшие применения

[ редактировать ]

EXCLAIM был включен в несколько проектов, которые полагаются на расширение межъязыковых запросов как часть своих серверных частей . Одним из таких проектов является платформа создания программного обеспечения для кросс-лингвистической читаемости , подробно описанная в работе, представленной на ACL 2009 . [2]

Примечания и ссылки

[ редактировать ]
  1. ^ «Межязычный поиск информации на основе параллельных текстов и автоматический анализ параллельных текстов в Интернете» (PDF) . АКМ-СИГИР 1999 . Проверено 2 декабря 2006 г.
  2. ^ «Межъязыковая система читаемости» (PDF) . ACL-IJNLP 2009 . Проверено 4 сентября 2009 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4843d2a7dc0ee3648dfcfea3aae3bd6c__1688323200
URL1:https://arc.ask3.ru/arc/aa/48/6c/4843d2a7dc0ee3648dfcfea3aae3bd6c.html
Заголовок, (Title) документа по адресу, URL1:
EXCLAIM - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)