МедСЛТ
![]() | Эта статья может быть слишком технической для понимания большинства читателей . ( Август 2018 г. ) |
MedSLT — переводчик разговорного языка среднего уровня с открытым исходным кодом , разработанный Женевским университетом . Он финансируется Швейцарским национальным научным фондом . Система была разработана для медицинской сферы. В настоящее время он охватывает диалоги врача и пациента по диагностике головной боли, боли в груди и животе на английском, французском, японском, испанском, каталонском и арабском языках. Используемый словарный запас варьируется от 350 до 1000 слов в зависимости от предметной области и языковой пары. [ 1 ]
Мотивация создания MedSLT
[ редактировать ]Поскольку во всем мире существует более 6000 языков, языковой барьер становится все более серьезной проблемой для здравоохранения. Отсутствие медицинских переводчиков может привести к катастрофическим последствиям. Они варьируются от длительного пребывания в больнице до неправильного диагноза и лечения. Исследование показало, что только около половины из 23 миллионов человек с ограниченным знанием английского языка в США имели медицинского переводчика. Миллионы беженцев и иммигрантов во всем мире сталкиваются с аналогичными проблемами, хотя и не всегда такими серьезными. Разрыв между потребностью и доступностью языковых услуг может быть устранен с помощью систем перевода речи . [ 2 ]
Проблемы
[ редактировать ]Самой большой проблемой является и была разработка идеальной системы, хотя на данный момент сделать это невозможно. Эта система будет отвечать потребностям как врачей, так и пациентов и обеспечит точный и гибкий перевод. Реализация идеального средства перевода невозможна без использования неограниченного языка и большого словарного запаса.
Медицинские работники требуют от перевода высокой надежности. Это отдает предпочтение архитектурам, основанным на правилах, по сравнению с архитектурами, управляемыми данными. Последние больше подходят неопытным пользователям. Архитектуры, основанные на правилах, обеспечивают более высокую точность, особенно если их используют эксперты.
Хотя крайне желательно построить двунаправленную систему, поддерживающую двусторонний диалог, которая концентрируется на общении, ориентированном на пациента, у пациентов будет трудный доступ к системе. Большинство пациентов не имеют опыта работы с такими системами. Результатом являются менее надежные результаты перевода от пациента к врачу. Чтобы преодолеть эту проблему, система должна обеспечить либо легкий доступ, либо интегрированный справочный инструмент, который поможет пользователям пройти весь процесс.
Хотя контролируемые системы, основанные на правилах, достигают хороших результатов, они хрупкие. Чтобы получать хорошие переводы, пользователь должен быть знаком с системой и знать, что охватывает грамматика.
Охват различных поддоменов (головная боль, боль в груди и животе) и языковых пар представляет дополнительные проблемы. Общая структура и грамматика для всех поддоменов и языковых пар сводят к минимуму затраты на разработку и обслуживание. Интеграция новых языков врачей и пациентов также является ключевой задачей. Добавление новых языков должно быть быстрым и довольно простым, поскольку во многих странах приходится использовать систему для покрытия нескольких языковых пар. Прямой перевод с исходного языка на целевой оказывается довольно трудным. Использование интерлингвы для однонаправленного перевода вместо двунаправленного подхода помогает упростить процесс перевода.
Кроме того, система должна работать на разных платформах, поскольку мобильность является ключевым вопросом для многих лечащих врачей. Портативная версия решает эти проблемы, но ей приходится справляться с большой нагрузкой процесса перевода. [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ]
Система МедСЛТ
[ редактировать ]системы Распознавание речи основано на платформе Nuance 8.5, которая поддерживает языковые модели на основе грамматики. Все грамматики, используемые для распознавания, анализа и генерации, составляются из небольшого набора унификационных грамматик.
Эти основные грамматики создаются компилятором грамматики Regulus с открытым исходным кодом и автоматически специализированы с использованием методов, управляемых корпусом. Специализация учитывает как задачу (распознавание, анализ и генерация), так и поддомен (головная боль, боль в груди и животе).
В специализации используется алгоритм обучения на основе объяснений для создания древовидного банка из обучающего корпуса. Эти примеры разделены на наборы поддеревьев с использованием правил, специфичных для предметной области и грамматики (также известных как «критерии работоспособности» в машинном переводе ).
Правила поддерева объединяются в одно правило, создавая специализированную унификационную грамматику. Грамматика компилируется в исполняемую форму для анализа и генерации анализатором или генератором, а также для распознавания грамматики CFG . Для механизма Nuance требуется грамматика CFG.
Компиляция по критериям, специфичным для Nuance, превращает грамматику в пакеты распознавания речи. На последнем этапе снова используется обучающий корпус для статистической настройки языковой модели.
Процессы перевода MedSLT основаны на интерлингве , основанном на правилах . Интерлингва рассматривается как реальный язык (это очень простая версия английского языка) и определяется грамматикой Regulus. Эта грамматика не учитывает сложные поверхностные синтаксические явления реальных языков, такие как движение или согласие. Набор правил является основой для перевода семантического представления исходного языка на интерлингва.
Другой набор правил касается перевода с интерлингва на целевой язык. Семантические представления преобразуются в поверхностные слова с использованием грамматики целевого языка.
Определение семантики для конкретного домена позволяет разработчикам определять интерлингвы с помощью небольшой, строго ограниченной семантической грамматики. Переводы, основанные на интерлингве, почти идеально соответствуют прямым переводам, поскольку развитие смещается к изолированной одноязычной архитектуре.
Ядром этой архитектуры является набор объединенных корпусов интерлингва, по одному корпусу на поддомен. Все корпуса разработки исходного языка переводятся на интерлингва. Они отсортированы и сгруппированы вместе с соответствующими примерами исходного языка.
Формы интерлингва затем переводятся на каждый целевой язык, и результаты объединяются. Эта организация совершенствует процесс перевода. При многоязычном регрессионном тестировании не требуется дублирования усилий, поскольку каждый этап анализа и генерации выполняется один раз. Это позволяет проводить более частое тестирование.
Язык представления, используемый для всех форм, — это почти плоская функциональная семантика. AFF является производным от Spoken Language Translator , предшественника MEdSLT.
SLT использует квазилогическую форму , язык представления на основе логики. QLF — выразительный, но очень сложный язык, требующий высоких затрат на разработку и обслуживание.
Для медицинского переводчика планировалось минимальное решение. Ранние версии системы использовали язык, использующий простые списки значений функций. Эти списки были дополнены дополнительным уровнем вложенности для представления придаточных предложений (т.е. встроенных предложений).
Определители не были включены, поскольку их трудно перевести и их трудно достоверно различить и распознать. Таким образом, правила перевода стали намного проще, поскольку нужно было сопоставить только список пар признак-значение с другим списком пар. Язык оказался недостаточно скованным.
Добавление естественных сортальных ограничений в грамматику решило эту проблему, но также вернуло языку более выразительный формализм. Недавно созданный AFF сочетает в себе элементы QLF и семантику списка значений признаков. Эта версия плоской семантики дополнена дополнительной функциональной маркировкой. Вместе с относительно небольшим словарным запасом это решило проблему неоднозначности исходного языка плоского представления, не создавая слишком сложных правил.
Кроме того, синтаксические структуры тщательно рассматриваются путем компромисса лингвистических и инженерных традиций.
Грамматики фактически извлекаются из лингвистически мотивированного ресурса с использованием корпусных методов. Они руководствуются небольшим набором примеров. Это приводит к более простым и плоским грамматикам, специфичным для предметной области.
Семантика менее сложна и представляет собой минимальный подход в инженерной традиции. Каждый лексический элемент содержит набор пар признак-значение.
Это приводит к простым в написании правилам перевода. Существуют только списки пар характеристик-значений, которые можно сопоставить с другими парами характеристик-значений. Однако в результате модель канала машинного перевода становится недоопределенной и ослабляется, тогда как модель целевого языка усиливается.
В систему интегрирован интеллектуальный справочный модуль, который помогает пользователям использовать полный спектр грамматик. Этот инструмент предоставляет пользователю примеры, максимально приближенные к исходному высказыванию пользователя.
Вывод основан на библиотеке. Каждый субдомен и языковая пара имеют собственную библиотеку. Содержимое извлекается из объединенных корпусов интерлингва. Модуль справки сканирует корпус на предмет помеченной формы исходного языка, сопоставленной с соответствующей формой целевого языка.
Кроме того, в качестве резервного используется второй статистический распознаватель. Результаты используются для выбора подобных примеров из библиотеки.
В соответствии с предпочтениями генерации выбирается одна из производных строк, и строка целевого языка реализуется как разговорный язык.
Некоторые методы на основе статистического корпуса используются для дальнейшей настройки системы. [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ]
MedSLT на КПК
[ редактировать ]В ответ на запросы медицинских работников была разработана мобильная версия MedSLT. Ручная платформа использует ту же архитектуру, что и обычная.
Тяжелая обработка, необходимая для перевода, выполняется на удаленном компьютере. Помимо беспроводного соединения, для достижения тех же результатов, что и в оригинальной версии, необходим хороший микрофон. [ 1 ] [ 2 ]
Ссылки
[ редактировать ]- ^ Jump up to: а б с «МедСЛТ – медицинский переводчик речи» .
- ^ Jump up to: а б с д «Многоязычный медицинский перевод речи на КПК» П. Бульона, Г. Флореса, М. Жоржескула, С. Халими, бакалавра хоккея, Х. Исахара, К. Канзаки, Ю. Накао, М. Рейнера, М. Сантахольма, М. Старлендер, Н. Цуракис на Восьмой конференции Ассоциации машинного перевода Америки. Вайкики, Гавайи. 2008 год
- ^ Jump up to: а б «Многоязычные грамматические ресурсы в разработке многоязычных приложений» , М. Сантахольма, в материалах семинара по грамматической инженерии в разных средах, GEAF. Манчестер, Великобритания. 2008 год
- ^ Jump up to: а б «Общая задача по переводу медицинской речи с малым словарным запасом» М. Рейнера, П. Бульона, Г. Флореса, Ф. Эхсани, М. Старлендера, бакалавра хоккея, Дж. Бротанека и Л. Бивальда в материалах семинара Coling 2008 г. Обработка речи для критического перевода и широкомасштабных приложений, Манчестер, Великобритания. 2008 год
- ^ Jump up to: а б «Система MedSLT 2008» , М. Рейнер, П. Бульон, Дж. Бротанек, Г. Флорес, С. Халими, бакалавр хоккея, Х. Исахара, К. Канзаки, Э. Крон, Ю. Накао, М. Сантахольма, М. Старлендер, Н. Цуракис в материалах семинара Coling 2008 г. по обработке речи для перевода, критического для безопасности. и Pervasive Applications, Манчестер, Великобритания. 2008 год
- ^ Jump up to: а б «Почти плоская функциональная семантика для перевода речи» М. Рейнера, П. Бульона, бакалавра хоккея и Ю. Накао в Proceedings of Coling 2008, Манчестер, Великобритания. 2008 год