Многословное выражение
Выражение из нескольких слов ( MWE ), также называемое фраземой. [ нужна ссылка ] , представляет собой лексемоподобную единицу, состоящую из последовательности двух или более лексем, обладающую свойствами, которые невозможно предсказать из свойств отдельных лексем или их обычного способа комбинации. MWE отличаются от лексем тем, что последние во многих источниках требуют, чтобы они имели значение, которое не может быть выведено из значения отдельных компонентов. Хотя MWE должны обладать некоторыми свойствами, которые не могут быть выведены из одного и того же свойства компонентов, рассматриваемое свойство не обязательно должно быть значением.
Для более короткого определения MWE можно охарактеризовать как «своеобразные интерпретации, выходящие за границы слов (или пробелы)». [1]
Многословное выражение может быть составным , фрагментом предложения или предложением. Группа лексем, составляющих MWE, может быть непрерывной или прерывистой. Не всегда можно обозначить MWE частью речи .
MWE может быть более или менее замороженным.
Пример №1 на английском языке: toпинать ведро , что означает скорее умереть , чем ударить ногой в ведро . В этом примере, то есть эндоцентрическом соединении , часть речи может быть определена как глагол . MWE заморожен в том смысле, что никакие изменения невозможны.
Пример №2 на английском языке: бросить <кого-нибудь> на съедение львам . Шаблон <кто-то> ограничивает использование. Выражение полузаморожено, потому что возможна определенная степень вариации, но не все возможно. Невозможно, например, сказать трем львам : Как и в предыдущем примере, частью речи является глагол.
Пример №3 на французском языке: la moutarde <me,te,lui,nous,vous,leur> monte au nez . Этот MWE более заморожен, чем другие примеры. Добавим, что для глагола допускается временная вариация, но мы не можем определить, какая часть речи является для всего выражения, поскольку это предложение.
Машинный перевод (МП)
[ редактировать ]По данным Саг и др. (2002), многословные выражения, помимо устранения неоднозначности, являются одной из двух ключевых проблем обработки естественного языка (НЛП) и особенно машинного перевода (МП).
Количество MWE в лексиконе говорящего оценивается того же порядка, что и количество отдельных слов. Словарь специализированных предметных областей в подавляющем большинстве состоит из MWE, следовательно, доля MWE будет увеличиваться по мере того, как система добавляет словарь для новых доменов, поскольку каждый домен добавляет больше MWE, чем простые слова.
Проблемы
[ редактировать ]Самой большой проблемой при переводе MWE может быть проблема идиоматичности , поскольку многие MWE в большей или меньшей степени имеют идиоматический смысл.
Например, для системы трудно предсказать, что такое выражение, как «Kick the Bucket», будет иметь значение, совершенно не связанное со значением «Kick» , «The» и «Bucked», но при этом будет соответствовать грамматике английского языка Vps. Идиомы нельзя перевести буквально, поскольку во многих случаях идиома не существует в эквивалентной форме на целевом языке. Следует обратить внимание на синтаксическую и семантическую (не)эквивалентность.
Кроме того, не каждый MWE исходного языка также имеет MWE на целевом языке. Например, немецкое MWE ins Auge fassen можно перевести только с помощью английского термина, состоящего из одного слова, « предвидеть» .
Подходы
[ редактировать ]Наиболее многообещающим подходом к переводу MWE является машинный перевод на основе примеров, поскольку в этом случае каждый MWE может быть указан в качестве примера с его переводным эквивалентом на целевом языке.
Для машинного перевода на основе правил было бы сложно определить правила для перевода MWE из-за количества различных типов MWE.
Тем не менее, система MT, основанная на примерах, должна применять разные правила для перевода непрерывных и прерывистых MWE, поскольку труднее идентифицировать прерывистый MWE в предложении, где слова вставлены между различными компонентами одного MWE.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Саг, Иван А.; Болдуин, Тимоти; Бонд, Фрэнсис; Копстейк, Энн; Фликинджер, Дэн (2002). «Многословные выражения: боль в шее для НЛП» . Компьютерная лингвистика и интеллектуальная обработка текста . дои : 10.1007/3-540-45715-1_1 . hdl : 10356/79581 .
- Димитра Анастасиу: Эксперименты по обработке идиом в машинном переводе (2010), Саарбрюккен.
- Иван А. Саг, Тимоти Болдуин, Фрэнсис Бонд, Энн Копестейк и Дэн Фликинджер: Многословные выражения: боль в шее для НЛП (2002) в: КОНЦЕНТРЫ ЛЕКЦИЙ ПО КОМПЬЮТЕРНЫМ НАУКАМ, Vol. 2276, стр. 1–15.
Внешние ссылки
[ редактировать ]- Проект многословных выражений , [ мертвая ссылка ] в Стэнфордском университете
- Семинары по многословным выражениям
- Многословные выражения в ACL Wiki
- Мюллер, Питер; Онайзер, Ингеборг; Олсен, Сьюзен; Райнер, Франц (октябрь 2011 г.). Словообразование, Международный справочник языков Европы (серия HSK) (PDF) . Берлин: Де Грюйтер. п. Глава 25: Выражения из нескольких слов. Архивировано (PDF) из оригинала 27 января 2018 г. Проверено 8 августа 2018 г.
- Саг, Иван А; Болдуин, Тимоти; Бонд, Фрэнсис; Копстейк, Энн; Фликинджер, Дэн (2002). «Многословные выражения: боль в шее для НЛП». Компьютерная лингвистика и интеллектуальная обработка текста . Конспекты лекций по информатике. Том. 2276. стр. 1–15. дои : 10.1007/3-540-45715-1_1 . hdl : 10356/79581 . ISBN 978-3-540-43219-7 . Проверено 8 августа 2018 г.
- Сайлер М., Маркантонату С. (2018). Сайлер М., Маркантонату С. (ред.). Выражения из нескольких слов: взгляд с многоязычной точки зрения (pdf) . Берлин: Language Science Press. дои : 10.5281/zenodo.1182583 . ISBN 978-3-96110-063-7 .
- Парментье Ю., Ващук Дж. (2019). Парментье Ю., Ващук Дж. (ред.). Представление и анализ многословных выражений: Современные тенденции (pdf) . Берлин: Language Science Press. дои : 10.5281/zenodo.2579017 . ISBN 978-3-96110-145-0 .