Машинный перевод на основе словаря

В машинном переводе может использоваться метод, основанный на словарных статьях, что означает, что слова будут переведены так же, как это делает словарь – слово за словом, обычно без особой корреляции значений между ними. Поиск по словарю может осуществляться с морфологическим анализом или лемматизацией или без них . Хотя этот подход к машинному переводу, вероятно, является наименее сложным, машинный перевод на основе словаря идеально подходит для перевода длинных списков фраз на субсентенциальном (т. е. не полном предложении) уровне, например, описей или простых каталогов продуктов и услуг. . ^[1]

Его также можно использовать для ускорения ручного перевода, если человек, выполняющий его, свободно владеет обоими языками и, следовательно, способен исправлять синтаксис и грамматику.

ЛМТ

LMT, представленный примерно в 1990 году, ^[2] — это система машинного перевода на основе Пролога, которая работаетв специально созданных двуязычных словарях, таких как англо-немецкий Коллинз.(CEG), которые были переписаны в индексированной форме, легко читаемойкомпьютеры. Этот метод использует структурированную лексическую базу данных (LDB) для того, чтобыправильно определить категории слов из исходного языка, построив таким образомсвязное предложение на изучаемом языке, основанное на рудиментарных морфологическиханализ. Эта система использует «фреймы» ^[2] определить позицию определенного словадолжно быть с синтаксической точки зрения в предложении. Это «кадры» ^[2] являютсяотображается с помощью языковых соглашений, таких как UDICT в случае английского языка.

В своей ранней (прототипной) форме LMT ^[2] использует три словаря,доступ осуществляется одновременно: источник, передача и цель, хотя это возможноинкапсулировать всю эту информацию в единый словарь. В программе используетсялексическая конфигурация, состоящая из двух основных элементов. Первый элемент – этоЗакодированное вручную приложение к словарю, содержащее возможные неверные переводы.второй элемент состоит из различных двуязычных и одноязычных словарей.относительно двух языков, которые являются исходным и целевым.

Машинный перевод на основе примеров и словарей

Этот метод машинного перевода на основе словарей исследуетпарадигма, отличная от таких систем, как LMT. Система машинного перевода на основе примеров поставляется только с «двуязычным корпусом, выровненным по предложениям». ^[3]Используя эти данные, программа-переводчик генерирует «дословный двуязычныйсловарь" ^[3] который используется для дальнейшего перевода.

Хотя эту систему обычно следует рассматривать как единое целоедругой способ машинного перевода, чем машинный перевод на основе словарей,важно понимать взаимодополняющую природу этих парадигм. Собъединенная сила, присущая обеим системам, в сочетании с тем фактом, чтоМашинный перевод на основе словарей лучше всего работает с дословным двуязычным переводом.словарь" ^[3] списков слов, это демонстрирует тот факт, что соединение этих двухсистемы перевода создадут очень мощный инструмент перевода, то естьпомимо того, что он семантически точен, он способен улучшить свои собственныефункциональные возможности через постоянные петли обратной связи.

Система, сочетающая в себе обе парадигмы, аналогичното, что было описано в предыдущем абзаце, — это метод, основанный на примере Панглосса.Механизм машинного перевода (PanEBMT) ^[3] механизм машинного перевода. PanEBMT используеттаблицу соответствия между языками для создания ее корпуса. Более того,PanEBMT поддерживает множество дополнительных операций над своим корпусом, что облегчаетпредвзятый перевод, используемый в целях фильтрации.

Параллельная обработка текста

Дуглас Хофштадтер в своей книге «Le Ton beau de Marot: In«Похвала музыке языка» доказывает, что такое сложная задача перевода.автор подготовил и проанализировал десятки и десятки возможных переводов длявосемнадцатистрочное французское стихотворение, раскрывающее тем самым сложную внутреннюю работу синтаксиса,морфология и значение. ^[4] В отличие от большинства систем перевода, которые выбирают одинперевод основан на сравнении текстов в обоих источникахи целевых языков, работы Дугласа Хофштадтера доказывают присущий им уровеньошибка, которая присутствует в любой форме перевода, когда смыслисходный текст слишком подробный или сложный. Таким образом, проблема выравнивания текста и«статистика языка» ^[4] привлекается внимание.

Эти несоответствия привели к изменению взглядов Мартина Кея на перевод.и системы перевода в целом. По словам Кея, «более существенные успехина этих предприятиях потребуется более четкое представление о мире, чем любое, котороеможно определить просто по статистике использования языка» [(стр. xvii)Параллельная обработка текста: выравнивание и использование корпуса переводов. ^[4] Таким образом, Кейвернуло на свет вопрос о значении внутри языка иискажение смысла в процессе перевода.

Лексическая концептуальная структура

Одним из возможных вариантов использования машинного перевода на основе словарей является проведение «репетиторства по иностранному языку» (FLT). Этого можно достичь, используя технологию машинного перевода, а также лингвистику, семантику и морфологию для создания «крупномасштабных словарей». ^[5] практически на любом языке. Развитие лексической семантики и компьютерной лингвистики в период с 1990 по 1996 год позволило «обработке естественного языка» (НЛП) процветать, приобретая новые возможности, тем не менее, принося пользу машинному переводу в целом. ^[5]

«Лексическая концептуальная структура» (ЛКС) – это представлениеэто не зависит от языка. Чаще всего его используют при репетиторстве по иностранному языку.особенно в элементе обработки естественного языка FLT. LCS также имеетоказался незаменимым инструментом для машинного перевода любого рода, напримерМашинный перевод на основе словарей. В целом одна из основных целей LCSзаключается в том, чтобы «продемонстрировать, что значения синонимических глаголов имеют общие закономерности распределения». ^[5]

"ДКвец"

«DKvec — это метод извлечения двуязычных лексиконов изшумные параллельные корпуса, основанные на расстоянии прибытия слов в шумной параллелиcorpora». Этот метод появился в ответ на две проблемы, преследующиестатистическое извлечение двуязычных лексиконов: «(1) Как можно шумные параллельныеиспользовать корпуса? (2) Как можно использовать непараллельные, но сопоставимые корпуса?» ^[6]

Метод «DKvec» оказался неоценимым для машиностроения.перевод в целом, из-за поразительного успеха, который он имел в испытанияхпроводится как на англо-японской, так и на англо-китайской шумной параллели.корпус. Показатели точности «показывают точность 55,35% для небольшого корпуса».и точность 89,93% для более крупного корпуса». ^[6] При таких впечатляющих цифрахможно с уверенностью предположить, какое огромное влияние оказали такие методы, как «DKvec», наэволюция машинного перевода в целом, особенно словарного переводаМашинный перевод.

Алгоритмы, используемые для извлечения параллельных корпусов вдвуязычный формат использует следующие правила для достижения удовлетворительноготочность и общее качество: ^[6]

Слова имеют один смысл в каждом корпусе
Слова имеют один перевод в корпусе.
Отсутствие недостающих переводов в целевом документе
Частоты появления двуязычных слов сопоставимы.
Позиции двуязычных вхождений слов сопоставимы.

Эти методы можно использовать для создания или поиска шаблонов вхождений, которые, в свою очередь, используются для создания двоичных векторов вхождений, которые используются методом «DKvec».

История машинного перевода

История машинного перевода (MT) начинается примерно всередина 1940-х годов. Машинный перевод, вероятно, был первым случаем, когда компьютеры былииспользуется для нечисловых целей. Машинный перевод вызвал большой исследовательский интересв течение 1950-х и 1960-х годов, после чего последовал застой до 1980-х годов. ^[7]После 1980-х годов машинный перевод снова стал мейнстримом, получив равное распространение.большую популярность, чем в 1950-х и 1960-х годах, а также быстрое расширение,в основном основан на подходе текстовых корпусов.

Основную концепцию машинного перевода можно проследитьдо 17 века в спекуляциях вокруг «универсальногоязыки и механические словари». ^[7] Первая по-настоящему практичная машинапредложения по переводу были сделаны в 1933 году Жоржем Артруни во Франции и ПетромТроянский в России. У обоих были запатентованные машины, которые, по их мнению, могли бытьиспользуется для перевода значения с одного языка на другой. «В июне 1952 г.Первая конференция МТ была созвана в Массачусетском технологическом институте Иеошуа Бар-Гиллелем». ^[7] 7 января 1954 года на съезде машинного перевода в Нью-Йорке, спонсируемом IBM,способствовал популяризации этой области. Популярность конгрессов пришла из-заперевод коротких английских предложений на русский язык. Этот инженерный подвигзагипнотизировал общественность и правительства США и СССР, которыепоэтому стимулировал крупномасштабное финансирование исследований в области машинного перевода. ^[7]Хотя энтузиазм в отношении машинного перевода был чрезвычайно высок, техническийа ограниченность знаний привела к разочарованиям относительно того, какая машинаперевод действительно был способен сделать, по крайней мере, в то время. Таким образом, машинаперевод потерял популярность до 1980-х годов, когда достижения лингвистикии технологии помогли оживить интерес к этой области.

Транслингвальный поиск информации

«Транслингвальный поиск информации (TLIR) состоит изпредоставление запроса на одном языке и поиск коллекций документов на одном илибольше разных языков». Большинство методов TLIR можно количественно разделить на двакатегории, а именно статистические IR подходы и перевод запросов. МашинаTLIR на основе перевода работает одним из двух способов. Либо запрос переведенна целевом языке, или для поиска используется исходный запрос, в то время каксовокупность возможных результатов переводится на язык запросов и используется дляперекрестная ссылка. Оба метода имеют плюсы и минусы, а именно: ^[8]

Точность перевода – правильность любого машинного перевода зависит от размера переведенного текста, поэтому короткие тексты или слова могут страдать от большей степени семантических ошибок, а также лексических двусмысленностей, тогда как более крупный текст может обеспечить контекст, который помогает в устранении неоднозначности.
Точность поиска – исходя из той же логики, что и в предыдущем пункте, предпочтительно переводить целые документы, а не запросы, поскольку большие тексты, скорее всего, пострадают от меньшей потери смысла при переводе, чем короткие запросы.
Практичность. В отличие от предыдущих пунктов, перевод коротких запросов — лучший способ. Это связано с тем, что переводить небольшие тексты легко, а перевод целых библиотек требует больших ресурсов, плюс объем такой переводческой задачи предполагает индексацию новых переведенных документов.

Все это доказывает тот факт, что машинный перевод на основе словарей является наиболее эффективной и надежной формой перевода при работе с TLIR. Это связано с тем, что процесс «просматривает каждый термин запроса в двуязычном словаре общего назначения и использует все его возможные переводы». ^[8]

Машинный перевод очень близких языков

Примеры РУСЛАН, машины на основе словарясистема перевода между чешским и русским языками и CESILKO, чешско-словацкий языксистема машинного перевода на основе словаря показывает, что в случае оченьблизкие языки, более простые методы перевода более эффективны, быстры инадежный. ^[9]

Система РУСЛАН была создана для того, чтобы доказать гипотезыродственные языки легче переводить. Разработка системы началасьв 1985 году и был прекращен пять лет спустя из-за отсутствия дальнейшего финансирования.Уроки, извлеченные из эксперимента РУСЛАН, заключаются в том, что подход, основанный на передачеперевод сохраняет свое качество независимо от того, насколько близки языки.два основных узких места «полноценных трансферных систем» ^[9] являются сложностьюи ненадежность синтаксического анализа. ^[10]

Многоязычный информационный поиск MLIR

«Информационно-поисковые системы ранжируют документы постатистические меры сходства, основанные на совместном появлении терминов в запросахи документы». Система MLIR создана и оптимизирована таким образом, чтобыоблегчает перевод запросов на основе словаря. Это связано с тем, что запросы, как правило, короткие, в пару слов, что, несмотря на отсутствиепредоставляя много контекста, это более осуществимо, чем перевод всегодокументы по практическим соображениям. Несмотря на все это, система MLIRсильно зависит от множества ресурсов, таких как автоматическое определение языка программное обеспечение. ^[11]

См. также

Библиография

^ Уве Мюгге (2006), «Отличное приложение для неумелого машинного перевода: автоматический перевод большой базы данных», в Элизабет Грефе (2006; ред.), Труды ежегодной конференции Немецкого общества технических коммуникаторов , Штутгарт: tekom , 18–21.
^ Jump up to: ^а ^б ^с ^д Мэри С. Нефф Майкл К. МакКорд (1990). «ПОЛУЧЕНИЕ ЛЕКСИЧЕСКИХ ДАННЫХ ИЗ МАШИНОЧИТАЕМЫХ СЛОВАРНЫХ РЕСУРСОВ ДЛЯ МАШИННОГО ПЕРЕВОДА». Исследовательский центр IBM TJ Watson, а/я 704, Йорктаун-Хайтс, Нью-Йорк 10598: 85–90. CiteSeerX 10.1.1.132.8355 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Jump up to: ^а ^б ^с ^д Ральф Д. Браун. «Автоматическое извлечение словаря для перевода на основе примеров, не требующего знаний» (PDF) . Институт языковых технологий (Центр машинного перевода) Университета Карнеги-Меллона, Питтсбург, Пенсильвания, 15213-3890, США. Архивировано из оригинала (PDF) 6 июля 2008 года . Проверено 2 ноября 2015 г.
^ Jump up to: ^а ^б ^с Жан Веронис (2001). Параллельная обработка текста: согласование и использование Корпорации переводов . Том. 27. Дордрехт: Kluwer Academic Publishers (серия «Текст, речь и языковые технологии», под редакцией Нэнси Иде и Жана Верониса, том 13), 2000, xxiii+402 стр.; в твердом переплете. стр. 592–595. дои : 10.1162/coli.2000.27.4.592 . ISBN 978-0-7923-6546-4 . S2CID 14796449 . {{cite book}}: |journal= игнорируется ( помогите )
^ Jump up to: ^а ^б ^с Дорр, Бонни Дж. (1997). «Построение крупномасштабного словаря для обучения иностранному языку и межъязыкового машинного перевода». Машинный перевод . 12 (4): 271–322. дои : 10.1023/A:1007965530302 . S2CID 1548552 .
^ Jump up to: ^а ^б ^с Дэвид Фарвелл, Лори Гербер, Эдуард Хови (1998). Машинный перевод и информационный суп . Конспекты лекций по информатике. Том. 1529. Классификация предметов CR (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Берлин Гейдельберг Нью-Йорк. дои : 10.1007/3-540-49478-2 . hdl : 11693/27676 . ISBN 978-3-540-65259-5 . S2CID 19677267 .
^ Jump up to: ^а ^б ^с ^д Дж. Хатчинс (январь 2006 г.). «Машинный перевод: История». стр. 375–383. дои : 10.1016/B0-08-044854-2/00937-8 . ISBN 9780080448541 . {{cite book}}: |journal= игнорируется ( помощь ) ; Отсутствует или пусто |title= ( помощь )
^ Jump up to: ^а ^б Имин Ян; Хайме Дж. Карбонелл; Ральф Д. Браун; Роберт Э. Фредеркинг (август 1998 г.). «Транслингвальный поиск информации: обучение на основе двуязычных корпусов» . Искусственный интеллект . 103 (1–2). Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллон, 5000 Forbes Avenue, Питтсбург, Пенсильвания 15213, США: 323–345. дои : 10.1016/S0004-3702(98)00063-0 .
^ Jump up to: ^а ^б Ян ХАЙИЧ; Ян HRIC; Владислав КУБОН (2000). «Машинный перевод очень близких языков» . Материалы шестой конференции по прикладной обработке естественного языка - . стр. 7–12. дои : 10.3115/974147.974149 . S2CID 8355580 . Проверено 2 ноября 2015 г.
^ Ари Пиркола (1998). «Влияние структуры запроса и настроек словаря на поиск межъязыковой информации на основе словаря». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Кафедра информационных исследований Университета Тампере. стр. 55–63. CiteSeerX 10.1.1.20.3202 . дои : 10.1145/290941.290957 . ISBN 978-1581130157 . S2CID 16199588 . Проверено 2 ноября 2015 г.
^ Дэвид А. Халл; Грегори Грефенстетт (1996). «Запросы на разных языках: словарный подход к многоязычному поиску информации». Материалы 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR '96 . Ранг Исследовательский центр Xerox 6, Шемен де Мопертюи, 38240 Мейлан, Франция. стр. 49–57. дои : 10.1145/243199.243212 . ISBN 978-0897917926 . S2CID 1274065 .

[1] Уве Мюгге (2006), «Отличное приложение для неумелого машинного перевода: автоматический перевод большой базы данных», в Элизабет Грефе (2006; ред.), Труды ежегодной конференции Немецкого общества технических коммуникаторов , Штутгарт: tekom , 18–21.

[:0-2] Jump up to: ^а ^б ^с ^д Мэри С. Нефф Майкл К. МакКорд (1990). «ПОЛУЧЕНИЕ ЛЕКСИЧЕСКИХ ДАННЫХ ИЗ МАШИНОЧИТАЕМЫХ СЛОВАРНЫХ РЕСУРСОВ ДЛЯ МАШИННОГО ПЕРЕВОДА». Исследовательский центр IBM TJ Watson, а/я 704, Йорктаун-Хайтс, Нью-Йорк 10598: 85–90. CiteSeerX 10.1.1.132.8355 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[:1-3] Jump up to: ^а ^б ^с ^д Ральф Д. Браун. «Автоматическое извлечение словаря для перевода на основе примеров, не требующего знаний» (PDF) . Институт языковых технологий (Центр машинного перевода) Университета Карнеги-Меллона, Питтсбург, Пенсильвания, 15213-3890, США. Архивировано из оригинала (PDF) 6 июля 2008 года . Проверено 2 ноября 2015 г.

[:2-4] Jump up to: ^а ^б ^с Жан Веронис (2001). Параллельная обработка текста: согласование и использование Корпорации переводов . Том. 27. Дордрехт: Kluwer Academic Publishers (серия «Текст, речь и языковые технологии», под редакцией Нэнси Иде и Жана Верониса, том 13), 2000, xxiii+402 стр.; в твердом переплете. стр. 592–595. дои : 10.1162/coli.2000.27.4.592 . ISBN 978-0-7923-6546-4 . S2CID 14796449 . {{cite book}}: |journal= игнорируется ( помогите )

[:3-5] Jump up to: ^а ^б ^с Дорр, Бонни Дж. (1997). «Построение крупномасштабного словаря для обучения иностранному языку и межъязыкового машинного перевода». Машинный перевод . 12 (4): 271–322. дои : 10.1023/A:1007965530302 . S2CID 1548552 .

[:4-6] Jump up to: ^а ^б ^с Дэвид Фарвелл, Лори Гербер, Эдуард Хови (1998). Машинный перевод и информационный суп . Конспекты лекций по информатике. Том. 1529. Классификация предметов CR (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Берлин Гейдельберг Нью-Йорк. дои : 10.1007/3-540-49478-2 . hdl : 11693/27676 . ISBN 978-3-540-65259-5 . S2CID 19677267 .

[:5-7] Jump up to: ^а ^б ^с ^д Дж. Хатчинс (январь 2006 г.). «Машинный перевод: История». стр. 375–383. дои : 10.1016/B0-08-044854-2/00937-8 . ISBN 9780080448541 . {{cite book}}: |journal= игнорируется ( помощь ) ; Отсутствует или пусто |title= ( помощь )

[:6-8] Jump up to: ^а ^б Имин Ян; Хайме Дж. Карбонелл; Ральф Д. Браун; Роберт Э. Фредеркинг (август 1998 г.). «Транслингвальный поиск информации: обучение на основе двуязычных корпусов» . Искусственный интеллект . 103 (1–2). Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллон, 5000 Forbes Avenue, Питтсбург, Пенсильвания 15213, США: 323–345. дои : 10.1016/S0004-3702(98)00063-0 .

[:7-9] Jump up to: ^а ^б Ян ХАЙИЧ; Ян HRIC; Владислав КУБОН (2000). «Машинный перевод очень близких языков» . Материалы шестой конференции по прикладной обработке естественного языка - . стр. 7–12. дои : 10.3115/974147.974149 . S2CID 8355580 . Проверено 2 ноября 2015 г.

[10] Ари Пиркола (1998). «Влияние структуры запроса и настроек словаря на поиск межъязыковой информации на основе словаря». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Кафедра информационных исследований Университета Тампере. стр. 55–63. CiteSeerX 10.1.1.20.3202 . дои : 10.1145/290941.290957 . ISBN 978-1581130157 . S2CID 16199588 . Проверено 2 ноября 2015 г.

[:8-11] Дэвид А. Халл; Грегори Грефенстетт (1996). «Запросы на разных языках: словарный подход к многоязычному поиску информации». Материалы 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR '96 . Ранг Исследовательский центр Xerox 6, Шемен де Мопертюи, 38240 Мейлан, Франция. стр. 49–57. дои : 10.1145/243199.243212 . ISBN 978-0897917926 . S2CID 1274065 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]