Jump to content

Параллельный текст

Розеттский камень , стела, на которой выгравирован один и тот же указ как в древнеегипетском , так и в древнегреческом письме . Его открытие стало ключом к расшифровке древнеегипетского языка.

Параллельный текст – это текст, помещенный рядом с его переводом или переводами. [1] [2] Параллельное выравнивание текста – это выявление соответствующих предложений в обеих половинах параллельного текста. и Классическая библиотека Леба Библиотека санскрита Клэя — два примера двуязычных серий текстов. Справочные Библии могут содержать языки оригинала и перевод или несколько переводов сами по себе для удобства сравнения и изучения; В книге Оригена « Гексапла» (по-гречески «шестичастная») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень , открытие которого позволило древнеегипетского языка начать расшифровку .

Большие коллекции параллельных текстов называются параллельными корпусами (см. текстовый корпус ). Выравнивание параллельных корпусов на уровне предложений является обязательным условием для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или изменены переводчиком. Это делает выравнивание нетривиальной задачей.

Параллельные тексты могут использоваться в языковом обучении . [3]

Типы параллельных корпусов [ править ]

Параллельные корпуса можно разделить на четыре основные категории: [ нужна ссылка ]

  • содержит Параллельный корпус переводы одного и того же документа на два или более языков, выровненные как минимум на уровне предложений. Они, как правило, встречаются реже, чем менее сопоставимые корпуса. [ нужна ссылка ]
  • Зашумленный параллельный корпус содержит двуязычные предложения, которые не идеально согласованы или имеют некачественный перевод. Тем не менее, большая часть его содержания представляет собой двуязычный перевод конкретного документа.
  • состоит Сопоставимый корпус из несогласованных по предложениям и непереведенных двуязычных документов, но документы выровнены по темам.
  • Квазисопоставимый корпус включает в себя очень разнородные и непараллельные двуязычные документы, которые могут быть или не быть связаны по теме.

Шум в корпусах [ править ]

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода , обычно извлекаются из больших объемов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках, описывающих схожие события.

Однако извлеченные фрагменты могут быть зашумленными, поскольку в каждый корпус вставляются дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные как в корпусах, так и одноязычные элементы, представленные только в одном корпусе, чтобы извлечь более чистые параллельные фрагменты двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний в целях перевода. Однако получить высококачественные параллельные данные сложно, особенно для языков с ограниченными ресурсами. [4]

Битекст [ править ]

В области переводоведения битекст — это объединенный документ , состоящий из версий данного текста как на исходном, так и на целевом языке.

Битексты генерируются с помощью программного обеспечения, называемого инструментом выравнивания или инструментом битекста , который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом , и к ней можно обратиться с помощью инструмента поиска.

Битексты и память переводов [ править ]

Битексты имеют некоторое сходство с памятью переводов. Наиболее заметное отличие состоит в том, что память переводов теряет исходный контекст, а битовый текст сохраняет исходный порядок предложений. Тем не менее, некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранять исходный порядок предложений.

Битексты предназначены для использования человеком- переводчиком , а не машиной. Таким образом, небольшие ошибки выравнивания или незначительные неточности, которые могут привести к сбою памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что битекст представляет собой то, как переводчики удерживают исходный и целевой тексты вместе в своей мысленной рабочей памяти по мере их продвижения. Однако эта гипотеза не получила подтверждения. [5]

Онлайн-битексы и памяти переводов также можно назвать онлайн-двуязычными конкордансами. Некоторые из них доступны в общедоступной сети, включая Linguée , Reverso и Tradooit. [6] [7] [8]

См. также [ править ]

Ссылки [ править ]

  1. ^ Чан, Син-Вай (2015). Энциклопедия технологий перевода Routledge . Лондон: Рутледж. ISBN  978-1-315-74912-9 .
  2. ^ Уильямс, Филип; Сеннрих, Рико; Пост, Мэтт; Коэн, Филипп (2016). Статистический машинный перевод на основе синтаксиса . Морган и Клейпул. ISBN  978-1-62705-502-4 .
  3. ^ Абдалла, А. (2021). Влияние использования стратегии параллельного текста на обучение чтению учащихся среднего уровня II. Международный журнал социальных и образовательных наук (IJonSES), 3 (1), 95–108. https://doi.org/10.46328/ijonses.48
  4. ^ Волк, Кшиштоф (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложения» . Информатика . 16 (2): 169–184. arXiv : 1510.04500 . Бибкод : 2015arXiv151004500W . дои : 10.7494/csci.2015.16.2.169 . S2CID   12860633 .
  5. ^ Харрис, Б. (март 1988 г.). «Битекст: новая концепция теории перевода» (PDF) . Язык Ежемесячно . 54 : 8–10. Архивировано из оригинала (PDF) 02 марта 2018 г.
  6. ^ Женетт, Мари (2016). Насколько надежны онлайн-двуязычные конкордансеры? Исследование Linguee , TradooIT , WeBiText и ReversoContext и их надежности посредством сравнительного анализа сложных предлогов с французского на английский (магистерская диссертация). Католический университет Лувена и Университет Осло. hdl : 10852/51577 .
  7. ^ «TradooIT – двуязычный конкордансер» .
  8. ^ Десиле, Ален; Фарли, Бенуа; Стоянович, Марта; Патеноуд, Женевьева (2008). WeBiText: создание больших гетерогенных хранилищ переводов из параллельного веб-контента . Труды по переводу и компьютеру. Том. 30. С. 27–28. S2CID   14586900 .

Внешние ссылки [ править ]

Параллельные корпуса [ править ]

Документация [ править ]

Инструменты выравнивания [ править ]

  1. ^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4aad929191d2f2a1d7af709be0503822__1703646000
URL1:https://arc.ask3.ru/arc/aa/4a/22/4aad929191d2f2a1d7af709be0503822.html
Заголовок, (Title) документа по адресу, URL1:
Parallel text - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)