Jump to content

Апертиум

Апертиум
Стабильная версия
3.9.4 [1]  Отредактируйте это в Викиданных / 28 декабря 2023 г .; 5 месяцев назад ( 28 декабря 2023 г. )
Репозиторий github / апертиум
Написано в С++
Операционная система Совместимость с POSIX и Windows NT (ограниченная поддержка)
Доступно в 35 языков, см . ниже
Тип Машинный перевод на основе правил
Лицензия Стандартная общественная лицензия GNU
Веб-сайт www .apertium .org

Apertium — это с открытым исходным кодом бесплатная платформа машинного перевода , основанная на правилах . Это бесплатное программное обеспечение , распространяемое на условиях Стандартной общественной лицензии GNU .

Обзор [ править ]

на основе передачи Apertium — это система машинного перевода , которая использует преобразователи конечных состояний для всех своих лексических преобразований и тегеры ограничительной грамматики , а также скрытые модели Маркова или перцептроны для маркировки частей речи / устранения неоднозначности категорий слов. [2] Компонент структурного переноса отвечает за движение и согласование слов; большинство языковых пар Apertium до сих пор использовали правила «фрагментации» или мелкой передачи, хотя в новых парах используются (возможно, рекурсивные) правила, определенные в контекстно-свободной грамматике . [3]

Многие существующие машинного перевода, системы доступные в настоящее время, являются коммерческими или используют запатентованные технологии, что затрудняет их адаптацию к новым условиям использования. Код и данные Apertium являются бесплатным программным обеспечением и используют независимую от языка спецификацию , что упрощает внесение вклада в Apertium, повышает эффективность разработки и ускоряет общий рост проекта.

На данный момент (декабрь 2020 г.) Apertium выпустила 51 стабильную языковую пару. [4] обеспечение быстрого перевода с достаточно понятными результатами (ошибки легко исправляются). Будучи проектом с открытым исходным кодом , Apertium предоставляет потенциальным разработчикам инструменты для создания собственной языковой пары и внесения вклада в проект.

История [ править ]

Apertium возник как одна из систем машинного перевода в проекте OpenTrad , который финансировался правительством Испании и был разработан исследовательской группой Transducens в Университете Алаканта . Первоначально он был разработан для перевода между близкородственными языками, хотя недавно он был расширен для обработки более расходящихся языковых пар. Чтобы создать новую систему машинного перевода, достаточно разработать лингвистические данные (словари, правила) в четко определенных форматах XML .

Языковые данные, разработанные для него (в сотрудничестве с Universidade de Vigo , Universitat Politècnica de Catalunya и Universitat Pompeu Fabra ), в настоящее время поддерживают (в стабильной версии) арабский , арагонский , астурийский , баскский , белорусский , бретонский , болгарский , каталанский , крымский . Татарский , датский , английский , эсперанто , французский , галисийский , хинди , исландский , индонезийский , итальянский , казахский , македонский , мальтийский , малайзийский , северносаамский , норвежский ( букмол и нюнорск ), окситанский , польский , португальский , румынский , русский , сардинский , Сербохорватский , силезский , словенский , испанский , шведский , татарский , украинский , урду и валлийский языки. Полный список доступен ниже. В разработке Apertium также участвуют несколько компаний, в том числе Prompsit Language Engineering , Imaxin Software и Eleka Ingeniaritza Linguistikoa .

Проект принял участие в 2009 году, [5] 2010, [6] 2011, [7] 2012, [8] 2013 [9] и 2014 г. [10] выпуски Google Summer of Code и 2010 года, [11] 2011, [12] 2012, [13] 2013, [14] 2014, [15] 2015, [16] 2016 [17] и 2017 год [18] версии Google Code-In .

Методика перевода [ править ]

Конвейер системы машинного перевода Apertium

Это общий пошаговый обзор работы Apertium.

На диаграмме показаны шаги, которые Apertium предпринимает для перевода текста на исходном языке (текста, который мы хотим перевести) в текст на целевом языке (переведенный текст).

  1. Текст на исходном языке передается в Apertium для перевода.
  2. Средство деформатирования удаляет разметку форматирования (HTML, RTF и т. д.), которую следует оставить на месте, но не переводить.
  3. Морфологический анализатор сегментирует текст (расширяя пропуски , отмечая устойчивые фразы и т. д.) и ищет сегменты в словарях языка, возвращая словарные формы и теги для всех совпадений. В парах, включающих агглютинативную морфологию , включая ряд тюркских языков , Хельсинкский преобразователь конечного состояния используется (HFST). В противном случае, специфичная для Apertium система преобразователей конечных состояний , называемая lttoolbox, [19] используется.
  4. Морфологический преобразователь неоднозначности ( морфологический анализатор и морфологический преобразователь неоднозначности вместе образуют часть речевого тегера ) разрешает неоднозначные сегменты (т. е. когда имеется более одного совпадения), выбирая одно совпадение. Apertium использует правила грамматики ограничений (с помощью парсера vislcg3). [20] ) для большинства языковых пар.
  5. Ретокенизация использует преобразователь конечного состояния для сопоставления последовательностей лексических единиц и может переупорядочивать или переводить теги (часто используется для перевода идиоматических выражений во что-то, что больше приближается к грамматике целевого языка).
  6. Лексический перенос ищет неопределенные базовые слова исходного языка, чтобы найти их эквиваленты на целевом языке (т. е. сопоставляет исходный язык с целевым языком ). Для лексической передачи Apertium использует формат словаря на основе XML , называемый bidix. [21]
  7. Лексический отбор выбирает между альтернативными переводами, когда слово исходного текста имеет альтернативные значения. Apertium использует специальную XML технологию на основе — apertium-lex-tools, [22] осуществлять лексический отбор .
  8. Структурная передача (т. е. это формат XML , который позволяет писать сложные правила структурной передачи) может состоять из одноэтапной фрагментарной передачи, трехэтапной фрагментированной передачи или модуля передачи на основе CFG . Модули фрагментирования отмечают грамматические различия между исходным языком и целевым языком (например, совпадение пола или числа ), создавая для этого последовательность фрагментов, содержащих маркеры. Затем они переупорядочивают или модифицируют фрагменты, чтобы произвести грамматический перевод на целевой язык. Новый модуль на основе CFG сопоставляет входные последовательности с возможными деревьями синтаксического анализа, выбирая наиболее ранжированную и применяя правила преобразования к дереву.
  9. Морфологический генератор использует теги для обеспечения правильной целевого языка поверхностной формы . Морфологический генератор представляет собой морфологический преобразователь, [23] так же, как морфологический анализатор. Морфологический преобразователь одновременно анализирует и генерирует формы.
  10. Постгенератор исключения вносит любые необходимые орфографические изменения из-за контакта слов (например, ) .
  11. Программа форматирования заменяет разметку форматирования (HTML, RTF и т. д.), которая была удалена программой преобразования на первом этапе.
  12. Apertium обеспечивает перевод на целевой язык .

Языковые пары [ править ]

Список стабильных на данный момент языковых пар. Наведите курсор на коды языков, чтобы увидеть языки, которые они представляют.

afaranasteubrbgcadanleneofifrgldehinisiditkazmkmsmtsmenbnnocptroschbsslvessvtaturdcy
Африканский Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
арабский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Арагонский Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет
Астурийский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет
Баскский Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет
бретонский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
болгарский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
каталонский Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Да (⇄) Да (→) Нет Да (⇄) Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Да (⇄) Да (⇄) Нет Да (→) Нет Нет Да (⇄) Нет Нет Нет Нет
датский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Да (⇄) Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет
Голландский Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Английский Нет Нет Нет Нет Да ( ← ) Нет Нет Да (⇄) Нет Нет Да (⇄) Нет Нет Да (⇄) Нет Нет Да ( ← ) Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Да (⇄) Нет Нет Нет Да ( ← )
эсперанто Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Да (⇄) Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
финский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Французский Нет Нет Нет Нет Нет Да ( ← ) Нет Да (⇄) Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет
галисийский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет
немецкий Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Неа Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет
исландский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет
индонезийский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
итальянский Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет
казахский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет
македонский Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет
Малазийский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
мальтийский Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Северные саамы Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Норвежский ( букмол ) Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Норвежский ( Нюнорск ) Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
окситанский Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет
португальский Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет
румынский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет
Сардинский Нет Нет Нет Нет Нет Нет Нет Да ( ← ) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Сербско-хорватский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет
словенский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет
испанский Нет Нет Да (⇄) Да (⇄) Да ( ← ) Нет Нет Да (⇄) Нет Нет Да (⇄) Да (→) Нет Да (⇄) Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Да (⇄) Да ( ← ) Нет Нет Нет Нет Нет Нет Нет
Шведский Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
татарский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
Урду Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (⇄) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет
валлийский Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Да (→) Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет Нет

См. также [ править ]

Примечания [ править ]

  1. ^ . 28 декабря 2023 г. https://github.com/apertium/apertium/releases/tag/v3.9.4 . {{cite web}}: Отсутствует или пусто |title= ( помощь )
  2. ^ Фрэнсис М. Тайерс (2010) « Машинный перевод с бретонского языка на французский на основе правил. Архивировано 17 ноября 2016 г. в Wayback Machine ». «Материалы 14-й ежегодной конференции Европейской ассоциации машинного перевода, EAMT10», стр. 174–181.
  3. ^ Ханна, Танмаи; Вашингтон, Джонатан Н.; Тайерс, Фрэнсис М.; Баятлы, Севилай; Суонсон, Дэниел Г.; Пиринен, Томми А.; Тан, Ирен; Алос и Фонт, Гектор (1 декабря 2021 г.). «Последние достижения Apertium, бесплатной платформы машинного перевода на основе правил с открытым исходным кодом для языков с низким уровнем ресурсов» . Машинный перевод . 35 (4): 475–502. дои : 10.1007/s10590-021-09260-6 . hdl : 10037/22990 .
  4. ^ «Апертиум» .
  5. ^ «Организации, допущенные к участию в Google Summer of Code 2009» .
  6. ^ «Организации, допущенные к участию в Google Summer of Code 2010» .
  7. ^ «Организации, допущенные к участию в Google Summer of Code 2011» .
  8. ^ «Организации, допущенные к участию в Google Summer of Code 2012» .
  9. ^ «Организации, допущенные к участию в Google Summer of Code 2013» .
  10. ^ «Организации, допущенные к участию в Google Summer of Code 2014» .
  11. ^ «Организации, допущенные к использованию Google Code в 2010 году» .
  12. ^ «Организации, допущенные к использованию Google Code в 2011 году» .
  13. ^ «Организации, допущенные к использованию Google Code в 2012 году» .
  14. ^ «Организации, допущенные к использованию Google Code в 2013 году» .
  15. ^ «Организации, допущенные к использованию Google Code в 2014 году» .
  16. ^ «Организации, допущенные к использованию Google Code в 2015 году» .
  17. ^ «Организации, допущенные к использованию Google Code в 2016 году» .
  18. ^ «Организации, допущенные к использованию Google Code в 2017 году» .
  19. ^ «Lttoolbox — Апертиум» . wiki.apertium.org . Проверено 19 января 2016 г.
  20. ^ «ВИСЛ» . beta.visl.sdu.dk. ​Проверено 19 января 2016 г.
  21. ^ «Двуязычный словарь — Апертиум» . wiki.apertium.org . Проверено 19 января 2016 г.
  22. ^ «Модуль лексического выбора на основе ограничений — Apertium» . wiki.apertium.org . Проверено 19 января 2016 г.
  23. ^ «Морфологический словарь — Апертиум» . wiki.apertium.org . Проверено 19 января 2016 г.

Ссылки [ править ]

  • Корби-Беллот, М. и др. (2005) «Механизм машинного перевода с открытым исходным кодом для романских языков Испании» в Трудах Европейской ассоциации машинного перевода, 10-я ежегодная конференция, Будапешт, 2005 г. , стр. 79–86.
  • Арментано-Оллер, К. и др. (2006) «Португальско-испанский машинный перевод с открытым исходным кодом» в Lecture Notes in Computer Science 3960 [Вычислительная обработка португальского языка, Материалы 7-го международного семинара по вычислительной обработке письменного и разговорного португальского языка, PROPOR 2006] , стр. 50– 59.
  • Форкада, М.Л. и др. (2010) «Документация платформы машинного перевода с открытым исходным кодом Apertium » на факультете Llenguatges i Sistemes Informatics, Университет Алаканта .
  • Форкада, М.Л. и др. (2011) « Apertium: бесплатная платформа с открытым исходным кодом для машинного перевода на основе правил ». в " дои : 10.1007/s10590-011-9090-0

Внешние ссылки [ править ]

Услуги и программное обеспечение для конечных пользователей [ править ]

(Все сервисы основаны на движке Apertium)

Сайты онлайн-переводов [ править ]

Офлайн-приложения [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1abf83c5937e40989f26c3c11285d611__1704169560
URL1:https://arc.ask3.ru/arc/aa/1a/11/1abf83c5937e40989f26c3c11285d611.html
Заголовок, (Title) документа по адресу, URL1:
Apertium - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)