Нейронный машинный перевод Google
Часть серии о |
Перевод |
---|
![]() |
Типы |
Теория |
Технологии |
Локализация |
Институциональный |
Связанные темы |
|
Google Neural Machine Translation (GNMT) — это система нейронного машинного перевода (NMT), разработанная Google и представленная в ноябре 2016 года, которая использовала искусственную нейронную сеть для повышения беглости и точности в Google Translate . [1] [2] [3] [4] Нейронная сеть состояла из двух основных блоков, кодера и декодера, оба имели архитектуру LSTM шириной 1024, с 8 слоями шириной 1024 каждый и простой однослойный механизм прямого внимания соединяющий их. [4] [5] Общее количество параметров по разным оценкам превышает 160 миллионов. [6] около 210 миллионов, [7] 278 миллионов [8] или 380 миллионов. [9] К 2020 году систему заменила другая система глубокого обучения на основе преобразователей . [10]
GNMT улучшила качество перевода, применив на основе примеров (EBMT) метод машинного перевода , при котором система учится на миллионах примеров языкового перевода. [2] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] Благодаря большой комплексной структуре система со временем учится создавать более качественные и естественные переводы. [1] GNMT пытается переводить целые предложения за раз, а не по частям. [1] Сеть GNMT может выполнять межъязыковой машинный перевод , кодируя семантику предложения, а не запоминая пофазный перевод. [2] [11]
История [ править ]
Проект Google Brain был создан в 2011 году в «секретной исследовательской лаборатории Google X». [12] Сотрудник Google Джефф Дин , исследователь Google Грег Коррадо и Стэнфордского университета профессор компьютерных наук Эндрю Нг . [13] [14] [15] Работа Нга привела к величайшим прорывам в Google и Стэнфорде. [12]
В ноябре 2016 года была представлена система нейронного машинного перевода Google (GNMT). С тех пор Google Translate начал использовать нейронный машинный перевод (NMT) вместо предыдущих статистических методов (SMT). [1] [16] [17] [18] который использовался с октября 2007 года с использованием собственной собственной технологии SMT. [19] [20]
Обучение GNMT в то время требовало больших усилий и, по оценкам OpenAI на 2021 год, занимало порядка 100 PFLOP/с*день (до 10 22 FLOP) вычислений, что на 1,5 порядка больше, чем у модели Seq2seq 2014 года. [21] (но примерно в 2 раза меньше, чем GPT-J-6B в 2021 г. [22] ).
Система NMT Google Translate использует большую искусственную нейронную сеть, способную к глубокому обучению . [1] [2] [3] Используя миллионы примеров, GNMT повышает качество перевода, [2] использование более широкого контекста для вывода наиболее релевантного перевода. Затем результат перестраивается и адаптируется для подхода к грамматически обоснованному человеческому языку. [1] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] GNMT не создавала свой собственный универсальный интерлингва, а стремилась найти общее между многими языками, используя идеи психологии и лингвистики. [23] В ноябре 2016 года новая система перевода была впервые включена для восьми языков: на английский и французский, немецкий, испанский, португальский, китайский, японский, корейский и турецкий и обратно. [24] В марте 2017 года были включены три дополнительных языка: русский, хинди и вьетнамский, а также тайский, поддержка которого была добавлена позже. [25] [26] В том же месяце с помощью сообщества Google Translate была добавлена поддержка иврита и арабского языка. [27] В середине апреля 2017 года Google Нидерланды объявила о поддержке голландского и других европейских языков, родственных английскому. [28] В конце апреля 2017 года была добавлена дополнительная поддержка девяти индийских языков: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильского, телугу, малаялам и каннада. [29]
К 2020 году Google изменила методологию использования другой системы нейронных сетей на основе трансформаторов и постепенно отказалась от NMT. [30]
Оценка [ править ]
Сообщается, что система GNMT представляет собой улучшение по сравнению с прежним Google Translate, поскольку она сможет обрабатывать «нулевой перевод», то есть напрямую переводить один язык на другой (например, с японского на корейский). [2] Раньше Google Translate сначала переводил исходный язык на английский, а затем переводил английский на целевой язык, а не переводил напрямую с одного языка на другой. [11]
Исследование, проведенное в июле 2019 года в журнале Annals of Internal Medicine, показало, что «Google Translate — это жизнеспособный и точный инструмент для перевода исследований, проводимых не на английском языке». Только одно разногласие между рецензентами, читавшими результаты машинного перевода испытаний, было связано с ошибкой перевода. Поскольку многие медицинские исследования исключены из систематических обзоров, поскольку рецензенты не понимают языка, GNMT может уменьшить предвзятость и повысить точность таких обзоров. [31]
Языки, поддерживаемые GNMT [ править ]
По состоянию на декабрь 2021 года все языки Google Translate поддерживают GNMT, последним из которых является латынь.
- Африканский
- албанский
- амхарский
- арабский
- Армянский
- азербайджанский
- Баскский
- белорусский
- Бенгальский
- Боснийский
- болгарский
- бирманский
- каталонский
- кебуано
- Жевать
- Китайский ( упрощенный )
- Китайский ( традиционный )
- корсиканец
- хорватский
- чешский
- датский
- Голландский
- Английский
- эсперанто
- эстонский
- Филиппинский ( Тагальский )
- финский
- Французский
- галисийский
- грузинский
- немецкий
- Греческий
- Гуджарати
- гаитянский креольский
- Хауса
- гавайский
- иврит
- Неа
- Хмонг
- венгерский
- исландский
- Игбо
- индонезийский
- ирландский
- итальянский
- японский
- яванский
- Каннада
- казахский
- кхмерский
- Киньяруанда
- корейский
- Kurdish (Kurmanjiкурдский
- киргизский
- туберкулез
- латинский
- латышский
- литовский
- Люксембургский
- македонский
- малагасийский
- малайский
- малаялам
- мальтийский
- маори
- Маратхи
- Монгольский
- непальский
- Норвежский ( букмол )
- Одия
- пушту
- персидский
- Польский
- португальский
- Пенджаби ( Гурмукхи )
- румынский
- Русский
- Самоанец
- Шотландский гэльский
- сербский
- Шона
- Синдхи
- сингальский
- словацкий
- словенский
- Сомали
- сото
- испанский
- суданский
- суахили
- Шведский
- таджикский
- тамильский
- татарский
- телугу
- тайский
- турецкий
- туркменский
- Украинский
- Урду
- уйгурский
- Узбекский
- вьетнамский
- валлийский
- Западно-Фризский
- коса
- идиш
- Йоруба
- Зулу
См. также [ править ]
- Машинный перевод на основе примеров
- Машинный перевод на основе правил
- Сравнение приложений машинного перевода
- Статистический машинный перевод
- Искусственный интеллект
- Модель языка кэша
- Компьютерная лингвистика
- Компьютерный перевод
- История машинного перевода
- Список новых технологий
- Список исследовательских лабораторий машинного перевода
- Нейронный машинный перевод
- Машинный перевод
- Универсальный переводчик
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и ж Барак Туровский (15 ноября 2016 г.), «Найдено в переводе: более точные и беглые предложения в Google Translate» , блог Google , получено 11 января 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г час Майк Шустер; Мелвин Джонсон; Нихил Торат (22 ноября 2016 г.), «Нулевой перевод с помощью многоязычной нейронной системы машинного перевода Google» , исследовательский блог Google , получено 11 января 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Гил Фьюстер (5 января 2017 г.), «Потрясающее объявление об искусственном интеллекте от Google, которое вы, вероятно, пропустили» , freeCodeCamp , получено 11 января 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 . Бибкод : 2016arXiv160908144W .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ «Взгляд на архитектуру нейронной сети, используемой для нейронного машинного перевода Google» .
- ^ Цинь, Минхай; Чжан, Тяньюнь; Сунь, Фэй; Чен, Йен-Куанг; Фардад, Макан; Ван, Яньчжи; Се, Юань (2021). «Компактные многоуровневые разреженные нейронные сети с независимой от входных данных динамической перемаршрутизацией». arXiv : 2112.10930 [ cs.NE ].
- ^ «Сжатие модели нейронного машинного перевода Google — NLP Architect от Intel® AI Lab 0.5.5, документация» .
- ^ Лангруди, Хамед Ф.; Кария, Ведант; Пандит, Тедж; Кудитипуди, Дхириша (2021). «ПАЛАТКА: эффективное квантование нейронных сетей на крошечном краю с конической фиксированной точкой PoiNT». arXiv : 2104.02233 [ cs.LG ].
- ^ «Увеличение данных | Как использовать глубокое обучение, когда у вас ограниченные данные» . 19 мая 2021 г.
- ^ «Последние достижения в Google Translate» . исследование.google . Проверено 8 мая 2024 г.
- ↑ Перейти обратно: Перейти обратно: а б Бойте, Кристиан; Бланшон, Эрве; Селигман, Марк; Беллинк, Валери (2010). «MT для Интернета» (PDF) . Архивировано из оригинала (PDF) 29 марта 2017 года . Проверено 1 декабря 2016 г.
- ↑ Перейти обратно: Перейти обратно: а б Роберт Д. Хоф (14 августа 2014 г.). «Китайский интернет-гигант начинает мечтать: Baidu — неотъемлемая часть онлайн-жизни в Китае, но он хочет стать мировой державой. Может ли один из ведущих мировых исследователей искусственного интеллекта помочь ему бросить вызов крупнейшим компаниям Кремниевой долины?» . Обзор технологий . Проверено 11 января 2017 г.
- ^ Джефф Дин и Эндрю Нг (26 июня 2012 г.). «Использование крупномасштабного моделирования мозга для машинного обучения и искусственного интеллекта» Официальный блог Google . Проверено 26 января 2015 г.
- ^ «Крупномасштабный проект Google по глубоким нейронным сетям» . Ютуб . Проверено 25 октября 2015 г.
- ^ Маркофф, Джон (25 июня 2012 г.). «Сколько компьютеров, чтобы идентифицировать кошку? 16 000» . Нью-Йорк Таймс . Проверено 11 февраля 2014 г.
- ^ Катянна Куах (17 ноября 2016 г.), «Нейронная сеть Google учится переводить языки, на которых она не была обучена: впервые в машинном переводе использовалось настоящее трансферное обучение» , The Register , получено 11 января 2017 г.
- ^ Льюис-Краус, Гидеон (14 декабря 2016 г.). «Великое пробуждение искусственного интеллекта» . Нью-Йорк Таймс . Проверено 11 января 2017 г.
- ^ Ле, Куок; Шустер, Майк (27 сентября 2016 г.). «Нейронная сеть для машинного перевода в промышленном масштабе» . Блог исследований Google . Проверено 1 декабря 2016 г.
- ↑ Google переходит на собственную систему перевода , 22 октября 2007 г.
- ^ Барри Шварц (23 октября 2007 г.). «Google Translate отказывается от SYSTRAN для домашнего перевода» . Земля поисковых систем .
- ^ «ИИ и вычисления» .
- ^ "Оглавление" . Гитхаб .
- ^ Крис Макдональд (7 января 2017 г.), Комментируя статью Гила Фьюстера в журнале Atlantic от 5 января , получено 11 января 2017 г.
- ^ Туровский, Барак (15 ноября 2016 г.). «Найдено в переводе: более точные и беглые предложения в Google Translate» . Ключевое слово Блог Google . Проверено 1 декабря 2016 г.
- ^ Перес, Сара (6 марта 2017 г.). «Умная система перевода Google на базе искусственного интеллекта распространяется на большее количество языков» . ТехКранч . Компания Oath Inc.
- ^ Туровский, Барак (6 марта 2017 г.). «Более качественные нейронные переводы для большего количества языков» . Ключевое слово Блог Google . Проверено 6 марта 2017 г.
- ^ Новет, Иордания (30 марта 2017 г.). «Теперь Google предоставляет переводы на арабский и иврит с помощью искусственного интеллекта» . ВенчурБит .
- ^ Финге, Рашид (19 апреля 2017 г.). «Большое улучшение голландского языка в Google Translate» [Большое улучшение голландского языка в Google Translate]. Блог Google в Нидерландах (на голландском языке).
- ^ Туровский, Барак (25 апреля 2017 г.). «Сделать Интернет более инклюзивным в Индии» . Ключевое слово .
- ^ «Последние достижения в Google Translate» . исследование.google . Проверено 8 мая 2024 г.
- ^ Джексон, Джеффри Л; Курияма, Акира; Антон, Андреа; Цой, апрель; Фурнье, Жан-Паскаль; Гейер, Анн-Катрин; Жакериоз, Фредерик; Коган, Дмитрий; Шолкофф, Сесилия; Сунь, Рао (30 июля 2019 г.). «Точность Google Translate для абстрагирования данных неанглоязычных исследований для систематических обзоров». Анналы внутренней медицины . 171 (9): 678. дои : 10.7326/M19-0891 . ISSN 0570-183X . ПМИД 31357212 . S2CID 198980789 .
Внешние ссылки [ править ]

- Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом
- Преимущества и недостатки машинного перевода
- Статистический машинный перевод
- Международная ассоциация машинного перевода (IAMT). Архивировано 24 июня 2010 г. в Wayback Machine.
- Архив машинного перевода. Архивировано 1 апреля 2019 года в Wayback Machine Джоном Хатчинсом . Электронный репозиторий (и библиография) статей, книг и документов в области машинного перевода и технологий компьютерного перевода.
- Машинный перевод (компьютерный перевод) - публикации Джона Хатчинса (включая PDF-файлы нескольких книг по машинному переводу)