Jump to content

Синтез китайской речи

Синтез китайской речи — это применение синтеза речи к китайскому языку (обычно стандартному китайскому ). Это создает дополнительные трудности из-за того, что китайские иероглифы часто имеют разное произношение в разных контекстах и ​​сложной просодии , которая необходима для передачи значения слов, а иногда и из-за трудностей в достижении согласия между носителями языка относительно правильного произношения определенных фонем .

Concatenation (Ekho and KeyTip)

[ редактировать ]

Записи можно объединять в любую желаемую комбинацию, но соединения звучат принудительно (как обычно для простого синтеза речи на основе конкатенации ), и это может серьезно повлиять на просодию; эти синтезаторы также негибки с точки зрения скорости и экспрессии. Однако, поскольку эти синтезаторы не полагаются на корпус, производительность при использовании более необычных или неуклюжих фраз не снижается.

Ekho — это TTS с открытым исходным кодом, который просто объединяет выбранные слоги. [1] В настоящее время он поддерживает кантонский диалект , мандаринский диалект и экспериментальный корейский язык . Некоторые слоги китайского языка были нормализованы в Praat . Их модифицированная версия используется в «синтезе из частей» Градинта. [2]

cjkware.com раньше поставлял продукт под названием KeyTip Putonghua Reader, который работал аналогично; он содержал 120 мегабайт звукозаписей (сжатых по стандарту GSM до 40 мегабайт в ознакомительной версии), включая 10 000 многосложных словарных слов плюс односложные записи в 6 различных просодиях (4 тона, нейтральный тон и дополнительная запись третьего тона). для использования в конце фразы).

Легкие синтезаторы (eSpeak и Yuet)

[ редактировать ]

Легкий речевой проект с открытым исходным кодом eSpeak , имеющий собственный подход к синтезу, экспериментировал с мандаринским и кантонским диалектами. eSpeak использовался Google Translate с мая 2010 г. [3] до декабря 2010 года. [4]

Коммерческий продукт Yuet также является легким (он предназначен для сред с ограниченными ресурсами, таких как встроенные системы ); он был написан с нуля на ANSI C, начиная с 2013 года. Юет заявляет о встроенной модели НЛП , не требующей отдельного словаря; речь, синтезированная движком, требует четких границ слов и акцента на соответствующих словах. Для получения копии необходима связь с автором. [5]

И eSpeak, и Yuet могут синтезировать речь для кантонского и мандаринского языков из одного и того же входного текста и могут выводить соответствующую латинизацию (для кантонского диалекта Yuet использует Yale , а eSpeak использует Jyutping ; оба используют пиньинь для китайского языка). eSpeak не заботится о границах слов, если они не меняют вопрос о том, какой слог следует произносить.

Корпусный

[ редактировать ]

«Корпусный» подход в большинстве случаев может звучать очень естественно, но может привести к ошибке при работе с необычными фразами, если их невозможно сопоставить с корпусом. [6] Механизм синтезатора обычно очень велик (сотни или даже тысячи мегабайт) из-за размера корпуса.

Anhui USTC iFlyTek Co., Ltd (iFlyTek) опубликовала документ W3C , в котором они адаптировали язык разметки синтеза речи для создания языка разметки под названием китайский язык разметки синтеза речи (CSSML), который может включать дополнительную разметку для уточнения произношения символов и чтобы добавить некоторую просодическую информацию. [7] Объем используемых данных не раскрывается iFlyTek, но его можно увидеть по коммерческим продуктам, для которых iFlyTek лицензировала свою технологию; например, SpeechPlus от Bider представляет собой загрузку размером 1,3 гигабайта, из которых 1,2 гигабайта используются для сильно сжатых данных для одного китайского голоса. Синтезатор iFlyTek также может синтезировать смешанный китайский и английский текст одним и тем же голосом (например, китайские предложения, содержащие некоторые английские слова); они утверждают, что их английский синтез «средний».

Корпус iFlyTek, похоже, сильно зависит от китайских иероглифов невозможно , и синтезировать только на основе пиньинь . Иногда с помощью CSSML можно добавить к символам пиньинь, чтобы устранить неоднозначность между несколькими возможными произношениями, но это не всегда работает.

Существует онлайн-интерактивная демонстрация синтеза речи NeoSpeech , [8] который принимает китайские иероглифы, а также пиньинь , если он заключен в их собственную разметку «VTML». [9]

В Mac OS были доступны синтезаторы китайской речи до версии 9. Они были удалены в версии 10.0 и восстановлены в версии 10.7 (Lion). [10]

Исторические корпусные синтезаторы (больше не доступны)

[ редактировать ]

Корпусный подход был использован Университетом Цинхуа в компании SinoSonic: голосовые данные харбинского диалекта занимают 800 мегабайт. Планировалось, что это будет доступно для загрузки, но ссылка так и не была активирована. можно найти лишь упоминания о нем Сейчас в Интернет-архиве . [11]

Подход Bell Labs, который был продемонстрирован онлайн в 1997 году, но впоследствии удален, был описан в монографии «Многоязычный синтез речи в речи: подход Bell Labs» (Springer, 31 октября 1997 г., ISBN   978-0-7923-8027-6 ), а бывшая сотрудница, отвечавшая за проект, Чилин Ши (которая впоследствии работала в Университете Иллинойса) разместила на своем сайте несколько заметок о своих методах. [12]

  1. ^ Ekho
  2. ^ Градинт
  3. ^ «Предоставление голоса большему количеству языков с помощью Google Translate» .
  4. ^ «Послушайте нас сейчас!» .
  5. ^ «Yuet, крошечный кантонский механизм TTS, механизм синтеза кантонской речи для автономной встроенной системы» .
  6. ^ «Китайские ошибки в коммерческих синтезаторах речи» .
  7. ^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf [ пустой URL PDF ]
  8. ^ "Дом" . neospeech.com .
  9. ^ например, <vtml_phoneme алфавит="x-pinyin" ph="ni3hao3"></vtml_phoneme>; см. страницы 7 и 25–27 https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf.
  10. ^ Голосовые пакеты автоматически загружаются по мере необходимости, если они выбраны в «Системных настройках», «Настройки речи», «Преобразование текста в речь», «Системный голос», «Настройка». В системе доступны три китайских женских голоса. По одному для материкового Китая, Гонконга и Тайваня.
  11. ^ «Группа исследований речевого взаимодействия человека с компьютером» . hcsi.cs.tsinghua.edu.cn . Архивировано из оригинала 13 августа 2004 года . Проверено 12 января 2022 г.
  12. ^ Домашняя страница: Чилин Ши (ссылка в Интернет-архиве)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1dc6c254244d208a93f33b23f73705f6__1716338700
URL1:https://arc.ask3.ru/arc/aa/1d/f6/1dc6c254244d208a93f33b23f73705f6.html
Заголовок, (Title) документа по адресу, URL1:
Chinese speech synthesis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)