Синтез китайской речи

Синтез китайской речи — это применение синтеза речи к китайскому языку (обычно стандартному китайскому ). Это создает дополнительные трудности из-за того, что китайские иероглифы часто имеют разное произношение в разных контекстах и сложной просодии , которая необходима для передачи значения слов, а иногда и из-за трудностей в достижении согласия между носителями языка относительно правильного произношения определенных фонем .

Concatenation (Ekho and KeyTip)

Записи можно объединять в любую желаемую комбинацию, но соединения звучат принудительно (как обычно для простого синтеза речи на основе конкатенации ), и это может серьезно повлиять на просодию; эти синтезаторы также негибки с точки зрения скорости и экспрессии. Однако, поскольку эти синтезаторы не полагаются на корпус, производительность при использовании более необычных или неуклюжих фраз не снижается.

Ekho — это TTS с открытым исходным кодом, который просто объединяет выбранные слоги. ^[1] В настоящее время он поддерживает кантонский диалект , мандаринский диалект и экспериментальный корейский язык . Некоторые слоги китайского языка были нормализованы в Praat . Их модифицированная версия используется в «синтезе из частей» Градинта. ^[2]

cjkware.com раньше поставлял продукт под названием KeyTip Putonghua Reader, который работал аналогично; он содержал 120 мегабайт звукозаписей (сжатых по стандарту GSM до 40 мегабайт в ознакомительной версии), включая 10 000 многосложных словарных слов плюс односложные записи в 6 различных просодиях (4 тона, нейтральный тон и дополнительная запись третьего тона). для использования в конце фразы).

Легкие синтезаторы (eSpeak и Yuet)

Легкий речевой проект с открытым исходным кодом eSpeak , имеющий собственный подход к синтезу, экспериментировал с мандаринским и кантонским диалектами. eSpeak использовался Google Translate с мая 2010 г. ^[3] до декабря 2010 года. ^[4]

Коммерческий продукт Yuet также является легким (он предназначен для сред с ограниченными ресурсами, таких как встроенные системы ); он был написан с нуля на ANSI C, начиная с 2013 года. Юет заявляет о встроенной модели НЛП , не требующей отдельного словаря; речь, синтезированная движком, требует четких границ слов и акцента на соответствующих словах. Для получения копии необходима связь с автором. ^[5]

И eSpeak, и Yuet могут синтезировать речь для кантонского и мандаринского языков из одного и того же входного текста и могут выводить соответствующую латинизацию (для кантонского диалекта Yuet использует Yale , а eSpeak использует Jyutping ; оба используют пиньинь для китайского языка). eSpeak не заботится о границах слов, если они не меняют вопрос о том, какой слог следует произносить.

Корпусный

«Корпусный» подход в большинстве случаев может звучать очень естественно, но может привести к ошибке при работе с необычными фразами, если их невозможно сопоставить с корпусом. ^[6] Механизм синтезатора обычно очень велик (сотни или даже тысячи мегабайт) из-за размера корпуса.

iFlyTek

Anhui USTC iFlyTek Co., Ltd (iFlyTek) опубликовала документ W3C , в котором они адаптировали язык разметки синтеза речи для создания языка разметки под названием китайский язык разметки синтеза речи (CSSML), который может включать дополнительную разметку для уточнения произношения символов и чтобы добавить некоторую просодическую информацию. ^[7] Объем используемых данных не раскрывается iFlyTek, но его можно увидеть по коммерческим продуктам, для которых iFlyTek лицензировала свою технологию; например, SpeechPlus от Bider представляет собой загрузку размером 1,3 гигабайта, из которых 1,2 гигабайта используются для сильно сжатых данных для одного китайского голоса. Синтезатор iFlyTek также может синтезировать смешанный китайский и английский текст одним и тем же голосом (например, китайские предложения, содержащие некоторые английские слова); они утверждают, что их английский синтез «средний».

Корпус iFlyTek, похоже, сильно зависит от китайских иероглифов невозможно , и синтезировать только на основе пиньинь . Иногда с помощью CSSML можно добавить к символам пиньинь, чтобы устранить неоднозначность между несколькими возможными произношениями, но это не всегда работает.

NeoSpeech

Существует онлайн-интерактивная демонстрация синтеза речи NeoSpeech , ^[8] который принимает китайские иероглифы, а также пиньинь , если он заключен в их собственную разметку «VTML». ^[9]

MacOS

В Mac OS были доступны синтезаторы китайской речи до версии 9. Они были удалены в версии 10.0 и восстановлены в версии 10.7 (Lion). ^[10]

Исторические корпусные синтезаторы (больше не доступны)

Корпусный подход был использован Университетом Цинхуа в компании SinoSonic: голосовые данные харбинского диалекта занимают 800 мегабайт. Планировалось, что это будет доступно для загрузки, но ссылка так и не была активирована. можно найти лишь упоминания о нем Сейчас в Интернет-архиве . ^[11]

Подход Bell Labs, который был продемонстрирован онлайн в 1997 году, но впоследствии удален, был описан в монографии «Многоязычный синтез речи в речи: подход Bell Labs» (Springer, 31 октября 1997 г., ISBN 978-0-7923-8027-6 ), а бывшая сотрудница, отвечавшая за проект, Чилин Ши (которая впоследствии работала в Университете Иллинойса) разместила на своем сайте несколько заметок о своих методах. ^[12]

Ссылки

^ Ekho
^ Градинт
^ «Предоставление голоса большему количеству языков с помощью Google Translate» .
^ «Послушайте нас сейчас!» .
^ «Yuet, крошечный кантонский механизм TTS, механизм синтеза кантонской речи для автономной встроенной системы» .
^ «Китайские ошибки в коммерческих синтезаторах речи» .
^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf ^{[ пустой URL PDF ]}
^ "Дом" . neospeech.com .
^ например, <vtml_phoneme алфавит="x-pinyin" ph="ni3hao3"></vtml_phoneme>; см. страницы 7 и 25–27 https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf.
^ Голосовые пакеты автоматически загружаются по мере необходимости, если они выбраны в «Системных настройках», «Настройки речи», «Преобразование текста в речь», «Системный голос», «Настройка». В системе доступны три китайских женских голоса. По одному для материкового Китая, Гонконга и Тайваня.
^ «Группа исследований речевого взаимодействия человека с компьютером» . hcsi.cs.tsinghua.edu.cn . Архивировано из оригинала 13 августа 2004 года . Проверено 12 января 2022 г.
^ Домашняя страница: Чилин Ши (ссылка в Интернет-архиве)

[1] Ekho

[2] Градинт

[3] «Предоставление голоса большему количеству языков с помощью Google Translate» .

[4] «Послушайте нас сейчас!» .

[5] «Yuet, крошечный кантонский механизм TTS, механизм синтеза кантонской речи для автономной встроенной системы» .

[6] «Китайские ошибки в коммерческих синтезаторах речи» .

[7] ttp://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf ^{[ пустой URL PDF ]}

[8] "Дом" . neospeech.com .

[9] например, <vtml_phoneme алфавит="x-pinyin" ph="ni3hao3"></vtml_phoneme>; см. страницы 7 и 25–27 https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf.

[10] Голосовые пакеты автоматически загружаются по мере необходимости, если они выбраны в «Системных настройках», «Настройки речи», «Преобразование текста в речь», «Системный голос», «Настройка». В системе доступны три китайских женских голоса. По одному для материкового Китая, Гонконга и Тайваня.

[11] «Группа исследований речевого взаимодействия человека с компьютером» . hcsi.cs.tsinghua.edu.cn . Архивировано из оригинала 13 августа 2004 года . Проверено 12 января 2022 г.

[12] Домашняя страница: Чилин Ши (ссылка в Интернет-архиве)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]