Синтез китайской речи
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Синтез китайской речи — это применение синтеза речи к китайскому языку (обычно стандартному китайскому ). Это создает дополнительные трудности из-за того, что китайские иероглифы часто имеют разное произношение в разных контекстах и сложной просодии , которая необходима для передачи значения слов, а иногда и из-за трудностей в достижении согласия между носителями языка относительно правильного произношения определенных фонем .
Concatenation (Ekho and KeyTip)
[ редактировать ]Записи можно объединять в любую желаемую комбинацию, но соединения звучат принудительно (как обычно для простого синтеза речи на основе конкатенации ), и это может серьезно повлиять на просодию; эти синтезаторы также негибки с точки зрения скорости и экспрессии. Однако, поскольку эти синтезаторы не полагаются на корпус, производительность при использовании более необычных или неуклюжих фраз не снижается.
Ekho — это TTS с открытым исходным кодом, который просто объединяет выбранные слоги. [1] В настоящее время он поддерживает кантонский диалект , мандаринский диалект и экспериментальный корейский язык . Некоторые слоги китайского языка были нормализованы в Praat . Их модифицированная версия используется в «синтезе из частей» Градинта. [2]
cjkware.com раньше поставлял продукт под названием KeyTip Putonghua Reader, который работал аналогично; он содержал 120 мегабайт звукозаписей (сжатых по стандарту GSM до 40 мегабайт в ознакомительной версии), включая 10 000 многосложных словарных слов плюс односложные записи в 6 различных просодиях (4 тона, нейтральный тон и дополнительная запись третьего тона). для использования в конце фразы).
Легкие синтезаторы (eSpeak и Yuet)
[ редактировать ]Легкий речевой проект с открытым исходным кодом eSpeak , имеющий собственный подход к синтезу, экспериментировал с мандаринским и кантонским диалектами. eSpeak использовался Google Translate с мая 2010 г. [3] до декабря 2010 года. [4]
Коммерческий продукт Yuet также является легким (он предназначен для сред с ограниченными ресурсами, таких как встроенные системы ); он был написан с нуля на ANSI C, начиная с 2013 года. Юет заявляет о встроенной модели НЛП , не требующей отдельного словаря; речь, синтезированная движком, требует четких границ слов и акцента на соответствующих словах. Для получения копии необходима связь с автором. [5]
И eSpeak, и Yuet могут синтезировать речь для кантонского и мандаринского языков из одного и того же входного текста и могут выводить соответствующую латинизацию (для кантонского диалекта Yuet использует Yale , а eSpeak использует Jyutping ; оба используют пиньинь для китайского языка). eSpeak не заботится о границах слов, если они не меняют вопрос о том, какой слог следует произносить.
Корпусный
[ редактировать ]«Корпусный» подход в большинстве случаев может звучать очень естественно, но может привести к ошибке при работе с необычными фразами, если их невозможно сопоставить с корпусом. [6] Механизм синтезатора обычно очень велик (сотни или даже тысячи мегабайт) из-за размера корпуса.
iFlyTek
[ редактировать ]Anhui USTC iFlyTek Co., Ltd (iFlyTek) опубликовала документ W3C , в котором они адаптировали язык разметки синтеза речи для создания языка разметки под названием китайский язык разметки синтеза речи (CSSML), который может включать дополнительную разметку для уточнения произношения символов и чтобы добавить некоторую просодическую информацию. [7] Объем используемых данных не раскрывается iFlyTek, но его можно увидеть по коммерческим продуктам, для которых iFlyTek лицензировала свою технологию; например, SpeechPlus от Bider представляет собой загрузку размером 1,3 гигабайта, из которых 1,2 гигабайта используются для сильно сжатых данных для одного китайского голоса. Синтезатор iFlyTek также может синтезировать смешанный китайский и английский текст одним и тем же голосом (например, китайские предложения, содержащие некоторые английские слова); они утверждают, что их английский синтез «средний».
Корпус iFlyTek, похоже, сильно зависит от китайских иероглифов невозможно , и синтезировать только на основе пиньинь . Иногда с помощью CSSML можно добавить к символам пиньинь, чтобы устранить неоднозначность между несколькими возможными произношениями, но это не всегда работает.
NeoSpeech
[ редактировать ]Существует онлайн-интерактивная демонстрация синтеза речи NeoSpeech , [8] который принимает китайские иероглифы, а также пиньинь , если он заключен в их собственную разметку «VTML». [9]
MacOS
[ редактировать ]В Mac OS были доступны синтезаторы китайской речи до версии 9. Они были удалены в версии 10.0 и восстановлены в версии 10.7 (Lion). [10]
Исторические корпусные синтезаторы (больше не доступны)
[ редактировать ]Корпусный подход был использован Университетом Цинхуа в компании SinoSonic: голосовые данные харбинского диалекта занимают 800 мегабайт. Планировалось, что это будет доступно для загрузки, но ссылка так и не была активирована. можно найти лишь упоминания о нем Сейчас в Интернет-архиве . [11]
Подход Bell Labs, который был продемонстрирован онлайн в 1997 году, но впоследствии удален, был описан в монографии «Многоязычный синтез речи в речи: подход Bell Labs» (Springer, 31 октября 1997 г., ISBN 978-0-7923-8027-6 ), а бывшая сотрудница, отвечавшая за проект, Чилин Ши (которая впоследствии работала в Университете Иллинойса) разместила на своем сайте несколько заметок о своих методах. [12]
Ссылки
[ редактировать ]- ^ Ekho
- ^ Градинт
- ^ «Предоставление голоса большему количеству языков с помощью Google Translate» .
- ^ «Послушайте нас сейчас!» .
- ^ «Yuet, крошечный кантонский механизм TTS, механизм синтеза кантонской речи для автономной встроенной системы» .
- ^ «Китайские ошибки в коммерческих синтезаторах речи» .
- ^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf [ пустой URL PDF ]
- ^ "Дом" . neospeech.com .
- ^ например, <vtml_phoneme алфавит="x-pinyin" ph="ni3hao3"></vtml_phoneme>; см. страницы 7 и 25–27 https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf.
- ^ Голосовые пакеты автоматически загружаются по мере необходимости, если они выбраны в «Системных настройках», «Настройки речи», «Преобразование текста в речь», «Системный голос», «Настройка». В системе доступны три китайских женских голоса. По одному для материкового Китая, Гонконга и Тайваня.
- ^ «Группа исследований речевого взаимодействия человека с компьютером» . hcsi.cs.tsinghua.edu.cn . Архивировано из оригинала 13 августа 2004 года . Проверено 12 января 2022 г.
- ^ Домашняя страница: Чилин Ши (ссылка в Интернет-архиве)