Синтез речи с глубоким обучением

Синтез речи с глубоким обучением — это применение моделей глубокого обучения для генерации естественно звучащей человеческой речи из письменного текста (преобразование текста в речь) или спектра (вокодер). Глубокие нейронные сети (DNN) обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных с ней меток и/или входного текста.

Формулировка [ править ]

Учитывая входной текст или некоторую последовательность лингвистических единиц. $Y$ , целевая речь $X$ может быть получено путем

X=\arg \max P(X|Y,\theta )

где $\theta$ является параметром модели.

Обычно входной текст сначала передается в генератор акустических характеристик, затем акустические характеристики передаются в нейронный вокодер. Для генератора акустических характеристик функция потерь обычно представляет собой потери L1 или L2. Эти функции потерь накладывают ограничение на то, что распределения выходных акустических характеристик должны быть гауссовскими или лапласовскими. На практике, поскольку полоса человеческого голоса находится в диапазоне примерно от 300 до 4000 Гц, функция потерь будет спроектирована таким образом, чтобы иметь больший штраф в этом диапазоне:

loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}

где ${\text{loss}}_{\text{human}}$ это потеря человеческого голосового диапазона и $\alpha$ является скаляром, обычно около 0,5. Акустический признак обычно представляет собой спектрограмму или спектрограмму в шкале Мела . Эти функции фиксируют частотно-временное соотношение речевого сигнала, и, таким образом, этого достаточно для генерации интеллектуальных выходных данных с этими акустическими характеристиками. Функция кепстра Mel-частоты , используемая в задаче распознавания речи , не подходит для синтеза речи, поскольку уменьшает слишком много информации.

История [ править ]

В сентябре 2016 года компания DeepMind предложила WaveNet , глубокую генеративную модель необработанных звуковых сигналов, демонстрирующую, что модели, основанные на глубоком обучении, способны моделировать необработанные формы сигналов и генерировать речь на основе акустических функций, таких как спектрограммы или мел-спектрограммы . Хотя изначально считалось, что WaveNet требует больших вычислительных затрат и медленна для использования в потребительских продуктах, через год после его выпуска DeepMind представила модифицированную версию WaveNet, известную как «Parallel WaveNet», производственную модель, которая в 1000 раз быстрее оригинала. ^[1]

В начале 2017 года Мила предложила char2wav — модель для создания необработанных сигналов сквозным методом. В том же году Google и Facebook предложили Tacotron и VoiceLoop соответственно генерировать акустические характеристики непосредственно из входного текста; несколько месяцев спустя Google предложил Tacotron2 , который объединил вокодер WaveNet с пересмотренной архитектурой Tacotron для выполнения сквозного синтеза речи. Tacotron2 может генерировать высококачественную речь, приближающуюся к человеческому голосу. ^{[ нужна ссылка ]}

Полуконтролируемое обучение [ править ]

В настоящее время самообучению уделяется большое внимание благодаря более эффективному использованию неразмеченных данных. Исследования показали, что с помощью самоконтролируемой потери потребность в парных данных снижается. ^[2]^[3]

нулевым выстрелом Адаптация с динамика

Адаптация динамиков с нулевым выстрелом является многообещающей, поскольку одна модель может генерировать речь с различными стилями и характеристиками динамиков. В июне 2018 года Google предложил использовать предварительно обученные модели проверки говорящих в качестве кодировщиков говорящих для извлечения вложений говорящих. ^[4] Кодеры динамиков затем становятся частью нейронных моделей преобразования текста в речь, чтобы они могли определять стиль и характеристики выходной речи. Эта процедура показала сообществу, что можно использовать только одну модель для создания речи с несколькими стилями.

Нейронный вокодер [ править ]

Пример синтеза речи с использованием нейронного вокодера HiFi-GAN

В синтезе речи на основе глубокого обучения нейронные вокодеры играют важную роль в генерации высококачественной речи на основе акустических характеристик. Модель WaveNet , предложенная в 2016 году, обеспечивает превосходные показатели качества речи. Wavenet факторизовал совместную вероятность формы сигнала $\mathbf {x} =\{x_{1},...,x_{T}\}$ как произведение условных вероятностей следующим образом

$p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},...,x_{t-1})$

где $\theta$ — параметр модели, включающий множество слоев расширенной свертки. Таким образом, каждый аудиосэмпл $x_{t}$ обусловлен выборками на всех предыдущих временных шагах. Однако авторегрессионный характер WaveNet существенно замедляет процесс вывода. Чтобы решить эту проблему, Parallel WaveNet ^[5] было предложено. Parallel WaveNet — это модель обратного авторегрессионного потока, которая обучается путем дистилляции знаний с помощью предварительно обученной модели WaveNet учителя. Поскольку такие модели на основе обратной авторегрессии, основанные на потоке, не являются авторегрессионными при выполнении вывода, скорость вывода выше, чем в режиме реального времени. Тем временем Nvidia предложила технологию WaveGlow на основе потока. ^[6] модель, которая также может генерировать речь быстрее, чем в реальном времени. Однако, несмотря на высокую скорость вывода, параллельная WaveNet имеет ограничение, заключающееся в необходимости предварительно обученной модели WaveNet, поэтому WaveGlow требуется много недель для сходимости с ограниченными вычислительными устройствами. Эта проблема была решена с помощью Parallel WaveGAN, ^[7] который учится воспроизводить речь посредством спектральных потерь с несколькими разрешениями и стратегий обучения GAN.

Пример синтеза

Хаос (короткая версия), синтезированный VITS — исследовательским методом сквозного преобразования текста в речь, основанным на глубоком обучении, с использованием набора данных LJ Speech .

Проблемы с воспроизведением этого файла? См. справку для СМИ .

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Проверено 5 июня 2022 г.
^ Чунг, Ю-Ань (2018). «Полуконтролируемое обучение для повышения эффективности обработки данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].
^ Рен, Йи (2019). «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].
^ Цзя, Йе (2018). «Перенос обучения от проверки говорящего к синтезу текста в речь с несколькими говорящими». arXiv : 1806.04558 [ cs.CL ].
^ ван ден Оорд, Аарон (2018). «Параллельная WaveNet: быстрый синтез речи высокой точности». arXiv : 1711.10433 [ cs.CL ].
^ Пренгер, Райан (2018). «WaveGlow: генеративная сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].
^ Ямамото, Рюичи (2019). «Параллельный WaveGAN: модель быстрой генерации сигналов, основанная на генеративно-состязательных сетях со спектрограммой множественного разрешения». arXiv : 1910.11480 [ eess.AS ].

[deepmind-1] Перейти обратно: Перейти обратно: ^а ^б ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Проверено 5 июня 2022 г.

[2] Чунг, Ю-Ань (2018). «Полуконтролируемое обучение для повышения эффективности обработки данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].

[3] Рен, Йи (2019). «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].

[4] Цзя, Йе (2018). «Перенос обучения от проверки говорящего к синтезу текста в речь с несколькими говорящими». arXiv : 1806.04558 [ cs.CL ].

[5] ван ден Оорд, Аарон (2018). «Параллельная WaveNet: быстрый синтез речи высокой точности». arXiv : 1711.10433 [ cs.CL ].

[6] Пренгер, Райан (2018). «WaveGlow: генеративная сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].

[7] Ямамото, Рюичи (2019). «Параллельный WaveGAN: модель быстрой генерации сигналов, основанная на генеративно-состязательных сетях со спектрограммой множественного разрешения». arXiv : 1910.11480 [ eess.AS ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]