Jump to content

Синтез речи с глубоким обучением

(Перенаправлено из нейронного синтеза речи )

Синтез речи с глубоким обучением — это применение моделей глубокого обучения для генерации естественно звучащей человеческой речи из письменного текста (преобразование текста в речь) или спектра (вокодер). Глубокие нейронные сети (DNN) обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных с ней меток и/или входного текста.

Формулировка

[ редактировать ]

Учитывая входной текст или некоторую последовательность языковых единиц. , целевая речь может быть получено путем

где является параметром модели.

Обычно входной текст сначала передается в генератор акустических характеристик, затем акустические характеристики передаются в нейронный вокодер. Для генератора акустических характеристик функция потерь обычно представляет собой потери L1 или L2. Эти функции потерь накладывают ограничение на то, что распределения выходных акустических характеристик должны быть гауссовскими или лапласовскими. На практике, поскольку полоса человеческого голоса находится в диапазоне примерно от 300 до 4000 Гц, функция потерь будет спроектирована таким образом, чтобы иметь больший штраф в этом диапазоне:

где это потеря человеческого голосового диапазона и является скаляром, обычно около 0,5. Акустический признак обычно представляет собой спектрограмму или спектрограмму в шкале Мела . Эти функции фиксируют частотно-временное соотношение речевого сигнала, и, таким образом, этого достаточно для генерации интеллектуальных выходных данных с этими акустическими характеристиками. Функция кепстра Mel-частоты , используемая в задаче распознавания речи , не подходит для синтеза речи, поскольку уменьшает слишком много информации.

Стек расширенных случайных сверточных слоев, используемых в WaveNet [1]

В сентябре 2016 года компания DeepMind предложила WaveNet , глубокую генеративную модель необработанных звуковых сигналов, демонстрирующую, что модели на основе глубокого обучения способны моделировать необработанные формы сигналов и генерировать речь на основе акустических функций, таких как спектрограммы или мел-спектрограммы . Хотя изначально считалось, что WaveNet требует больших вычислительных затрат и медленна для использования в потребительских продуктах, через год после его выпуска DeepMind представила модифицированную версию WaveNet, известную как «Parallel WaveNet», производственную модель, которая в 1000 раз быстрее оригинала. [1]

В начале 2017 года Мила предложила char2wav — модель для создания необработанных сигналов сквозным методом. В том же году Google и Facebook предложили Tacotron и VoiceLoop соответственно генерировать акустические характеристики непосредственно из входного текста; несколько месяцев спустя Google предложил Tacotron2 , который объединил вокодер WaveNet с пересмотренной архитектурой Tacotron для выполнения сквозного синтеза речи. Tacotron2 может генерировать высококачественную речь, приближающуюся к человеческому голосу. [ нужна ссылка ]

Полуконтролируемое обучение

[ редактировать ]

В настоящее время самообучению уделяется большое внимание благодаря более эффективному использованию неразмеченных данных. Исследования показали, что с помощью самоконтролируемой потери потребность в парных данных снижается. [2] [3]

Адаптация динамика с нулевым выстрелом

[ редактировать ]

Адаптация громкоговорителей с нулевым выстрелом является многообещающей, поскольку одна модель может генерировать речь с различными стилями и характеристиками громкоговорителей. В июне 2018 года Google предложил использовать предварительно обученные модели проверки говорящих в качестве кодировщиков говорящих для извлечения вложений говорящих. [4] Кодеры динамиков затем становятся частью нейронных моделей преобразования текста в речь, чтобы они могли определять стиль и характеристики выходной речи. Эта процедура показала сообществу, что можно использовать только одну модель для создания речи с несколькими стилями.

Нейронный вокодер

[ редактировать ]
Продолжительность: 6 секунд.
Пример синтеза речи с использованием нейронного вокодера HiFi-GAN

В синтезе речи на основе глубокого обучения нейронные вокодеры играют важную роль в генерации высококачественной речи на основе акустических характеристик. Модель WaveNet , предложенная в 2016 году, обеспечивает превосходные показатели качества речи. Wavenet факторизовал совместную вероятность формы сигнала как произведение условных вероятностей следующим образом

где — параметр модели, включающий множество слоев расширенной свертки. Таким образом, каждый аудиосэмпл обусловлен выборками на всех предыдущих временных шагах. Однако авторегрессионный характер WaveNet существенно замедляет процесс вывода. Чтобы решить эту проблему, Parallel WaveNet [5] было предложено. Parallel WaveNet — это модель обратного авторегрессионного потока, которая обучается путем дистилляции знаний с помощью предварительно обученной модели WaveNet учителя. Поскольку такие модели на основе обратной авторегрессии, основанные на потоке, не являются авторегрессионными при выполнении вывода, скорость вывода выше, чем в режиме реального времени. Тем временем Nvidia предложила технологию WaveGlow на основе потока. [6] модель, которая также может генерировать речь быстрее, чем в реальном времени. Однако, несмотря на высокую скорость вывода, параллельная WaveNet имеет ограничение, заключающееся в необходимости предварительно обученной модели WaveNet, поэтому WaveGlow требуется много недель для сходимости с ограниченными вычислительными устройствами. Эта проблема была решена с помощью Parallel WaveGAN, [7] который учится воспроизводить речь посредством спектральных потерь с несколькими разрешениями и стратегий обучения GAN.

  1. ^ Перейти обратно: а б ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Проверено 5 июня 2022 г.
  2. ^ Чунг, Ю-Ань (2018). «Полу-контролируемое обучение для повышения эффективности обработки данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].
  3. ^ Рен, Йи (2019). «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].
  4. ^ Цзя, Йе (2018). «Перенос обучения от проверки говорящего к синтезу текста в речь с несколькими говорящими». arXiv : 1806.04558 [ cs.CL ].
  5. ^ ван ден Оорд, Аарон (2018). «Параллельная WaveNet: быстрый синтез речи высокой точности». arXiv : 1711.10433 [ cs.CL ].
  6. ^ Пренгер, Райан (2018). «WaveGlow: генеративная сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].
  7. ^ Ямамото, Рюичи (2019). «Параллельный WaveGAN: модель быстрой генерации сигналов, основанная на генеративно-состязательных сетях со спектрограммой множественного разрешения». arXiv : 1910.11480 [ eess.AS ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 64a28f3bbd434d1d5468c92362452116__1715316720
URL1:https://arc.ask3.ru/arc/aa/64/16/64a28f3bbd434d1d5468c92362452116.html
Заголовок, (Title) документа по адресу, URL1:
Deep learning speech synthesis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)