Синтез речи с глубоким обучением

Из Википедии, бесплатной энциклопедии

Синтез речи с глубоким обучением — это применение моделей глубокого обучения для генерации естественно звучащей человеческой речи из письменного текста (преобразование текста в речь) или спектра (вокодер). Глубокие нейронные сети (DNN) обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных с ней меток и/или входного текста.

Формулировка [ править ]

Учитывая входной текст или некоторую последовательность языковых единиц. , целевая речь может быть получено путем

где является параметром модели.

Обычно входной текст сначала передается в генератор акустических характеристик, затем акустические характеристики передаются в нейронный вокодер. Для генератора акустических характеристик функция потерь обычно представляет собой потери L1 или L2. Эти функции потерь накладывают ограничение на то, что распределения выходных акустических характеристик должны быть гауссовскими или лапласовскими. На практике, поскольку полоса человеческого голоса находится в диапазоне примерно от 300 до 4000 Гц, функция потерь будет спроектирована таким образом, чтобы иметь больший штраф в этом диапазоне:

где это потеря человеческого голосового диапазона и является скаляром, обычно около 0,5. Акустический признак обычно представляет собой спектрограмму или спектрограмму в шкале Мела . Эти функции фиксируют частотно-временное соотношение речевого сигнала, и, таким образом, этого достаточно для генерации интеллектуальных выходных данных с этими акустическими характеристиками. Функция кепстра Mel-частоты, используемая в задаче распознавания речи , не подходит для синтеза речи, поскольку уменьшает слишком много информации.

История [ править ]

Стек расширенных случайных сверточных слоев, используемых в WaveNet [1]

В сентябре 2016 года компания DeepMind предложила WaveNet — глубокую генеративную модель необработанных звуковых сигналов, демонстрирующую, что модели, основанные на глубоком обучении, способны моделировать необработанные сигналы и генерировать речь на основе акустических функций, таких как спектрограммы или мел-спектрограммы . Хотя изначально считалось, что WaveNet требует больших вычислительных затрат и медленна для использования в потребительских продуктах, через год после его выпуска DeepMind представила модифицированную версию WaveNet, известную как «Parallel WaveNet», производственную модель, которая в 1000 раз быстрее оригинала. [1]

В начале 2017 года Мила предложила char2wav — модель для создания необработанных сигналов сквозным методом. В том же году Google и Facebook предложили Tacotron и VoiceLoop соответственно генерировать акустические характеристики непосредственно из входного текста; несколько месяцев спустя Google предложила Tacotron2 , который объединил вокодер WaveNet с пересмотренной архитектурой Tacotron для выполнения сквозного синтеза речи. Tacotron2 может генерировать речь высокого качества, приближающуюся к человеческому голосу. [ нужна цитата ]

Полуконтролируемое обучение [ править ]

В настоящее время самообучению уделяется большое внимание благодаря более эффективному использованию неразмеченных данных. Исследования показали, что с помощью самоконтролируемой потери потребность в парных данных снижается. [2] [3]

нулевым выстрелом Адаптация динамика с

Адаптация громкоговорителей с нулевым выстрелом является многообещающей, поскольку одна модель может генерировать речь с различными стилями и характеристиками громкоговорителей. В июне 2018 года Google предложил использовать предварительно обученные модели проверки говорящих в качестве кодировщиков говорящих для извлечения вложений говорящих. [4] Кодеры динамиков затем становятся частью нейронных моделей преобразования текста в речь, чтобы они могли определять стиль и характеристики выходной речи. Эта процедура показала сообществу, что можно использовать только одну модель для создания речи с несколькими стилями.

Нейронный вокодер [ править ]

Продолжительность: 6 секунд.
Пример синтеза речи с использованием нейронного вокодера HiFi-GAN

В синтезе речи на основе глубокого обучения нейронные вокодеры играют важную роль в генерации высококачественной речи на основе акустических характеристик. Модель WaveNet, предложенная в 2016 году, обеспечивает превосходные показатели качества речи. Wavenet факторизовал совместную вероятность формы сигнала как произведение условных вероятностей следующим образом

где — параметр модели, включающий множество слоев расширенной свертки. Таким образом, каждый аудиосэмпл обусловлен выборками на всех предыдущих временных шагах. Однако авторегрессионный характер WaveNet существенно замедляет процесс вывода. Чтобы решить эту проблему, Parallel WaveNet [5] было предложено. Parallel WaveNet — это модель обратного авторегрессионного потока, которая обучается путем дистилляции знаний с помощью предварительно обученной модели WaveNet учителя. Поскольку такие модели на основе обратной авторегрессии на основе потока не являются авторегрессионными при выполнении вывода, скорость вывода выше, чем в режиме реального времени. Тем временем Nvidia предложила технологию WaveGlow на основе потока. [6] модель, которая также может генерировать речь быстрее, чем в реальном времени. Однако, несмотря на высокую скорость вывода, параллельная WaveNet имеет ограничение, заключающееся в необходимости предварительно обученной модели WaveNet, поэтому WaveGlow требуется много недель для сходимости с ограниченными вычислительными устройствами. Эта проблема была решена с помощью Parallel WaveGAN, [7] который учится воспроизводить речь посредством спектральных потерь с несколькими разрешениями и стратегий обучения GAN.

Ссылки [ править ]

  1. ^ Перейти обратно: а б ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Проверено 5 июня 2022 г.
  2. ^ Чунг, Ю-Ань (2018). «Полу-контролируемое обучение для повышения эффективности обработки данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].
  3. ^ Рен, Йи (2019). «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].
  4. ^ Цзя, Йе (2018). «Перенос обучения от проверки говорящего к синтезу речи с несколькими говорящими». arXiv : 1806.04558 [ cs.CL ].
  5. ^ ван ден Оорд, Аарон (2018). «Параллельная WaveNet: быстрый синтез речи высокого качества». arXiv : 1711.10433 [ cs.CL ].
  6. ^ Пренгер, Райан (2018). «WaveGlow: генеративная сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].
  7. ^ Ямамото, Рюичи (2019). «Параллельный WaveGAN: модель быстрой генерации сигналов, основанная на генеративно-состязательных сетях со спектрограммой множественного разрешения». arXiv : 1910.11480 [ eess.AS ].