ВейвНет

Из Википедии, бесплатной энциклопедии

WaveNet — это глубокая нейронная сеть для генерации необработанного звука. Он был создан исследователями лондонской , специализирующейся на искусственном интеллекте компании DeepMind . Методика, изложенная в статье в сентябре 2016 года, [1] способен генерировать относительно реалистично звучащие человеческие голоса путем прямого моделирования сигналов с использованием метода нейронной сети, обученного на записях реальной речи. Сообщается, что тесты с американским английским и китайским языком показали, что система превосходит лучшие существующие системы преобразования текста в речь (TTS) Google, хотя по состоянию на 2016 год ее синтез речи все еще был менее убедительным, чем реальная человеческая речь. [2] Способность WaveNet генерировать необработанные сигналы означает, что она может моделировать любой тип звука, включая музыку. [3]

История [ править ]

Генерация речи из текста становится все более распространенной задачей благодаря популярности такого программного обеспечения, как Siri от Microsoft от Apple, Cortana , Amazon Alexa и Google Assistant . [4]

В большинстве таких систем используется вариант метода, который включает в себя соединение звуковых фрагментов для формирования узнаваемых звуков и слов. [5] Самый распространенный из них называется конкатенативным TTS. [6] Он состоит из большой библиотеки фрагментов речи, записанных от одного говорящего, которые затем объединяются для получения полных слов и звуков. Результат звучит неестественно, со странной частотой и тоном. [7] Использование записанной библиотеки также затрудняет модификацию или изменение голоса. [8]

Другой метод, известный как параметрическое TTS, [9] использует математические модели для воссоздания звуков, которые затем собираются в слова и предложения. Информация, необходимая для генерации звуков, хранится в параметрах модели. Характеристики выходной речи контролируются через входные данные модели, тогда как речь обычно создается с помощью синтезатора голоса, известного как вокодер . Это также может привести к неестественному звучанию звука.

Проектирование исследования текущие и

Предыстория [ править ]

Стопка расширенных случайных сверточных слоев [10]

WaveNet — это тип нейронной сети прямого распространения, известный как глубокая сверточная нейронная сеть (CNN). В WaveNet CNN принимает необработанный сигнал в качестве входных данных и синтезирует выходные данные по одной выборке за раз. Это делается путем выборки из мягкомаксного (т.е. категориального ) распределения значения сигнала, которое кодируется с использованием преобразования компандирования по закону μ и квантуется до 256 возможных значений. [11]

концепция результаты Первоначальная и

Согласно оригинальному исследовательскому документу DeepMind WaveNet: генеративная модель для Raw Audio , опубликованному в сентябре 2016 года, [12] в сеть подавались реальные сигналы речи на английском и китайском языках. Когда они проходят через сеть, он изучает набор правил, описывающих, как форма аудиосигнала меняется с течением времени. Обученную сеть затем можно использовать для создания новых сигналов, похожих на речь, со скоростью 16 000 выборок в секунду. Эти сигналы включают в себя реалистичное дыхание и причмокивание губами, но не соответствуют никакому языку. [13]

WaveNet способен точно моделировать различные голоса, при этом акцент и тон входного сигнала коррелируют с выходным. Например, если его обучать немецкому языку, он будет произносить немецкую речь. [14] Эта возможность также означает, что если в WaveNet подаются другие входы, например музыка, то ее выход будет музыкальным. На момент своего выпуска DeepMind показал, что WaveNet может создавать сигналы, по звучанию напоминающие классическую музыку . [15]

Замена контента (голоса) [ править ]

Согласно статье Disentangled Sequential Autoencoder , опубликованной в июне 2018 года , [16] DeepMind успешно использовала WaveNet для «обмена аудио- и голосовым контентом»: сеть может заменять голос в аудиозаписи на другой, уже существующий голос, сохраняя при этом текст и другие функции исходной записи. «Мы также экспериментируем с данными аудиопоследовательностей. Наше распутанное представление позволяет нам преобразовывать личности говорящих друг в друга, в зависимости от содержания речи». (стр. 5) «Что касается звука, это позволяет нам преобразовать динамик-мужчину в динамик-женщину и наоборот [...] ». (стр. 1) Согласно документу, необходимо передать в WaveNet двузначное минимальное количество часов (около 50 часов) уже существующих речевых записей как исходного, так и целевого голоса, чтобы программа могла изучить их индивидуальные функции, прежде чем он сможет выполнить преобразование одного голоса в другой с удовлетворительным качеством. Авторы подчеркивают, что « преимущество модели состоит в том, что она отделяет динамические характеристики от статических [...] ». (стр. 8), т.е. WaveNet способен различать произносимый текст и способы его подачи (модуляцию, скорость, высоту тона, настроение и т. д.) для сохранения при преобразовании из одного голоса в другой с одной стороны, и основные особенности исходного и целевого голосов, которые необходимо поменять местами.

Последующий документ за январь 2019 г. «Обучение представлению речи без учителя с использованием автокодировщиков WaveNet». [17] подробно описывает метод успешного улучшения правильного автоматического распознавания и распознавания динамических и статических функций для «обмена контентом», в частности, включая замену голосов на существующих аудиозаписях, чтобы сделать его более надежным. Еще одна последующая статья, «Образец эффективного адаптивного преобразования текста в речь» , [18] от сентября 2018 г. (последняя редакция — январь 2019 г.), говорится, что DeepMind успешно сократил минимальное количество реальных записей, необходимых для семплирования существующего голоса через WaveNet, до «всего нескольких минут аудиоданных», сохраняя при этом результаты высокого качества.

Его способность клонировать голоса вызвала этическую обеспокоенность по поводу способности WaveNet имитировать голоса живых и мертвых людей. Согласно статье BBC от 2016 года , компании, работающие над аналогичными технологиями клонирования голоса (такими как Adobe Voco ), намерены вставлять водяные знаки, неслышимые для человека, чтобы предотвратить подделку, сохраняя при этом, что клонирование голоса удовлетворяет, например, потребности индустрии развлечений. быть гораздо менее сложными и использовать другие методы, чем требуется для обмана методов судебно-медицинской экспертизы и электронных идентификационных устройств, чтобы естественные голоса и голоса, клонированные для целей индустрии развлечений, по-прежнему можно было легко отличить с помощью технологического анализа. [19]

Приложения [ править ]

На момент выпуска DeepMind заявила, что WaveNet требует слишком большой вычислительной мощности для использования в реальных приложениях. [20] По состоянию на октябрь 2017 года Google объявил об улучшении производительности в 1000 раз и улучшении качества передачи голоса. Затем WaveNet использовался для генерации голосов Google Assistant для американского английского и японского языков на всех платформах Google. [21] В ноябре 2017 года исследователи DeepMind опубликовали исследовательскую работу, в которой подробно описывается предлагаемый метод «генерации высококачественных образцов речи более чем в 20 раз быстрее, чем в реальном времени», под названием «Дистиллация плотности вероятности». [22] На ежегодной конференции разработчиков ввода-вывода в мае 2018 года было объявлено, что новые голоса Google Assistant доступны и стали возможными благодаря WaveNet; WaveNet значительно сократила количество аудиозаписей, необходимых для создания модели голоса, путем моделирования необработанного звука образцов голосового актера. [23]

См. также [ править ]

Ссылки [ править ]

  1. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [ cs.SD ].
  2. ^ Кан, Джереми (9 сентября 2016 г.). «DeepMind от Google добился прорыва в области генерации речи» . Bloomberg.com . Проверено 6 июля 2017 г.
  3. ^ Мейер, Дэвид (9 сентября 2016 г.). «DeepMind от Google заявляет о огромном прогрессе в области синтезированной речи» . Удача . Проверено 6 июля 2017 г.
  4. ^ Кан, Джереми (9 сентября 2016 г.). «DeepMind от Google добился прорыва в области генерации речи» . Bloomberg.com . Проверено 6 июля 2017 г.
  5. ^ Кондлифф, Джейми (9 сентября 2016 г.). «Когда этот компьютер говорит, возможно, вам действительно захочется послушать» . Обзор технологий Массачусетского технологического института . Проверено 6 июля 2017 г.
  6. ^ Хант, Эй Джей; Блэк, AW (май 1996 г.). «Выбор единиц измерения в системе конкатенативного синтеза речи с использованием большой речевой базы данных». Материалы конференции Международной конференции IEEE по акустике, речи и обработке сигналов 1996 г. (PDF) . Том. 1. С. 373–376. CiteSeerX   10.1.1.218.1335 . дои : 10.1109/ICASSP.1996.541110 . ISBN  978-0-7803-3192-1 . S2CID   14621185 .
  7. ^ Колдьюи, Девин (9 сентября 2016 г.). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки» . ТехКранч . Проверено 6 июля 2017 г.
  8. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга (08 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио» . ДипМайнд . Проверено 6 июля 2017 г.
  9. ^ Дзен, Хейга; Токуда, Кейичи; Блэк, Алан В. (2009). «Статистический параметрический синтез речи». Речевое общение . 51 (11): 1039–1064. CiteSeerX   10.1.1.154.9874 . doi : 10.1016/j.specom.2009.04.004 . S2CID   3232238 .
  10. ^ ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Проверено 5 июня 2022 г.
  11. ^ Оорд, Аарон ван ден; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [ cs.SD ].
  12. ^ Аарон ван ден Оорд; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (2016). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [ cs.SD ].
  13. ^ Гершгорн, Дэйв (9 сентября 2016 г.). «Вы уверены, что разговариваете с человеком? Роботы начинают звучать пугающе реалистично» . Кварц . Проверено 6 июля 2017 г.
  14. ^ Колдьюи, Девин (9 сентября 2016 г.). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки» . ТехКранч . Проверено 6 июля 2017 г.
  15. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга (08 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио» . ДипМайнд . Проверено 6 июля 2017 г.
  16. ^ Ли, Инчжэнь; Мандт, Стефан (2018). «Распутанный последовательный автоэнкодер». arXiv : 1803.02991 [ cs.LG ].
  17. ^ Хоровский, Ян; Вайс, Рон Дж.; Бенджио, Сами; Ван Ден Оорд, Аарон (2019). «Обучение представлению речи без учителя с использованием автоэнкодеров WaveNet». Транзакции IEEE/ACM по обработке звука, речи и языка . 27 (12): 2041–2053. arXiv : 1901.08810 . дои : 10.1109/TASLP.2019.2938863 .
  18. ^ Чен, Ютянь; Ассаэль, Яннис; Шиллингфорд, Брендан; Бадден, Дэвид; Рид, Скотт; Дзен, Хейга; Ван, Цюань; Кобо, Луи К.; Траск, Эндрю; Лори, Бен; Гульчере, Чаглар; Аарон Слова; Виньялс, Ориол; Нандо де Фрейтас (2018). «Эффективный адаптивный образец преобразования текста в речь». arXiv : 1809.10460 [ cs.LG ].
  19. Adobe Voco «Photoshop для голоса» вызывает беспокойство , 7 ноября 2016 г., BBC
  20. ^ «Adobe Voco «Photoshop для голоса» вызывает беспокойство» . Новости BBC . 07.11.2016 . Проверено 6 июля 2017 г.
  21. ^ WaveNet запускается в Google Assistant.
  22. ^ Аарон ван ден Оорд; Ли, Яже; Бабушкин Игорь; Симонян, Карен; Виньялс, Ориол; Кавукчуоглу, Корай; Джордж ван ден Дриссе; Локхарт, Эдвард; Кобо, Луис К.; Стимберг, Флориан; Касагранде, Норман; Греве, Доминик; Нури, Себ; Дилеман, Сандер; Элсен, Эрих; Кальхбреннер, Нал; Дзен, Хейга; Грейвс, Алекс; Король, Хелен; Уолтерс, Том; Белов, Дэн; Хассабис, Демис (2017). «Параллельная WaveNet: быстрый синтез речи высокого качества». arXiv : 1711.10433 [ cs.LG ].
  23. ^ Мартин, Тейлор (9 мая 2018 г.). «Попробуйте совершенно новые голоса Google Assistant прямо сейчас» . CNET . Проверено 10 мая 2018 г.

Внешние ссылки [ править ]