Генеративное аудио
Генеративное аудио относится к созданию аудиофайлов из баз данных аудиоклипов . [ нужна ссылка ] Эта технология отличается от синтезированных голосов , таких как Siri от Amazon от Apple или Alexa , которые используют набор фрагментов, которые сшиваются вместе по требованию.

Генеративное аудио работает с использованием нейронных сетей для изучения статистических свойств источника звука, а затем воспроизводит эти свойства. [1]
Последствия [ править ]
С помощью этой технологии голос человека можно воспроизвести, чтобы он произнес фразы, которые он, возможно, никогда не произносил. Это может привести к тому, что против них будет использована синтетическая версия голоса общественного деятеля. [2]
Технология [ править ]
В этом методе используется генеративно-состязательная сеть (GAN), метод глубокого машинного обучения , в котором две модели машинного обучения работают друг против друга для создания реалистичного звука. [3]
См. также [ править ]
Ссылки [ править ]
- ^ «Фейковые новости: вы еще ничего не видели» . Экономист . июль 2017 года . Проверено 1 июля 2017 г.
- ^ Зоткин, Д.Н.; Шамма, ЮАР; Ру, П.; Дурайсвами, Р.; Дэвис, Л.С. (апрель 2003 г.). «Манипулирование высотой и тембром с использованием коркового представления звука». Международная конференция IEEE 2003 г. по акустике, речи и обработке сигналов, 2003 г. Материалы. (ICASSP '03) . Том. 5. С. V–517–20. дои : 10.1109/ICASSP.2003.1200020 . ISBN 978-0-7803-7663-2 . S2CID 10372569 .
- ^ Мобин, Шарик (октябрь 2016 г.). «Преобразование голоса с использованием сверточных нейронных сетей». arXiv : 1610.08927 [ stat.ML ].