Генеративное аудио

Генеративное аудио относится к созданию аудиофайлов из баз данных аудиоклипов . ^{[ нужна ссылка ]} Эта технология отличается от синтезированных голосов , таких как Siri от Amazon от Apple или Alexa , которые используют набор фрагментов, которые сшиваются вместе по требованию.

Генеративное аудио работает с использованием нейронных сетей для изучения статистических свойств источника звука, а затем воспроизводит эти свойства. ^[1]

Последствия [ править ]

С помощью этой технологии голос человека можно воспроизвести, чтобы он произнес фразы, которые он, возможно, никогда не произносил. Это может привести к тому, что против них будет использована синтетическая версия голоса общественного деятеля. ^[2]

Технология [ править ]

В этом методе используется генеративно-состязательная сеть (GAN), метод глубокого машинного обучения , в котором две модели машинного обучения работают друг против друга для создания реалистичного звука. ^[3]

См. также [ править ]

Ссылки [ править ]

^ «Фейковые новости: вы еще ничего не видели» . Экономист . июль 2017 года . Проверено 1 июля 2017 г.
^ Зоткин, Д.Н.; Шамма, ЮАР; Ру, П.; Дурайсвами, Р.; Дэвис, Л.С. (апрель 2003 г.). «Манипулирование высотой и тембром с использованием коркового представления звука». Международная конференция IEEE 2003 г. по акустике, речи и обработке сигналов, 2003 г. Материалы. (ICASSP '03) . Том. 5. С. V–517–20. дои : 10.1109/ICASSP.2003.1200020 . ISBN 978-0-7803-7663-2 . S2CID 10372569 .
^ Мобин, Шарик (октябрь 2016 г.). «Преобразование голоса с использованием сверточных нейронных сетей». arXiv : 1610.08927 [ stat.ML ].

[1] «Фейковые новости: вы еще ничего не видели» . Экономист . июль 2017 года . Проверено 1 июля 2017 г.

[2] Зоткин, Д.Н.; Шамма, ЮАР; Ру, П.; Дурайсвами, Р.; Дэвис, Л.С. (апрель 2003 г.). «Манипулирование высотой и тембром с использованием коркового представления звука». Международная конференция IEEE 2003 г. по акустике, речи и обработке сигналов, 2003 г. Материалы. (ICASSP '03) . Том. 5. С. V–517–20. дои : 10.1109/ICASSP.2003.1200020 . ISBN 978-0-7803-7663-2 . S2CID 10372569 .

[3] Мобин, Шарик (октябрь 2016 г.). «Преобразование голоса с использованием сверточных нейронных сетей». arXiv : 1610.08927 [ stat.ML ].

[1]

[2]

[3]