Аудио дипфейк
Аудио -дипфейк (также известный как клонирование голоса или дипфейк-аудио ) — продукт искусственного интеллекта. [1] используется для создания убедительных речевых предложений, которые звучат так, как будто конкретные люди говорят то, чего они не говорили. [2] [3] [4] Эта технология изначально разрабатывалась для различных приложений по улучшению жизни человека. Например, его можно использовать для создания аудиокниг, [5] а также помочь людям, потерявшим голос (из-за болезни горла или других медицинских проблем), вернуть его. [6] [7] В коммерческом плане это открыло двери нескольким возможностям. Эта технология также может создавать более персонализированных цифровых помощников и естественно звучащие услуги преобразования текста в речь, а также услуги по переводу речи .
Случаи мошенничества
[ редактировать ]Аудиодипфейки, называемые аудиоманипуляциями, начиная с начала 2020-х годов, становятся широко доступными с помощью простых мобильных устройств или персональных компьютеров . [8] Эти инструменты также использовались для распространения дезинформации с помощью аудио. [3] Это привело к обеспокоенности мировой общественности в области кибербезопасности по поводу побочных эффектов использования аудиодипфейков, включая их возможную роль в распространении дезинформации и дезинформации на аудиоплатформах социальных сетей. [9] Люди могут использовать их в качестве с логическим доступом голоса метода подмены . [10] где их можно использовать для манипулирования общественным мнением в целях пропаганды, клеветы или терроризма . Через Интернет ежедневно передаются огромные объемы голосовых записей, и обнаружение подделки является сложной задачей. [11] Злоумышленники, использующие аудиодипфейки, нацелены на отдельных лиц и организации, включая политиков и правительства. [12]
В 2019 году мошенники с помощью ИИ выдали себя за голос генерального директора немецкой энергетической компании и поручили генеральному директору ее британской дочерней компании перевести 220 000 евро . [13] В начале 2020 года тот же метод выдавал себя за директора компании в рамках тщательно продуманной схемы, которая убедила руководителя филиала перевести 35 миллионов долларов. [14]
Согласно глобальному опросу McAfee 2023 года , каждый десятый человек сообщил, что стал жертвой мошенничества с клонированием голоса с помощью искусственного интеллекта; 77% этих жертв сообщили о потере денег в результате мошенничества. [15] [16] Аудиодипфейки также могут представлять опасность для систем голосовой идентификации , которые в настоящее время используются финансовыми учреждениями. [17] [18] США В марте 2023 года Федеральная торговая комиссия предупредила потребителей об использовании ИИ для фальсификации голоса члена семьи, попавшего в беду и просящего денег. [19]
В октябре 2023 года, во время начала конференции Британской лейбористской партии в Ливерпуле , была выпущена аудиоподделка лидера лейбористской партии Кейра Стармера , на которой он ложно изображал, что он словесно оскорбляет своих сотрудников и критикует Ливерпуль. [20] В том же месяце аудиоподделка словацкого политика Михала Шимечки ложно утверждала, что запечатлела его обсуждение способов фальсификации предстоящих выборов. [21]
Во время предвыборной кампании по выборам президента Демократической партии в Нью-Гэмпшире в 2024 году более 20 000 избирателей получили звонки от роботов от президента, выдающего себя за ИИ, Джо Байдена, призывающего их не голосовать. [22] [23] Генеральный прокурор Нью-Гэмпшира заявил, что это нарушает законы штата о выборах и предполагает причастность Life Corporation и Lingo Telecom. [24] США В феврале 2024 года Федеральная комиссия по связи запретила использование искусственного интеллекта для фальсификации голосов при звонках роботов. [25] [26] В том же месяце политический консультант Стив Крамер признал, что заказал звонки за 500 долларов. Он сказал, что хочет привлечь внимание к необходимости правил, регулирующих использование ИИ в политических кампаниях. [27] В мае Федеральная комиссия по связи заявила, что Крамер нарушил федеральный закон, подделав номер местного политического деятеля, и предложила штраф в размере 6 миллионов долларов. Четыре округа Нью-Гэмпшира предъявили Крамеру обвинения в совершении уголовного преступления, связанного с подавлением избирателей и выдачей себя за кандидата, что является правонарушением. [28]
Категории
[ редактировать ]Аудио дипфейки можно разделить на три категории:
Основанный на повторе
[ редактировать ]Дипфейки на основе повторов — это вредоносные произведения, целью которых является воспроизведение записи голоса собеседника. [29]
Существует два типа: обнаружение в дальней зоне и обнаружение вырезания и вставки . При обнаружении в дальней зоне запись жертвы с микрофона воспроизводится как тестовый сегмент на телефоне с функцией громкой связи. [30] С другой стороны, метод вырезания и вставки предполагает подделку запрошенного предложения из текстозависимой системы. [11] Текстозависимая проверка говорящего может использоваться для защиты от атак на основе повторов. [29] [31] Текущий метод обнаружения атак сквозного воспроизведения — это использование глубоких сверточных нейронных сетей . [32]
Синтетическая основа
[ редактировать ]
Категория, основанная на синтезе речи , относится к искусственному производству человеческой речи с использованием программных или аппаратных системных программ. Синтез речи включает в себя преобразование текста в речь, целью которого является преобразование текста в приемлемую и естественную речь в режиме реального времени. [33] приведение речи в соответствие с вводимым текстом, используя правила лингвистического описания текста.
Классическая система такого типа состоит из трёх модулей: модели анализа текста, акустической модели и вокодера . Генерация обычно должна следовать двум важным шагам. Необходимо собрать чистый и хорошо структурированный необработанный аудиофайл с расшифрованным текстом исходного речевого аудиопредложения. Во-вторых, модель преобразования текста в речь должна быть обучена с использованием этих данных для построения синтетической модели генерации звука.
В частности, транскрибированный текст с голосом целевого говорящего является входными данными модели генерации. Модуль анализа текста обрабатывает входной текст и преобразует его в лингвистические признаки. Затем акустический модуль извлекает параметры целевого динамика из аудиоданных на основе лингвистических характеристик, генерируемых модулем анализа текста. [8] Наконец, вокодер учится создавать голосовые сигналы на основе параметров акустических характеристик. Формируется окончательный аудиофайл, включающий звук синтетического моделирования в формате волны, создавая речевой звук в голосе многих говорящих, даже тех, кто не обучается.
Первый прорыв в этом отношении совершила компания WaveNet , [34] нейронная сеть для генерации необработанных аудиосигналов, способная имитировать характеристики множества различных динамиков. Эта сеть с годами была заменена другими системами. [35] [36] [37] [38] [39] [40] которые синтезируют очень реалистичные искусственные голоса, доступные каждому. [41]
Преобразование текста в речь сильно зависит от качества голосового корпуса, используемого для реализации системы, а создание всего голосового корпуса обходится дорого. [ нужна ссылка ] Еще одним недостатком является то, что системы синтеза речи не распознают точки и специальные символы. Кроме того, сохраняются проблемы двусмысленности, поскольку два слова, написанные одинаково, могут иметь разные значения. [ нужна ссылка ]
основанный на имитации
[ редактировать ]
Аудиодипфейк, основанный на имитации, — это способ преобразования оригинальной речи одного говорящего — оригинала — так, чтобы она звучала как произнесенная другим говорящим — целевым. [42] Алгоритм, основанный на имитации, принимает разговорный сигнал в качестве входных данных и изменяет его, изменяя его стиль, интонацию или просодию, пытаясь имитировать целевой голос без изменения лингвистической информации. [43] Этот метод также известен как преобразование голоса.
Этот метод часто путают с предыдущим методом, основанным на синтезе, поскольку нет четкого разделения между двумя подходами в отношении процесса генерации. Действительно, оба метода изменяют акустико-спектральные и стилевые характеристики речевого аудиосигнала, но метод, основанный на имитации, обычно сохраняет входной и выходной текст неизменным. Это достигается путем изменения того, как произносится это предложение, чтобы оно соответствовало характеристикам целевого говорящего. [44]
Голоса можно имитировать несколькими способами, например, используя людей с похожими голосами, которые могут имитировать исходного говорящего. В последние годы наиболее популярным подходом является использование определенных нейронных сетей, называемых генеративно-состязательными сетями (GAN), из-за их гибкости, а также высококачественных результатов. [29] [42]
Затем исходный аудиосигнал преобразуется, чтобы произнести речь в целевом аудио, используя метод генерации имитации, который генерирует новую речь, показанную в поддельной речи.
Методы обнаружения
[ редактировать ]Задача обнаружения дипфейков звука определяет, является ли данный речевой звук реальным или поддельным.
В последнее время эта тема стала горячей темой в судебно- медицинском сообществе, пытающемся идти в ногу с быстрой эволюцией методов подделки.
В целом методы обнаружения дипфейков можно разделить на две категории в зависимости от аспекта, который они используют для выполнения задачи обнаружения. Первый фокусируется на низкоуровневых аспектах и ищет артефакты, вносимые генераторами на уровне выборки. Вместо этого второй фокусируется на функциях более высокого уровня, представляющих более сложные аспекты, такие как семантическое содержание аудиозаписи речи.

Многие модели машинного и глубокого обучения были разработаны с использованием различных стратегий обнаружения поддельного звука. В большинстве случаев эти алгоритмы следуют трехэтапной процедуре:
- Каждая аудиозапись речи должна быть предварительно обработана и преобразована в соответствующие аудиофункции;
- Вычисленные характеристики передаются в модель обнаружения, которая выполняет необходимые операции, такие как процесс обучения, необходимый для различения реального и фальшивого речевого звука;
- Выходные данные передаются в окончательный модуль для получения вероятности прогнозирования класса Fake или Real . По следам ASVspoof [45] В номенклатуре вызова фальшивый звук обозначается термином «Подделка», а настоящий вместо этого называется «Bonafide».
За прошедшие годы многие исследователи показали, что подходы машинного обучения более точны, чем методы глубокого обучения, независимо от используемых функций. [8] Однако масштабируемость методов машинного обучения не подтверждена из-за чрезмерного обучения и ручного извлечения признаков, особенно со многими аудиофайлами. Вместо этого, когда используются алгоритмы глубокого обучения, в аудиофайлах требуются определенные преобразования, чтобы гарантировать, что алгоритмы смогут их обработать.
Существует несколько реализаций различных методов обнаружения с открытым исходным кодом. [46] [47] [48] и обычно многие исследовательские группы публикуют их на публичном хостинге, таком как GitHub .
Открытые проблемы и будущее направление исследований
[ редактировать ]Аудио-дипфейк — совсем недавняя область исследований. По этой причине существует множество возможностей для развития и совершенствования, а также возможных угроз, которые внедрение этой технологии может принести в нашу повседневную жизнь. Наиболее важные из них перечислены ниже.
Поколение дипфейков
[ редактировать ]Что касается генерации, наиболее важным аспектом является достоверность жертвы, то есть качество восприятия дипфейка.
Несколько показателей определяют уровень точности генерации аудио-дипфейков, и наиболее широко используемым является MOS (Mean Opinion Score) , который представляет собой среднее арифметическое оценок пользователей. Обычно оцениваемый тест включает перцептивную оценку предложений, составленных с помощью различных алгоритмов генерации речи. Этот индекс показал, что звук, сгенерированный алгоритмами, обученными на одном динамике, имеет более высокий MOS. [44] [34] [49] [50] [39]
Частота дискретизации также играет важную роль в обнаружении и создании дипфейков аудио. В настоящее время доступные наборы данных имеют частоту дискретизации около 16 кГц, что значительно снижает качество речи. Увеличение частоты дискретизации может привести к повышению качества генерации. [37]
Обнаружение дипфейков
[ редактировать ]Что касается обнаружения, то одним из основных недостатков последних моделей является принятый язык.
Большинство исследований сосредоточено на обнаружении аудиодипфейков на английском языке, не уделяя особого внимания наиболее распространенным языкам, таким как китайский и испанский. [51] а также хинди и арабский язык.
Также важно учитывать больше факторов, связанных с различными акцентами, которые представляют собой способ произношения, строго связанный с конкретным человеком, местом или нацией. в других областях аудио, таких как распознавание говорящего , акцент существенно влияет на качество исполнения. Было обнаружено, что [52] поэтому ожидается, что эта функция может повлиять на производительность моделей даже в этой задаче обнаружения.
Кроме того, чрезмерная предварительная обработка аудиоданных привела к очень высоким и часто неприемлемым вычислительным затратам. По этой причине многие исследователи предложили использовать подход самоконтролируемого обучения . [53] работа с немаркированными данными для эффективной работы в задачах обнаружения и улучшения масштабируемости модели и в то же время снижения вычислительных затрат.
Модели обучения и тестирования с использованием реальных аудиоданных все еще остаются недостаточно развитой областью. Действительно, использование звука с реальными фоновыми шумами может повысить надежность моделей обнаружения поддельного звука.
Кроме того, большая часть усилий сосредоточена на обнаружении дипфейков, основанных на синтетических звуках, и лишь немногие исследования анализируют имитационные подделки из-за присущих им сложностей в процессе создания. [11]
Защита от дипфейков
[ редактировать ]За прошедшие годы увеличилось количество методов, направленных на защиту от вредоносных действий, которые может вызвать аудиодипфейк, таких как кража личных данных и манипулирование речами губернаторов страны.
Чтобы предотвратить дипфейки, некоторые предлагают использовать блокчейн и другие технологии распределенного реестра (DLT) для определения происхождения данных и отслеживания информации. [8] [54] [55] [56]
Извлечение и сравнение аффективных сигналов, соответствующих воспринимаемым эмоциям, из цифрового контента также было предложено для борьбы с дипфейками. [57] [58] [59]
Еще один важный аспект касается смягчения этой проблемы. Было высказано предположение, что было бы лучше оставить некоторые собственные инструменты обнаружения только для тех, кто в них нуждается, например, средства проверки фактов для журналистов. [29] Таким образом, те, кто создает модели генерации, возможно, в гнусных целях, не будут точно знать, какие функции облегчают обнаружение дипфейка. [29] отпугивание возможных злоумышленников.
Вместо этого, чтобы улучшить обнаружение, исследователи пытаются обобщить процесс. [60] поиск методов предварительной обработки, которые улучшают производительность, и тестирование различных функций потерь, используемых для обучения. [10] [61]
Исследовательские программы
[ редактировать ]Многочисленные исследовательские группы по всему миру работают над выявлением манипуляций СМИ; то есть, дипфейки аудио, а также дипфейки изображений и видео. Эти проекты обычно поддерживаются государственным или частным финансированием и находятся в тесном контакте с университетами и исследовательскими институтами.
С этой целью Агентство перспективных оборонных исследовательских проектов (DARPA) запускает семантическую экспертизу (SemaFor). [62] [63] Использование некоторых исследований Media Forensics (MediFor) [64] [65] Программа, также разработанная DARPA, эти алгоритмы семантического обнаружения должны будут определить, был ли медиа-объект создан или им манипулировали, чтобы автоматизировать анализ происхождения медиа-ресурсов и раскрыть намерения, стоящие за фальсификацией различного контента. [66] [62]
Еще одна исследовательская программа - «Сохранение надежности СМИ в эпоху искусственного интеллекта» (PREMIER). [67] Программа, финансируемая Министерством образования, университетов и исследований Италии (MIUR) и управляемая пятью итальянскими университетами. PREMIER будет использовать новые гибридные подходы для получения криминалистических детекторов, которые будут более интерпретируемыми и безопасными. [68]
ГЛУБОКИЙ ГОЛОС [69] — это общедоступный набор данных, предназначенный для исследовательских целей по разработке систем определения случаев генерации речи с помощью нейронных сетей с помощью процесса, называемого преобразованием голоса на основе поиска (RVC). Предварительные исследования показали многочисленные статистически значимые различия между особенностями человеческой речи и функциями, созданными алгоритмами искусственного интеллекта.
Общественные проблемы
[ редактировать ]За последние несколько лет было организовано множество задач, направленных на дальнейшее развитие этой области исследований аудио-дипфейков.
Самый известный мировой вызов — ASVspoof. [45] Задача автоматической проверки говорящего, спуфинг и меры противодействия. Эта задача представляет собой инициативу сообщества, проводимую раз в два года и направленную на содействие рассмотрению спуфинга и разработке контрмер. [70]
Еще одной недавней проблемой является ADD. [71] — Обнаружение аудио-глубоких фейков — которое рассматривает фальшивые ситуации в более реальном сценарии. [72]
Также конкурс по преобразованию голоса [73] Это соревнование, проводимое два раза в год, вызванное необходимостью сравнить различные системы и подходы преобразования голоса, использующие одни и те же голосовые данные.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Смит, Ханна; Манстед, Кэтрин (1 апреля 2020 г.). Глубокие фейки с оружием: национальная безопасность и демократия . Том. 28. Австралийский институт стратегической политики . стр. 11–13. ISSN 2209-9689 .
{{cite book}}
: CS1 maint: дата и год ( ссылка ) - ^ Лю, Сивэй (2020). «Обнаружение дипфейков: текущие проблемы и следующие шаги» . Международная конференция IEEE по мультимедиа и выставочным семинарам 2020 (ICMEW) . стр. 1–6. arXiv : 2003.09234 . дои : 10.1109/icmew46912.2020.9105991 . ISBN 978-1-7281-1485-9 . S2CID 214605906 . Проверено 29 июня 2022 г.
- ^ Перейти обратно: а б Диакопулос, Николас; Джонсон, Дебора (июнь 2020 г.). «Предвидение и устранение этических последствий дипфейков в контексте выборов» . Новые медиа и общество . 23 (7) (опубликовано 5 июня 2020 г.): 2072–2098. дои : 10.1177/1461444820925811 . ISSN 1461-4448 . S2CID 226196422 .
- ^ Мерфи, Марги (20 февраля 2024 г.). «Бум Deepfake Audio использует искусственный интеллект стартапа стоимостью один миллиард долларов» . Блумберг.
- ^ Чадха, Анупама; Кумар, Вайбхав; Кашьяп, Сону; Гупта, Маянк (2021), Сингх, Прадип Кумар; Вежхонь, Славомир Т.; Танвар, Судип; Ганжа, Мария (ред.), «Deepfake: Обзор» , Материалы второй международной конференции по вычислительной технике, коммуникациям и кибербезопасности , Конспекты лекций по сетям и системам, том. 203, Сингапур: Springer Singapore, стр. 557–566, doi : 10.1007/978-981-16-0733-2_39 , ISBN. 978-981-16-0732-5 , S2CID 236666289 , получено 29 июня 2022 г.
- ^ «ИИ вернул Вэлу Килмеру голос. Но критики опасаются, что технология может быть использована не по назначению» . Вашингтон Пост . ISSN 0190-8286 . Проверено 29 июня 2022 г.
- ^ Этьен, Ванесса (19 августа 2021 г.). «Вэл Килмер возвращает себе голос после борьбы с раком горла с помощью технологии искусственного интеллекта: узнайте результаты» . ЛЮДИ.com . Проверено 1 июля 2022 г.
- ^ Перейти обратно: а б с д Альмутаири, Зайнаб; Элгибрин, Хеба (04 мая 2022 г.). «Обзор современных методов обнаружения дипфейков в аудио: проблемы и будущие направления» . Алгоритмы . 15 (5): 155. дои : 10.3390/a15050155 . ISSN 1999-4893 .
- ^ Карамансьон, Кевин Мэтт (июнь 2022 г.). «Исследование неверной/дезинформации в аудиоформате, распространяемой в подкастах: пример Spotify» . Международная конференция IEEE по Интернету вещей, электронике и мехатронике (IEMTRONICS) 2022 г. стр. 1–6. doi : 10.1109/IEMTRONICS55184.2022.9795760 . ISBN 978-1-6654-8684-2 . S2CID 249903722 .
- ^ Перейти обратно: а б Чен, Тяньсян; Кумар, Аврош; Нагаршет, Парав; Шивараман, Ганеша; Хури, Эли (01 ноября 2020 г.). «Обобщение обнаружения аудио-дипфейков» . Семинар по распознаванию речи и языка (Одиссея 2020) . ИСКА: 132–137. дои : 10.21437/Одиссея.2020-19 . S2CID 219492826 .
- ^ Перейти обратно: а б с Бальестерос, Дора М.; Родригес-Ортега, Йоханна; Ренца, Диего; Арсе, Гонсало (01 декабря 2021 г.). «Deep4SNet: глубокое обучение для классификации фейковой речи» . Экспертные системы с приложениями . 184 : 115465. doi : 10.1016/j.eswa.2021.115465 . ISSN 0957-4174 . S2CID 237659479 .
- ^ Суваджанакорн, Супасорн; Зейтц, Стивен М.; Кемельмахер-Шлизерман, Ира (20 июля 2017 г.). «Синтезируя Обаму: учимся синхронизировать губы по аудио» . Транзакции ACM с графикой . 36 (4): 95:1–95:13. дои : 10.1145/3072959.3073640 . ISSN 0730-0301 . S2CID 207586187 .
- ^ Ступп, Кэтрин. «Мошенники использовали ИИ, чтобы имитировать голос генерального директора в необычном деле о киберпреступлениях» . ВСЖ . Проверено 26 мая 2024 г.
- ^ Брюстер, Томас. «Мошенники клонировали голос директора компании при ограблении банка на 35 миллионов долларов, как обнаружила полиция» . Форбс . Проверено 29 июня 2022 г.
- ^ «Генераторный ИИ помогает поверить в голосовое мошенничество» . Аксиос . 13 июня 2023 г. Проверено 16 июня 2023 г.
- ^ Банн, Эми (15 мая 2023 г.). «Искусственные самозванцы: киберпреступники обращаются к клонированию голоса с помощью искусственного интеллекта для нового вида мошенничества» . Макафи Блог . Проверено 16 июня 2023 г.
- ^ Кокс, Джозеф (23 февраля 2023 г.). «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . Порок . Проверено 16 июня 2023 г.
- ^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и австралийской налоговой службой» . Хранитель . Проверено 16 июня 2023 г.
- ^ «Мошенники используют ИИ для улучшения своих семейных схем экстренной помощи» . Консультации потребителей . 17 марта 2023 г. Проверено 26 мая 2024 г.
- ^ «Глубокая аудиозапись сэра Кейра Стармера выпущена в первый день конференции Лейбористской партии» .
- ^ Микер, Морган. «Дипфейки о выборах в Словакии показывают, что искусственный интеллект представляет опасность для демократии» . Проводной .
- ^ «Политическому консультанту, стоящему за фальшивым роботизированным вызовом Байдена с помощью искусственного интеллекта, предъявлены обвинения в Нью-Гэмпшире» .
- ^ «Политтехнолога обвиняют в том, что он нанял фокусника для рассылки избирателям фейковых звонков Байдена» . Закон и преступность . 15 марта 2024 г. Проверено 23 мая 2024 г.
- ^ Дэвид Райт; Брайан Фунг; Брайан Фунг (6 февраля 2024 г.). «Фальшивый роботизированный звонок Байдена связан с техасскими компаниями, - заявляет генеральный прокурор Нью-Гэмпшира» . CNN .
- ^ Брайан Фунг (8 февраля 2024 г.). «FCC голосует за запрет мошеннических звонков роботов, использующих голоса, сгенерированные искусственным интеллектом» . Си-Эн-Эн.
{{cite news}}
: CS1 maint: статус URL ( ссылка ) - ^ «FCC объявляет незаконными голоса, сгенерированные искусственным интеллектом, при звонках роботов | Федеральная комиссия по связи» . www.fcc.gov . 08 февраля 2024 г. Проверено 26 мая 2024 г.
- ^ Крамер, Марсия (26 февраля 2024 г.). «Стив Крамер объясняет, почему он использовал искусственный интеллект, чтобы выдать себя за президента Байдена в Нью-Гэмпшире — CBS New York» . www.cbsnews.com . Проверено 23 мая 2024 г.
- ^ «Политологу предъявлены обвинения и штрафы за фейковые звонки роботов Байдена» .
- ^ Перейти обратно: а б с д и Ханджани, Захра; Уотсон, Габриель; Джанея, Вандана П. (28 ноября 2021 г.). «Насколько глубоки фейки? Сосредоточимся на аудиодипфейках: опрос». arXiv : 2111.14203 [ cs.SD ].
- ^ Прадхан, Свадин; Сунь, Вэй; Байг, Гуфран; Цю, Лили (9 сентября 2019 г.). «Борьба с повторными атаками на голосовых помощников» . Труды ACM по интерактивным, мобильным, носимым и повсеместным технологиям . 3 (3): 100:1–100:26. дои : 10.1145/3351258 . S2CID 202159551 .
- ^ Вильяльба, Хесус; Лерида, Эдуардо (2011). «Предотвращение повторных атак на системы проверки говорящих». Карнаханская конференция 2011 г. по технологиям безопасности . стр. 1–8. дои : 10.1109/CCST.2011.6095943 . ISBN 978-1-4577-0903-6 . S2CID 17048213 . Проверено 29 июня 2022 г.
- ^ Том, Фрэнсис; Джайн, Мохит; Дей, Прасенджит (2 сентября 2018 г.). «Сквозное обнаружение атак с воспроизведением аудио с использованием глубоких сверточных сетей с вниманием» . Интерспич 2018 . ISCA: 681–685. doi : 10.21437/Interspeech.2018-2279 . S2CID 52187155 .
- ^ Тан, Сюй; Цинь, Тао; Сунг, Фрэнк; Лю, Те-Янь (23 июля 2021 г.). «Обзор нейронного синтеза речи». arXiv : 2106.15561 [ eess.AS ].
- ^ Перейти обратно: а б Оорд, Аарон ван ден; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Иволга; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (19 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [ cs.SD ].
- ^ Кучаев, Олексии; Li, Jason; Nguyen, Huyen; Гринчук, Олексии; Leary, Ryan; Ginsburg, Борис; Kriman, Samuel; Белиев, Станислав; Lavrukhin, Vitaly; Cook, Jack; Castonguay, Patrice (2019-09-13). "NeMo: инструмент для построения AI приложений с помощью Neural Modules". arXiv : 1909.09577 [ cs.LG ].
- ^ Ван, Юйсюань; Скерри-Райан, Р.Дж.; Стэнтон, Дейзи; Ву, Юнхуэй; Вайс, Рон Дж.; Джейтли, Навдип; Ян, Цзунхэн; Сяо, Инь; Чен, Чжифэн; Бенджио, Сами; Ле, Куок (06 апреля 2017 г.). «Такотрон: к сквозному синтезу речи». arXiv : 1703.10135 [ cs.CL ].
- ^ Перейти обратно: а б Пренгер, Райан; Валле, Рафаэль; Катандзаро, Брайан (30 октября 2018 г.). «WaveGlow: генеративная сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].
- ^ Васкес, Шон; Льюис, Майк (4 июня 2019 г.). «MelNet: генеративная модель звука в частотной области». arXiv : 1906.01083 [ eess.AS ].
- ^ Перейти обратно: а б Пин, Вэй; Пэн, Кайнан; Гибианский, Эндрю; Арик, Серкан О.; Каннан, Аджай; Наранг, Шаран; Райман, Джонатан; Миллер, Джон (22 февраля 2018 г.). «Deep Voice 3: преобразование текста в речь с помощью сверточного последовательного обучения». arXiv : 1710.07654 [ cs.SD ].
- ^ Жэнь, Ян, Тан, Тао; Чжао, Чжоу, Те-Янь (20 ноября 2019 г.): быстрое, надежное и управляемое преобразование текста в речь. arXiv : 1905.09263 [ cs.CL ].
- ^ Нин, Ишуан; Он, Шэн; Ву, Чжиюн; Син, Чуньсяо; Чжан, Лян-Цзе (январь 2019 г.). «Обзор синтеза речи на основе глубокого обучения» . Прикладные науки . 9 (19): 4050. дои : 10.3390/app9194050 . ISSN 2076-3417 .
- ^ Перейти обратно: а б Родригес-Ортега, Йоханна; Бальестерос, Дора Мария; Ренца, Диего (2020). «Модель машинного обучения для обнаружения фальшивого голоса» . Во Флоресе, Гектор; Мисра, Санджай (ред.). Прикладная информатика . Коммуникации в компьютерной и информатике. Том. 1277. Чам: Springer International Publishing. стр. 3–13. дои : 10.1007/978-3-030-61702-8_1 . ISBN 978-3-030-61702-8 . S2CID 226283369 .
- ^ Чжан, Минъян; Ван, Синь; Клык, Дымящийся; Ли, Хайчжоу; Ямагиси, Дзюнъити (07.04.2019). «Совместная система обучения преобразованию текста в речь и голос с использованием нескольких источников Tacotron и WaveNet». arXiv : 1903.12389 [ eess.AS ].
- ^ Перейти обратно: а б Серкан, О Арик; Цзитун, Чен; Кайнань, Пэн; Вэй, Пин; Яньци, Чжоу (2018). «Клонирование нейронного голоса с помощью нескольких образцов» . Достижения в области нейронных систем обработки информации (NeurIPS 2018) . 31 (опубликовано 12 октября 2018 г.): 10040–10050. arXiv : 1802.06006 .
- ^ Перейти обратно: а б "| ASVspoof" . www.asvspoof.org . Проверено 1 июля 2022 г.
- ^ напоминать-ai/Resemblyzer , Напоминать AI, 30 июня 2022 г. , получено 1 июля 2022 г.
- ^ mendaxfz (28 июня 2022 г.), Synthetic-Voice-Detection , получено 1 июля 2022 г.
- ^ HUA, Гуан (29 июня 2022 г.), Сквозное синтетическое обнаружение речи , получено 1 июля 2022 г.
- ^ Конг, Джунгил; Ким, Джэхён; Пэ, Джэкён (23 октября 2020 г.). «HiFi-GAN: генеративно-состязательные сети для эффективного и высококачественного синтеза речи». arXiv : 2010.05646 [ cs.SD ].
- ^ Кумар, Кундан; Кумар, Ритеш; де Буасьер, Тибо; Гестин, Лукас; Тео, Вэй Чжэнь; Сотело, Хосе; де Бребиссон, Александр; Бенджио, Йошуа; Курвиль, Аарон (08 декабря 2019 г.). «MelGAN: Генеративно-состязательные сети для синтеза условных сигналов». arXiv : 1910.06711 [ eess.AS ].
- ^ Баббел.com; GmbH, Урок девятый. «10 самых распространенных языков в мире» . Журнал Баббель . Проверено 30 июня 2022 г.
- ^ Наджафян, Марьям; Рассел, Мартин (сентябрь 2020 г.). «Автоматическая идентификация акцента как аналитический инструмент для надежного автоматического распознавания речи» . Речевое общение . 122 : 44–55. doi : 10.1016/j.specom.2020.05.003 . S2CID 225778214 .
- ^ Лю, Сяо; Чжан, Фаньцзинь; Хоу, Чжэньюй; Миан, Ли; Ван, Чжаоюй; Чжан, Цзин; Тан, Цзе (2021). «Самостоятельное обучение: генеративное или контрастное» . Транзакции IEEE по знаниям и инженерии данных . 35 (1): 857–876. arXiv : 2006.08218 . дои : 10.1109/TKDE.2021.3090866 . ISSN 1558-2191 . S2CID 219687051 .
- ^ Рашид, доктор медицины Мамунур; Ли, Сук-Хван; Квон, Ки Рён (2021). «Технология блокчейн для борьбы с дипфейками и защиты целостности видео/изображений» . Журнал Корейского мультимедийного общества . 24 (8): 1044–1058. дои : 10.9717/kmms.2021.24.8.1044 . ISSN 1229-7771 .
- ^ Фрага-Ламас, Паула; Фернандес-Карамес, Тьяго М. (20 октября 2019 г.). «Фейковые новости, дезинформация и дипфейки: использование технологий распределенного реестра и блокчейна для борьбы с цифровым обманом и поддельной реальностью». ИТ-специалист . 22 (2): 53–59. arXiv : 1904.05386 . дои : 10.1109/MITP.2020.2977589 .
- ^ Ки Чан, Кристофер Чун; Кумар, Вимал; Делани, Стивен; Гочу, Мунхжаргал (сентябрь 2020 г.). «Борьба с дипфейками: Multi-LSTM и блокчейн как доказательство подлинности цифровых медиа» . Международная конференция IEEE/ITU «Искусственный интеллект во благо» (AI4G) 2020 года . стр. 55–62. дои : 10.1109/AI4G50087.2020.9311067 . ISBN 978-1-7281-7031-2 . S2CID 231618774 .
- ^ Миттал, Триша; Бхаттачарья, Уттаран; Чандра, Рохан; Бера, Аникет; Маноча, Динеш (12 октября 2020 г.), «Эмоции не лгут: аудиовизуальный метод обнаружения дипфейков с использованием аффективных сигналов» , Материалы 28-й Международной конференции ACM по мультимедиа , Нью-Йорк, Нью-Йорк, США: Ассоциация вычислительной техники Машинное оборудование, стр. 2823–2832, doi : 10.1145/3394171.3413570 , ISBN. 978-1-4503-7988-5 , S2CID 220935571 , получено 29 июня 2022 г.
- ^ Конти, Эмануэле; Сальви, Давиде; Боррелли, Клара; Хослер, Брайан; Бестагини, Паоло; Антоначчи, Фабио; Сарти, Аугусто; Штамм, Мэтью С.; Тубаро, Стефано (23 мая 2022 г.). «Обнаружение дипфейковой речи посредством распознавания эмоций: семантический подход» . ICASSP 2022–2022 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) . Сингапур, Сингапур: IEEE. стр. 8962–8966. дои : 10.1109/ICASSP43922.2022.9747186 . hdl : 11311/1220518 . ISBN 978-1-6654-0540-9 . S2CID 249436701 .
- ^ Хослер, Брайан; Сальви, Давиде; Мюррей, Энтони; Антоначчи, Фабио; Бестагини, Паоло; Тубаро, Стефано; Стамм, Мэтью К. (июнь 2021 г.). «Чувствуют ли дипфейки эмоции? Семантический подход к обнаружению дипфейков по эмоциональным несоответствиям» . Конференция IEEE/CVF 2021 года по компьютерному зрению и распознаванию образов (CVPRW) . Нэшвилл, Теннесси, США: IEEE. стр. 1013–1022. дои : 10.1109/CVPRW53098.2021.00112 . hdl : 11311/1183572 . ISBN 978-1-6654-4899-4 . S2CID 235679849 .
- ^ Мюллер, Николас М.; Чемпин, Павел; Дикманн, Франциска; Фрогьяр, Адам; Бёттингер, Константин (21 апреля 2022 г.). «Обобщает ли обнаружение аудио-дипфейков?». arXiv : 2203.16263 [ cs.SD ].
- ^ Чжан, Ю; Цзян, Фэй; Дуань, Чияо (2021). «Одноклассное обучение обнаружению синтетической подделки голоса» . Письма об обработке сигналов IEEE . 28 : 937–941. arXiv : 2010.13995 . Бибкод : 2021ISPL...28..937Z . дои : 10.1109/ЛСП.2021.3076358 . ISSN 1558-2361 . S2CID 235077416 .
- ^ Перейти обратно: а б «SAM.gov» . Sam.gov . Проверено 29 июня 2022 г.
- ^ «Программа СемаФор» . www.darpa.mil . Проверено 1 июля 2022 г.
- ^ «Программа DARPA MediFor» . govtribe.com . Проверено 29 июня 2022 г.
- ^ «Программа МедиФор» . www.darpa.mil . Проверено 1 июля 2022 г.
- ^ «DARPA объявляет набор исследовательских групп для участия в программе семантической криминалистики» . www.darpa.mil . Проверено 1 июля 2022 г.
- ^ «ПРЕМЬЕР» . сайты.google.com . Проверено 1 июля 2022 г.
- ^ «ПРЕМЬЕР-Проект» . сайты.google.com . Проверено 29 июня 2022 г.
- ^ Бёрд, Джордан Дж.; Лотфи, Ахмад (2023). «Обнаружение речи, сгенерированной искусственным интеллектом, в режиме реального времени для преобразования голоса DeepFake». arXiv : 2308.12734 [ cs.SD ].
- ^ Ямагиси, Дзюнъити; Ван, Синь; Тодиско, Массимилиано; Сахидулла, Мэриленд; Патино, Хосе; Науч, Андреас; Лю, Сюэчэнь; Ли, Конг Айк; Киннунен, Томи; Эванс, Николас; Дельгадо, Эктор (01 сентября 2021 г.). «ASVspoof 2021: ускорение прогресса в обнаружении поддельной и глубокой речи». arXiv : 2109.00537 [ eess.AS ].
- ^ «Обнаружение аудио-дипфейков: ICASSP 2022» . Общество обработки сигналов IEEE . 17 декабря 2021 г. Проверено 1 июля 2022 г.
- ^ И, Цзянъянь, Жуйбо; Не, Ма, Хаосинь; Ван, Чжэнкунь; Фань, Цуньхан; 26) «ADD 2022: первая задача по обнаружению глубокого синтеза звука». arXiv : 2202.08433 [ cs.SD ].
- ^ «Совместный семинар Blizzard Challenge и Voice Conversion Challenge 2020 — SynSIG» . www.synsig.org . Архивировано из оригинала 2 июля 2022 г. Проверено 1 июля 2022 г.