15.ai
Тип сайта | Искусственный интеллект , синтез речи , машинное обучение , глубокое обучение |
---|---|
Доступно в | Английский |
Основатель(и) | 15 |
URL-адрес | 15 |
Коммерческий | Нет |
Регистрация | Никто |
Запущен | Первый выпуск : 12 марта 2020 г Стабильный выпуск : v24.2.1 / сентябрь 2021 г |
Текущий статус | На техническом обслуживании |
Часть серии о |
Искусственный интеллект |
---|
15.ai — это некоммерческое бесплатное искусственного интеллекта веб-приложение , которое генерирует естественные эмоциональные изображения высокой точности. [ а ] Преобразование текста в речь от множества вымышленных персонажей из различных медиа-источников. [ 4 ] [ 5 ] [ 6 ] [ 7 ] Проект, разработанный исследователем Массачусетского технологического института под псевдонимом 15 , использует комбинацию алгоритмов синтеза звука , синтеза речи глубоких нейронных сетей и моделей анализа настроений для генерации и обслуживания эмоциональных голосов персонажей быстрее, чем в реальном времени, особенно голосов с очень небольшим количество обучаемых данных.
Запущенный в начале 2020 года, 15.ai начинался как доказательство концепции демократизации . озвучки и дубляжа с использованием технологий [ 8 ] Его бесплатный и некоммерческий характер (с единственным условием: при использовании проекта должна быть указана соответствующая информация), простота использования, отсутствие требований к регистрации учетной записи пользователя и существенные улучшения текущих реализаций преобразования текста в речь были высоко оценены пользователями; [ 5 ] [ 4 ] [ 6 ] однако некоторые критики и актеры озвучивания ставят под сомнение законность и этичность оставления такой технологии общедоступной и легкодоступной. [ 8 ] [ 9 ] [ 10 ]
15.ai , ставший толчком к популяризации клонирования голоса ИИ (также известного как аудиодипфейки ) при создании контента и первым общедоступным проектом синтеза голоса ИИ, включающим использование существующих популярных вымышленных персонажей, оказал значительное влияние на множество интернет- фандомов , в первую очередь фандомы My Little Pony: Friendship Is Magic , Team Fortress 2 и SpongeBob SquarePants . Кроме того, 15.ai вдохновил на использование проекта 4chan Pony Preservation Project в других генеративного искусственного интеллекта . проектах [ 11 ] [ 12 ]
С ростом популярности 15.ai появилось несколько коммерческих альтернатив, что привело к случаям неправильной атрибуции и кражи. В январе 2022 года было обнаружено, что Voiceverse NFT , компания, о актер озвучивания Трой Бейкер сотрудничестве с которой объявил , занималась плагиатом работы 15.ai как части своей платформы. [ 13 ] [ 14 ] [ 15 ]
В сентябре 2022 года, через год после последнего стабильного выпуска, 15.ai был временно закрыт в рамках подготовки к будущему обновлению. По состоянию на август 2024 года веб-сайт все еще недоступен, а последнее сообщение 15 датировано февралем 2023 года. [ 16 ]
Функции
В число доступных персонажей входят GLaDOS и Уитли из Portal , персонажи из Team Fortress 2 , Сумеречная Искорка и ряд главных, второстепенных и второстепенных персонажей из My Little Pony: Friendship Is Magic , Губка Боб из SpongeBob SquarePants , Дарья Моргендорфер и Джейн Лейн из Daria , Десятый Доктор из «Доктора Кто» , HAL 9000 из «Космической одиссеи 2001», Рассказчик из «The Stanley Parable» , для Wii U/3DS / Switch Диктор Super Smash Bros. (ранее), Карл Брутананадилевски из Aqua Teen Hunger Force , Стивен Вселенная из Стивен Вселенная , Дэн из Dan Vs. и Санс из Undertale . [ 12 ] [ 11 ] [ 17 ] [ 18 ]
Модель глубокого обучения , используемая приложением, является недетерминированной : каждый раз, когда речь генерируется из одной и той же текстовой строки, интонация речи будет немного отличаться. Приложение также поддерживает ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный в рамках этого проекта), предложения или фразы, передающей эмоции дубля, которые служат руководством для модели во время вывода. [ 11 ] [ 12 ] Эмоциональные контекстуализаторы — это представления эмоционального содержания предложения, выведенные с помощью полученных с помощью передачи, смайлов, встраивания глубокой нейронной сети, с использованием DeepMoji, алгоритма анализа настроений разработанного MIT Media Lab в 2017 году. [ 19 ] [ 20 ] DeepMoji был обучен на 1,2 миллиардах случаев появления смайлов в данных Твиттера с 2013 по 2017 год, и было обнаружено, что он превосходит людей в правильном определении сарказма в твитах и других онлайн-способах общения. [ 21 ] [ 22 ] [ 23 ]
15.ai использует модель с несколькими динамиками — сотни голосов обучаются одновременно, а не последовательно, что сокращает необходимое время обучения и позволяет модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подвергающихся воздействию такого эмоционального контекста. [ 24 ] Следовательно, весь состав персонажей в приложении основан на одной обученной модели, а не на нескольких моделях с одним говорящим, обученных на разных наборах данных. [ 25 ] Лексикон , используемый 15.ai, был взят из различных интернет-источников, включая Оксфордские словари , Викисловарь , Словарь произношения CMU , 4chan , Reddit и Twitter . Произношение незнакомых слов автоматически определяется с использованием фонологических правил, изученных моделью глубокого обучения. [ 11 ]
Приложение поддерживает упрощенную версию набора английских фонетических транскрипций, известную как ARPABET, для исправления неправильного произношения или учета гетеронимов — слов, которые пишутся одинаково, но произносятся по-разному (например, слово read , которое может произноситься как / ˈ r ɛ d / или / ˈ r iː d / в зависимости от времени ). Хотя оригинальные коды ARPABET, разработанные в 1970-х годах Агентством перспективных исследовательских проектов, поддерживают 50 уникальных символов для обозначения и различения английских фонем. [ 26 ] ( Соглашение ARPABET словаря произношений CMU набор кодов транскрипции, за которыми следует 15.ai [ 11 ] ) сокращает набор символов до 39 фонем за счет объединения аллофонических фонетических реализаций в единый стандарт (например, AXR/ER
; UX/UW
) и использование нескольких общих символов вместе для замены слоговых согласных (например, EN/AH0 N
). [ 27 ] [ 28 ] Строки ARPABET можно вызвать в приложении, заключив строку фонем в фигурные скобки внутри поля ввода (например, {AA1 R P AH0 B EH2 T}
для обозначения / ˈ ɑːr p ə ˌ b ɛ t / , произношения слова ARPABET ). [ 11 ]
Ниже приводится таблица фонем, используемых 15.ai и Словарем произношения CMU: [ 29 ]
ВОЗЬМИ | руп. | НАСИЛИЕ | Пример |
---|---|---|---|
AA
|
ах | ɑ | странный |
AE
|
а | ой | в |
AH0
|
а | а | о |
AH
|
ты, ух | ʌ | хижина |
AO
|
хорошо | ɔ | должен |
AW
|
ой | а' | корова |
AY
|
глаз | ааа | скрывать |
EH
|
э, э | е | Э д |
ВОЗЬМИ | руп. | НАСИЛИЕ | Пример |
---|---|---|---|
ER
|
ударь , муж | ɝ , ɚ | повредить |
EY
|
является | еɪ | ел |
IH
|
я , я | ɪ | это |
IY
|
да | я | есть |
OW
|
ой | о'' | оа т |
OY
|
ООО | ɔɪ | Той ой |
UH
|
он | ʊ | капюшон |
UW
|
и | в | два |
АБ | Описание |
---|---|
0 | Никакого стресса |
1 | Первичный стресс |
2 | Вторичный стресс |
ВОЗЬМИ | руп. | НАСИЛИЕ | Пример |
---|---|---|---|
B
|
б | б | быть |
CH
|
ч , чч | тʃ | сыр |
D
|
д | д | д э |
DH
|
д | д | ты |
F
|
ж | ж | платеж |
G
|
г | ɡ | зеленый |
HH
|
час | час | он |
JH
|
дж | дʒ | ну и дела ee |
ВОЗЬМИ | руп. | НАСИЛИЕ | Пример |
---|---|---|---|
K
|
к | к | ключ |
L
|
л | л | я да |
M
|
м | м | мне |
N
|
н | н | колено |
NG
|
из | ŋ | пи нг |
P
|
п | п | пи пи |
R
|
р | р | читать |
S
|
с , сс | с | море |
ВОЗЬМИ | руп. | НАСИЛИЕ | Пример |
---|---|---|---|
SH
|
ш | ʃ | она |
T
|
т | т | чай |
TH
|
й | я | эта эта |
V
|
v | v | ви |
W
|
ш , что | В | мы |
Y
|
и | дж | урожай |
Z
|
С | С | з ее |
ZH
|
zh | ʒ | захват |
Фон
Синтез речи
В 2016 году с предложением DeepMind компании WaveNet модели синтеза речи на основе глубокого обучения начали набирать популярность как метод моделирования сигналов и генерации человеческой речи. [ 30 ] [ 31 ] [ 3 ] [ 8 ] Tacotron2, архитектура нейронной сети для синтеза речи, разработанная Google AI , была опубликована в 2018 году и требовала десятков часов аудиоданных для создания разборчивой речи; при обучении в течение 2 часов речи модель была способна воспроизводить разборчивую речь посредственного качества, а при обучении в течение 36 минут речи модель не могла воспроизводить разборчивую речь. [ 32 ] [ 33 ]
В течение многих лет сокращение объема данных, необходимых для обучения реалистичной высококачественной модели преобразования текста в речь, было основной целью научных исследователей в области синтеза речи с глубоким обучением. [ 34 ] [ 35 ] Разработчик 15.ai утверждает, что всего 15 секунд данных достаточно, чтобы клонировать голос до человеческих стандартов, а это значительное сокращение объема требуемых данных. [ 36 ]
Материалы, защищенные авторским правом, в глубоком обучении
Знаменательное дело между Google и Гильдией авторов в 2013 году постановило, что Google Книги — сервис, который осуществляет поиск по полному тексту печатных книг, защищенных авторским правом, — является преобразовательным , тем самым отвечая всем требованиям добросовестного использования. [ 37 ] Это дело создало важный юридический прецедент в области глубокого обучения и искусственного интеллекта: использование материалов, защищенных авторским правом, для обучения дискриминационной модели или некоммерческой генеративной модели было признано законным. Законность коммерческих генеративных моделей, обученных с использованием материалов, защищенных авторским правом, все еще обсуждается; из-за того, что модели машинного обучения представляют собой «черный ящик», любые обвинения в нарушении авторских прав посредством прямой конкуренции будет трудно доказать. [ нужна ссылка ]
Разработка
15.ai был разработан и создан анонимным учёным-исследователем из Массачусетского технологического института, известным под псевдонимом 15 . [ 38 ]
Согласно сообщениям разработчика на Hacker News , эксплуатация 15.ai обходится в несколько тысяч долларов в месяц; они способны поддержать проект благодаря успешному выходу стартапа . [ 39 ] Разработчик заявил, что во время учебы в Массачусетском технологическом институте ему платили минимальную почасовую ставку за работу над соответствующим проектом (приблизительно 14 долларов в час в Массачусетсе). [ 40 ] ), который в конечном итоге превратился в 15.ai. Они также заявили, что демократизация технологии клонирования голоса — не единственная функция сайта; в ответ на вопрос пользователя, можно ли провести исследование без общедоступного веб-сайта, разработчик написал:
[...] Веб-сайт имеет несколько целей. Это служит доказательством концепции платформы, которая позволяет любому создавать контент , даже если он не может нанять кого-то для озвучивания своих проектов.
Он также демонстрирует прогресс моих исследований в гораздо более увлекательной форме — имея возможность использовать реальную модель, вы можете обнаружить в ней такие вещи, о которых даже я не подозревал (например, заставить персонажей издавать задыхающиеся звуки или стоны, используя расстановка запятых между определенными фонемами).
Это также не позволяет мне выбирать лучшие результаты и демонстрировать только те, которые работают (что, я считаю, является большой проблемой, характерной для современного машинного обучения — это неискренне и вводит в заблуждение). Возможность взаимодействовать с моделью без фильтра позволяет пользователю точно оценить, насколько хороша текущая работа по номинальной стоимости.
— 15ai, Хакерские новости [ 39 ]
Алгоритм, используемый проектом для облегчения клонирования голосов с минимальным количеством жизнеспособных данных, получил название DeepThroat. [ 41 ] ( двусмысленный смысл в отношении синтеза речи с использованием глубоких нейронных сетей и полового акта глубокого минета ). Проект и алгоритм, первоначально задуманные как часть программы студенческих исследовательских возможностей Массачусетского технологического института , находились в разработке в течение многих лет до первого выпуска приложения. [ 11 ]
Разработчик также тесно сотрудничал с проектом Pony Preservation Project из /mlp/, My Little Pony доски на 4chan . Проект Pony Preservation Project , начавшийся в 2019 году, представляет собой «совместную работу /mlp/ по созданию и хранению наборов данных о пони» с целью создания приложений в области искусственного интеллекта. [ 42 ] [ 43 ] [ 44 ] Голоса « Дружба – это чудо» на 15.ai были обучены на большом наборе данных, собранном краудсорсинговым проектом Pony Preservation Project: аудио и диалоги из сериала и сопутствующих медиа, включая все девять сезонов «Дружба – это чудо» , фильм 2017 года , спин-оффы , утечки и различный другой контент, озвученный теми же актерами озвучивания, был проанализирован , расшифрован вручную и обработан для удаления фонового шума. По словам разработчика, коллективные усилия и конструктивная критика со стороны Pony Preservation Project были неотъемлемой частью разработки 15.ai. [ 42 ]
Кроме того, разработчик заявил, что логотип 15.ai, на котором изображен робот Сумеречная Искорка , является данью уважения тому факту, что ее голос (в первоначальном исполнении Тары Стронг ) был незаменим для реализации эмоциональных контекстуализаторов. [ 39 ]
Прием
15.ai был встречен в основном положительно. Лиана Рупперт из Game Informer охарактеризовала 15.ai как «упрощенно блестящий». [ 5 ] Лорен Мортон из Rock, Paper, Shotgun и Натали Клейтон из PCGamer назвали это «захватывающим». [ 7 ] [ 6 ] и Хосе Вильялобос из LaPS4 написал, что он «работает так же легко, как кажется». [ 17 ] [ б ] Пользователи высоко оценили возможность легко создавать аудиозапись популярных персонажей, которая звучит правдоподобно для тех, кто не знает, что голоса были синтезированы искусственным интеллектом: Зак Звизен из Kotaku сообщил, что «[его] подруга была убеждена, что это новая голосовая линия из GLaDOS голоса ». актриса Эллен МакЛейн », [ 4 ] в то время как Риональди Чандрасета из Towards Data Science написал, что после просмотра видео на YouTube с голосами популярных персонажей, созданных 15.ai, «[его] первой мыслью было то, что создатель видео использовалcameo.com для оплаты новых диалогов от оригинальных актеров озвучивания». и заявил, что «качество голосов, озвученных 15.ai, намного превосходит [своих конкурентов]».
Прием также получил широкое признание за рубежом, особенно в Японии . Такаюки Фурусима из Den Fami Нико Геймер охарактеризовал 15.ai как «волшебный», а Юки Куросава из Automaton Media назвал его «революционным». [ 12 ] [ 11 ]
Ученый-компьютерщик и предприниматель Эндрю Нг прокомментировал в своем информационном бюллетене The Batch , что технология, лежащая в основе 15.ai, может быть «чрезвычайно продуктивной» и может «совершить революцию в использовании виртуальных актеров »; однако он также отметил, что «синтезирование голоса человеческого актера без согласия, возможно, неэтично и, возможно, незаконно» и потенциально может привести к случаям выдачи себя за другое лицо и мошенничества . [ 8 ] [ 9 ] В своем блоге Revolution Marginal экономист Тайлер Коуэн назвал 15 одним из «самых недооцененных талантов в области искусственного интеллекта и машинного обучения». [ 45 ]
Влияние
Создание фандомного контента
15.ai часто использовался для создания контента в различных фандомах , включая My Little Pony: Friendship Is Magic фандом , Team Fortress 2 фандом , фандом Portal и фандом SpongeBob SquarePants , с многочисленными видео и проектами, содержащими выступления 15 .ai стал вирусным . [ 4 ] [ 5 ]
Фэндом My Little Pony: Friendship Is Magic стал свидетелем возрождения создания видео и музыкального контента, что стало прямым результатом вдохновения на новый жанр контента, созданного фанатами с помощью искусственного интеллекта. Некоторые фанфики были адаптированы в полностью озвученные «эпизоды»: «Налоговые льготы» — это 17-минутная анимационная видеоверсия написанной фанатами истории, опубликованной в 2014 году, в которой используются голоса, сгенерированные из 15.ai, со звуковыми эффектами и редактированием звука , имитируя эпизодический стиль первых сезонов « Дружбы – это чудо» . [ 46 ] [ 47 ]
Вирусные видеоролики из фандома Team Fortress 2 , в которых используются голоса из 15.ai, включают Spy is a Furry (всего несколько видеороликов набрали более 3 миллионов просмотров на YouTube). [ 1 год ] [ год 2 ] [ ещё 3 ] ) и The RED Bread Bank , оба из которых вдохновили Source Filmmaker на создание анимационных видеороликов. [ 11 ] Другие фандомы использовали голоса с 15.ai для создания вирусных видеороликов. По состоянию на июль 2022 г. [update]вирусное видео Among Us Struggles (в котором используются голоса из Friendship Is Magic ) имеет более 5,5 миллионов просмотров на YouTube; [ 4 ] YouTubers , TikTokers и стримеры Twitch также использовали 15.ai для своих видео, таких как видео FitMC об истории 2b2t — одного из старейших работающих серверов Minecraft — и видео datpon3 TikTok с участием главных героев Friendship Is Magic , которые 1,4 миллиона и 510 тысяч просмотров соответственно. [ 5 лет ] [ ТТ 1 ]
Некоторые пользователи создали виртуальных помощников с искусственным интеллектом, используя 15.ai и внешнее программное обеспечение для голосового управления. Один пользователь в Твиттере создал личного настольного помощника, вдохновленного GLaDOS, используя диалог, сгенерированный 15.ai, в тандеме с системой голосового управления VoiceAttack, при этом программа может загружать приложения, произносить соответствующие случайные диалоги и благодарить пользователя в ответ на действия. . [ 11 ] [ 12 ]
Трой Бейкер / Скандал с плагиатом Voiceverse NFT
Трой Бейкер @TroyBakerVA Я сотрудничаю с @VoiceverseNFT, чтобы изучить способы, с помощью которых мы могли бы вместе предоставить новым авторам новые инструменты для создания новых вещей и дать каждому возможность владеть и инвестировать в создаваемые ими интеллектуальные права. Нам всем есть что рассказать. Вы можете ненавидеть. Или вы можете создать. Что это будет?
14 января 2022 г. [ твит 1 ]
В декабре 2021 года разработчик 15.ai написал в Твиттере , что не заинтересован во включении невзаимозаменяемых токенов (NFT) в свою работу. [ 10 ] [ 14 ] [ твит 2 ]
14 января 2022 года было обнаружено, что Voiceverse NFT, компания, о сотрудничестве с которой видеоигр и аниме дубляжа актер Трой Бейкер объявил о своем партнерстве, в рамках своей маркетинговой кампании занималась плагиатом голосовых реплик, созданных на 15.ai. [ 13 ] [ 14 ] [ 15 ] Файлы журналов показали, что Voiceverse сгенерировал аудиозапись Сумеречная Искорка и Радуги Дэш из шоу « Мой маленький пони: Дружба – это чудо» с помощью 15.ai, подстроил их так, чтобы они звучали неузнаваемо по сравнению с оригинальными голосами, и присвоил их без должного упоминания ложным продавать свою собственную платформу — нарушение условий обслуживания 15.ai. [ 36 ] [ 10 ] [ 15 ]
15 @fifteenai Мне сообщили, что вышеупомянутый вокальный синтезатор NFT активно пытается присвоить мою работу в свою пользу. Покопавшись в файлах журналов , я обнаружил доказательства того, что некоторые голоса, за которые они приписывают себе заслугу, действительно были созданы с моего собственного сайта.
14 января 2022 г. [ твит 3 ]
Происхождение голосовой вселенной @VoiceverseNFT Привет @fifteenai, нам очень жаль. Голос действительно был взят с вашей платформы, которую наша маркетинговая команда использовала без должного упоминания. Команда Chubbiverse ничего об этом не знает. Мы позаботимся о том, чтобы это никогда не повторилось.
14 января 2022 г. [ твит 4 ]
15 @fifteenai Иди на хуй.
14 января 2022 г. [ твит 5 ]
За неделю до объявления о партнерстве с Бейкером Voiceverse опубликовал (ныне удаленный) пост в Твиттере, прямо отвечая на (ныне удаленный) видеоролик, опубликованный Chubbiverse — платформой NFT, с которой сотрудничала Voiceverse, — демонстрирующий созданный искусственным интеллектом видео. голос и заявил, что он был создан с использованием платформы Voiceverse, отметив : «Интересно, кто создал для этого голос? ;)» [ 13 ] [ твит 6 ] Через несколько часов после того, как стало известно о партнерстве, разработчик 15.ai был предупрежден другим пользователем Твиттера, который спросил его мнение о партнерстве, на что он предположил, что это «похоже на мошенничество». [ твит 7 ] - опубликовали скриншоты файлов журналов, доказывающие, что пользователь веб-сайта (с отредактированным IP-адресом ) ввел точные слова, произнесенные голосом ИИ в видео, опубликованном Chubbiverse, [ твит 8 ] и впоследствии напрямую ответил на претензию Voiceverse, написав в Твиттере: «Конечно, не ты :)». [ 36 ] [ 14 ] [ твит 9 ]
После этого твита Voiceverse призналась в плагиате голосов с 15.ai в качестве своей собственной платформы, заявив, что их маркетинговая команда использовала проект, не указав должного значения, и что «команда Chubbiverse [не знала] об этом». В ответ на признание 15 написали в Твиттере: « Иди на хуй ». [ 13 ] [ 14 ] [ 15 ] [ 36 ] Последний твит стал вирусным , набрав более 75 000 лайков и 13 000 ретвитов с множеством репостов. [ твит 10 ] [ твит 11 ] [ твит 12 ]
Первоначальное партнерство между Бейкером и Voiceverse было встречено резкой негативной реакцией и повсеместно негативным приемом. [ 13 ] Критики подчеркнули воздействие на окружающую среду и возможность мошенничества, связанного с продажей NFT. [ 48 ] Комментаторы также отметили иронию первого твита Бейкера, в котором он объявил о партнерстве, которое закончилось словами: «Вы можете ненавидеть. Или вы можете создавать. Что это будет?», за несколько часов до публичного раскрытия того, что рассматриваемая компания вместо этого прибегла к краже. создания собственного продукта. Бейкер ответил, что он ценит людей, которые делятся своими мыслями, и их ответы «заставляют [ема] о многом задуматься». [ 49 ] [ 50 ] Он также признал, что фраза «ненависть/создать» в его первоначальном твите могла быть «немного враждебной», и попросил фанатов в социальных сетях простить его. [ 14 ] [ 51 ] Две недели спустя, 31 января, Бейкер объявил, что прекращает сотрудничество с Voiceverse. [ 52 ] [ 53 ] [ 54 ]
Реакция актеров озвучивания
Некоторые актеры озвучивания публично осудили использование технологии клонирования голоса. В число названных причин входят опасения по поводу выдачи себя за другое лицо и мошенничества , несанкционированного использования голоса актера в порнографии , а также возможности использования ИИ для того, чтобы сделать актеров озвучивания устаревшими . [ 8 ] [ 9 ] [ 10 ]
См. также
- Аудио дипфейк
- Character.ai
- ДАЛЛ-И
- Дипфейк
- Середина пути
- Короткие рассказы
- Стабильная диффузия
- Синтетические носители
- ВейвНет
Примечания
- ^ Фраза «высокая точность» в исследованиях TTS часто используется для описания вокодеров , которые способны восстанавливать сигналы с очень небольшими искажениями, и не является просто синонимом «высокого качества». См. документы о HiFi-GAN, [ 1 ] ГАН-ТТС, [ 2 ] и параллельный WaveNet [ 3 ] за беспристрастные примеры такого использования терминологии.
- ^ Перевод оригинальной цитаты, написанной на испанском языке: «Адрес — 15.AI, и он работает так же просто, как кажется». [ 17 ]
Ссылки
- Примечания
- ^ Конг, Джунгил (2020). «HiFi-GAN: генеративно-состязательные сети для эффективного и высококачественного синтеза речи». arXiv : 2010.05646v2 [ cs ].
- ^ Бинковский, Николай (2019). «Высококачественный синтез речи с состязательными сетями». arXiv : 1909.11646v2 [ cs ].
- ^ Jump up to: а б с ван ден Оорд, Аарон; Ли, Яже; Бабушкин Игорь (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet» . ДипМайнд . Архивировано из оригинала 18 июня 2022 года . Проверено 5 июня 2022 г.
- ^ Jump up to: а б с д и Цвизен, Зак (18 января 2021 г.). «Веб-сайт позволяет заставить GLaDOS говорить все, что вы хотите» . Котаку . Архивировано из оригинала 17 января 2021 года . Проверено 18 января 2021 г.
- ^ Jump up to: а б с д Руперт, Лиана (18 января 2021 г.). «Заставьте GLaDOS из Portal и других любимых персонажей говорить самые странные вещи с помощью этого приложения» . Игровой информер . Архивировано из оригинала 18 января 2021 года . Проверено 18 января 2021 г.
- ^ Jump up to: а б с Клейтон, Натали (19 января 2021 г.). «Заставьте актеров TF2 декламировать старые мемы с помощью этого инструмента преобразования текста в речь ИИ» . ПК-геймер . Архивировано из оригинала 19 января 2021 года . Проверено 19 января 2021 г.
- ^ Jump up to: а б Мортон, Лорен (18 января 2021 г.). «Вкладывайте слова в уста игровых персонажей с помощью этого увлекательного инструмента преобразования текста в речь» . Камень, Бумага, Дробовик . Архивировано из оригинала 18 января 2021 года . Проверено 18 января 2021 г.
- ^ Jump up to: а б с д и Нг, Эндрю (1 апреля 2020 г.). «Клонирование голоса для масс» . Пакет . Архивировано из оригинала 7 августа 2020 года . Проверено 5 апреля 2020 г.
- ^ Jump up to: а б с Нг, Эндрю (7 марта 2021 г.). «Еженедельный информационный бюллетень № 83» . Пакет . Архивировано из оригинала 26 февраля 2022 года . Проверено 7 марта 2021 г.
- ^ Jump up to: а б с д Лопес, Уле (16 января 2022 г.). «Фирма NFT, поддерживаемая Троем Бейкером, признает, что без разрешения использовала голосовые линии, взятые из другого сервиса» . Wccftech . Архивировано из оригинала 16 января 2022 года . Проверено 7 июня 2022 г.
- ^ Jump up to: а б с д и ж г час я дж Куросава, Юки (19 января 2021 г.) «Программное обеспечение для чтения голоса игровых персонажей «15.ai» уже доступно. Вы можете попросить персонажей из «Undertale» и «Portal» произнести ваши любимые фразы. АВТОМАТОН 19 . Архивировано из оригинала 19 января 2021 г. Проверено января 2021 г.
- ^ Jump up to: а б с д и Ёсиюки, Фурусима (18 января 2021 г.). «ГЛаДОС из «Портала» и Санс из «UNDERTALE» зачитывают текст. «15.ai», сервис, целью которого является воспроизведение эмоций, содержащихся в тексте, стал горячей темой. . Denfaminicogamer . . Архивировано из оригинала 18 января 2021 года Проверено 18 января 2021 года .
- ^ Jump up to: а б с д и Уильямс, Деми (18 января 2022 г.). «Voiceverse NFT признает, что принимает голосовые линии от некоммерческой службы» . НМЕ . Архивировано из оригинала 18 января 2022 года . Проверено 18 января 2022 г.
- ^ Jump up to: а б с д и ж Райт, Стив (17 января 2022 г.). «Компания NFT, поддерживаемая Троем Бейкером, признается в использовании контента без разрешения» . Стививор . Архивировано из оригинала 17 января 2022 года . Проверено 17 января 2022 г.
- ^ Jump up to: а б с д Генри, Джозеф (18 января 2022 г.). «Сообщается, что партнер Троя Бейкера, компания NFT Voiceverse, крадет голосовые строки с 15.ai» . Тех Таймс . Архивировано из оригинала 26 января 2022 года . Проверено 14 февраля 2022 г.
- ^ «x.com» . X (ранее Twitter) . 23 февраля 2023 года. Архивировано из оригинала 30 мая 2024 года . Проверено 30 мая 2024 г.
- ^ Jump up to: а б с Вильялобос, Хосе (18 января 2021 г.). «Откройте для себя 15.AI, веб-сайт, на котором вы можете заставить GlaDOS говорить все, что захотите» . ЛаПС4 . Архивировано из оригинала 18 января 2021 года . Проверено 18 января 2021 г.
- ^ Мото, Эухенио (20 января 2021 г.). «15.ai, сайт, который позволяет вам использовать голоса популярных персонажей, чтобы говорить все, что вы хотите» . Yahoo! Финансы . Архивировано из оригинала 8 марта 2022 года . Проверено 20 января 2021 г.
- ^ Фелбо, Бьярке (2017). «Использование миллионов случаев появления эмодзи для изучения представлений в любой области для выявления настроений, эмоций и сарказма». Материалы конференции 2017 года по эмпирическим методам обработки естественного языка . стр. 1615–1625. arXiv : 1708.00524 . дои : 10.18653/v1/D17-1169 . S2CID 2493033 .
- ^ Корфилд, Гарет (7 августа 2017 г.). «Бот-детектор сарказма? Звучит просто великолепно. Определенно» . Регистр . Архивировано из оригинала 2 июня 2022 года . Проверено 2 июня 2022 г.
- ^ «Алгоритм, обученный на Emoji, знает, когда вы саркастичны в Твиттере» . Обзор технологий Массачусетского технологического института . 3 августа 2017 г. Архивировано из оригинала 2 июня 2022 г. Проверено 2 июня 2022 г.
- ^ «Эмодзи помогают программному обеспечению распознавать эмоции и сарказм» . Би-би-си . 7 августа 2017 года. Архивировано из оригинала 2 июня 2022 года . Проверено 2 июня 2022 г.
- ^ Лоу, Джош (7 августа 2017 г.). «Наполненные эмодзи злые твиты помогли ученым создать бота, обнаруживающего сарказм, который мог бы выявлять разжигание ненависти» . Newsweek . Архивировано из оригинала 2 июня 2022 года . Проверено 2 июня 2022 г.
- ^ Валле, Рафаэль (2020). «Меллотрон: экспрессивный синтез голоса с несколькими динамиками путем регулирования ритма, высоты тона и токенов глобального стиля». arXiv : 1910.11997 [ eess ].
- ^ Купер, Эрика (2020). «Преобразование текста в речь с несколькими динамиками с нулевым выстрелом и современными встроенными нейронными динамиками». arXiv : 1910.10838 [ eess ].
- ^ Клаутау, Альдебаро (2001). «АЛФАВИТ и алфавит ТИМИТ» (PDF ) Архивировано из оригинала (PDF) 3 июня . Получено 8 , сентября
- ^ «Фонетика» (PDF) . Колумбийский университет . 2017. Архивировано (PDF) из оригинала 19 июня 2022 года . Проверено 11 июня 2022 г.
- ^ Лутс, Линсен (март 2010 г.). Расширение словарей произношения на основе данных (MSc). Стелленбошский университет, факультет электротехники и электроники. CiteSeerX 10.1.1.832.2872 . Архивировано из оригинала 11 июня 2022 года . Проверено 11 июня 2022 г.
Таблица 3.2
- ^ «Произносящий словарь КМУ» . Произносящий словарь КМУ . 16 июля 2015 года. Архивировано из оригинала 3 июня 2022 года . Проверено 4 июня 2022 г.
- ^ Сюй, Вэй-Нин (2018). «Иерархическое генеративное моделирование для синтеза управляемой речи». arXiv : 1810.07217 [ cs.CL ].
- ^ Хабиб, Раза (2019). «Полуконтролируемое генеративное моделирование для управляемого синтеза речи». arXiv : 1910.01709 [ cs.CL ].
- ^ «Аудио образцы из «Полу-контролируемого обучения для повышения эффективности данных при сквозном синтезе речи» » . 30 августа 2018 года. Архивировано из оригинала 11 ноября 2020 года . Проверено 5 июня 2022 г.
- ^ Шен, Джонатан; Панг, Руомин; Вайс, Рон Дж.; Шустер, Майк; Джейтли, Навдип; Ян, Цзунхэн; Чен, Чжифэн; Чжан, Ю; Ван, Юйсюань; Скерри-Райан, Р.Дж.; Саурус, Риф А.; Агиомиргианнакис, Яннис; Ву, Юнхуэй (2018). «Естественный синтез TTS путем обработки WaveNet на основе предсказаний Mel-спектрограммы». arXiv : 1712.05884 [ cs.CL ].
- ^ Чунг, Ю-Ань (2018). «Полу-контролируемое обучение для повышения эффективности обработки данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].
- ^ Рен, Йи (2019). «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].
- ^ Jump up to: а б с д Филлипс, Том (17 января 2022 г.). «Фирма NFT, поддерживаемая Троем Бейкером, признает, что без разрешения использовала голосовые линии, взятые из другого сервиса» . Еврогеймер . Архивировано из оригинала 17 января 2022 года . Проверено 17 января 2022 г.
- ^ - F.2d – (2-й круг, 2015). (временно цитируется: Приложение LEXIS 17988, 2015 г. в США; Оговорка (16 Октября 2015))
- ^ «15» . Твиттер . 9 июня 2022 г. . Проверено 9 июня 2022 г.
- ^ Jump up to: а б с «15.ай» . Хакерские новости . 12 июня 2022 года. Архивировано из оригинала 13 июня 2022 года . Проверено 13 июня 2022 г.
- ^ «Заработок, кредит и волонтерство» . МИТ УРОП . Архивировано из оригинала 19 июня 2022 года . Проверено 13 июня 2022 г.
- ^ «15.ai – О» . 15.ай. 20 февраля 2022 года. Архивировано из оригинала 6 октября 2021 года . Проверено 20 февраля 2022 г.
- ^ Jump up to: а б с Бранвен, Гверн (6 марта 2020 г.). « 15.ai», 15, Проект по сохранению пони» . Алдер.нет . Ольха. Архивировано из оригинала 18 марта 2022 года . Проверено 17 июня 2022 г.
- ^ Скотелларо, Шон (14 марта 2020 г.). «Аккуратный «Проект по сохранению пони» с использованием нейронных сетей для создания голосов пони» . Эквестрия Дейли . Архивировано из оригинала 23 июня 2021 года . Проверено 11 июня 2022 г.
- ^ «Проект по сохранению пони (тема 108)» . 4чан . Дезуархив. 20 февраля 2022 г. . Проверено 20 февраля 2022 г.
- ^ Коуэн, Тайлер (12 мая 2022 г.). «Самый недооцененный талант в области искусственного интеллекта?» . Маргинальная революция (блог) . Архивировано из оригинала 19 июня 2022 года . Проверено 16 июня 2022 г.
- ^ Скотелларо, Шон (15 мая 2022 г.). «Полный простой анимационный эпизод – Налоговые льготы (Сумерки)» . Эквестрия Дейли . Архивировано из оригинала 21 мая 2022 года . Проверено 28 мая 2022 г.
- ^ Ужасно тяжелые невзгоды Сумеречной Искорки . 27 апреля 2014 года. Архивировано из оригинала 30 июня 2022 года . Проверено 28 апреля 2022 г.
{{cite book}}
:|website=
игнорируется ( помогите ) - ^ Филлипс, Том (14 января 2022 г.). «Актер озвучивания видеоигр Трой Бейкер теперь продвигает NFT» . Еврогеймер . Архивировано из оригинала 14 января 2022 года . Проверено 14 января 2022 г.
- ^ Маквертор, Майкл (14 января 2022 г.). «Актер озвучки «Последних из нас» хочет продавать «голосовые NFT», что вызывает гнев» . Полигон . Архивировано из оригинала 14 января 2022 года . Проверено 14 января 2022 г.
- ^ «Последний из нас, актер озвучивания, всех бесит NFT Push» . Котаку . 14 января 2022 года. Архивировано из оригинала 14 января 2022 года . Проверено 14 января 2022 г.
- ^ Перслоу, Мэтт (14 января 2022 г.). «Трой Бейкер работает с NFT, но фанатов это не впечатляет» . ИГН . Архивировано из оригинала 14 января 2022 года . Проверено 14 января 2022 г.
- ^ Стрикленд, Дерек (31 января 2022 г.). «Актер «Последних из нас» Трой Бейкер прислушивается к фанатам и отказывается от планов NFT» . Твиктаун . Архивировано из оригинала 31 января 2022 года . Проверено 31 января 2022 г.
- ^ Петерсон, Дэнни (31 января 2022 г.). « Актер «Последних из нас» Трой Бейкер меняет курс в отношении NFT на фоне негативной реакции фанатов» . Мы позаботились об этом . Архивировано из оригинала 14 февраля 2022 года . Проверено 14 февраля 2022 г.
- ^ Питерс, Джей (31 января 2022 г.). «Голос Джоэла из The Last of Us уходит из проекта NFT после протестов» . Грань . Архивировано из оригинала 4 февраля 2022 года . Проверено 4 февраля 2022 г.
- Твиты
- ^ @TroyBakerVA (14 января 2022 г.). «Я сотрудничаю с @VoiceverseNFT, чтобы изучить способы, с помощью которых мы могли бы вместе предоставить новым авторам новые инструменты для создания новых вещей и дать каждому возможность владеть и инвестировать в создаваемую ими интеллектуальную собственность. Нам всем есть что рассказать. Вам можешь ненавидеть. Или ты можешь создать, что это будет?» ( Твит ) – через Твиттер .
- ^ @fifteenai (12 декабря 2021 г.). «Я не заинтересован во включении NFT в какой-либо аспект своей работы. Пожалуйста, перестаньте спрашивать» ( Твит ) – через Твиттер .
- ^ @fifteenai (14 января 2022 г.). «Мне сообщили, что вышеупомянутый синтезатор вокала NFT активно пытается присвоить мою работу в своих целях. Покопавшись в файлах журналов, я обнаружил доказательства того, что некоторые из голосов, за которые они приписывают себе признание, действительно были созданы из моих собственный сайт» ( Tweet ) – через Twitter .
- ^ @VoiceverseNFT (14 января 2022 г.). «Привет, @fifteenai, нам очень жаль. Голос действительно был взят с вашей платформы, которую наша маркетинговая команда использовала, не указав должного значения. Команда Chubbiverse ничего об этом не знает. Мы позаботимся о том, чтобы такое никогда не повторилось» ( твит ) — через Твиттер .
- ^ @fifteenai (14 января 2022 г.). «Иди на хуй» ( Твит ) – через Твиттер .
- ^ @VoiceverseNFT (7 января 2022 г.). «Интересно, кто создал этот голос? ;)» ( Твит ). Архивировано из оригинала 7 января 2022 года — через Twitter .
- ^ @fifteenai (14 января 2022 г.). «Похоже на мошенничество» ( Твит ) – через Твиттер .
- ^ @fifteenai (14 января 2022 г.). «Отдайте должное или удалите этот пост» ( Твит ) – через Твиттер .
- ^ @fifteenai (14 января 2022 г.). «Конечно, не ты :)» ( Твит ) – через Твиттер .
- ^ @fifteenai (14 января 2022 г.). «Иди на хуй» ( Твит ) – через Твиттер .
- ^ @yongyea (14 января 2022 г.). «Схема NFT, которую продвигает Трой Бейкер, уже оказалась в беде после кражи и получения прибыли от чужой работы. Кто мог предвидеть это» ( Твит ) – через Твиттер .
- ^ @BronyStruggle (15 января 2022 г.). «актуальный» ( Твит ) – через Твиттер .
- YouTube (только для количества просмотров и использования 15.ai)
- ^ «ШПАЙ — ПУШИСТЫЙ» . Ютуб . 17 января 2021 года. Архивировано из оригинала 13 июня 2022 года . Проверено 14 июня 2022 г.
- ^ «Шпион — пушистый анимационный фильм» . Ютуб . Архивировано из оригинала 14 июня 2022 года . Проверено 14 июня 2022 г.
- ^ «[SFM] – Признание шпиона – [TF2 15.ai]» . Ютуб . 15 января 2021 года. Архивировано из оригинала 30 июня 2022 года . Проверено 14 июня 2022 г.
- ^ «Среди нас борьба» . Ютуб . 21 сентября 2020 г. . Проверено 15 июля 2022 г.
- ^ «ОБНОВЛЕННАЯ Хронология 2b2t (2010–2020 гг.)» . Ютуб . 14 марта 2020 года. Архивировано из оригинала 1 июня 2022 года . Проверено 14 июня 2022 г.
- ТикТок
- ^ "Она сказала "👹" " . ТикТок . Проверено 15 июля 2022 г.
Внешние ссылки
- Синтез речи
- Программные приложения для глубокого обучения
- Дипфейки
- Споры, связанные с Интернетом
- Выпускники Массачусетского технологического института
- Мой маленький пони: Дружба – это чудо
- Фэндом «Мой маленький пони»
- Интернет-ресурсы, созданные в 2020 году
- Веб-приложения
- 2020 год в интернет-культуре
- Моды и тенденции 2020-х годов
- Работы, вовлеченные в споры о плагиате