Jump to content

Синтез речи

(Перенаправлено из текста в речь )

Синтез речи – это искусственное производство человеческой речи . Компьютерная система, используемая для этой цели, называется синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь ( TTS ) преобразует обычный языковой текст в речь; другие системы преобразуют в речь символические лингвистические представления , такие как фонетическая транскрипция . [1] Обратный процесс — распознавание речи .

Синтезированная речь может быть создана путем объединения фрагментов записанной речи, хранящихся в базе данных . Системы различаются размером хранимых речевых единиц; система, в которой хранятся телефоны или дифоны, обеспечивает самый большой диапазон выходного сигнала, но может не иметь ясности. Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный результат. Альтернативно, синтезатор может включать в себя модель речевого тракта и других характеристик человеческого голоса для создания полностью «синтетического» голосового вывода. [2]

О качестве синтезатора речи судят по его сходству с человеческим голосом и способности четко понимать его. Разборчивая программа преобразования текста в речь позволяет людям с нарушениями зрения или нарушениями чтения слушать написанные слова на домашнем компьютере. С начала 1990-х годов во многие компьютерные операционные системы включены синтезаторы речи.

Обзор типичной системы TTS

Система преобразования текста в речь (или «движок») состоит из двух частей: [3] фронтенд и бэкэнд . Передняя часть имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий такие символы, как цифры и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализацией текста , предварительной обработкой или токенизацией . Затем интерфейсная часть назначает фонетическую транскрипцию каждому слову, а также разделяет и размечает текст на просодические единицы , такие как фразы , предложения и предложения . Процесс присвоения фонетической транскрипции словам называется преобразованием текста в фонему или графемы в фонему . Фонетическая транскрипция и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится внешним интерфейсом. Серверная часть, часто называемая синтезатором , затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты звука, длительности фонем), [4] который затем накладывается на выходную речь.

История [ править ]

Задолго до изобретения электронной обработки сигналов некоторые люди пытались создать машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании « Медных голов » касались Папы Сильвестра II (ум. 1003 г. н.э.), Альберта Великого (1198–1280) и Роджера Бэкона (1214–1294).

В 1779 году немецко - датский учёный Кристиан Готлиб Краценштейн выиграл первую премию на конкурсе, объявленном Российской Императорской Академией наук и художеств, человека за построенные им модели речевого тракта , способные воспроизводить пять долгих гласных звуков (в Международном фонетическом алфавите). обозначения: [aː] , [eː] , [iː] , [oː] и [uː] ). [5] Затем последовала с сильфонным « акустико-механическая речевая машина » приводом Вольфганга фон Кемпелена из Прессбурга , Венгрия, описанная в статье 1791 года. [6] Эта машина добавила модели языка и губ, что позволило ей воспроизводить как согласные, так и гласные. В 1837 году Чарльз Уитстон изготовил «говорящую машину» на основе конструкции фон Кемпелена, а в 1846 году Джозеф Фабер выставил « Эуфонию ». В 1923 году Пейджет возродил дизайн Уитстона. [7]

В 1930-х годах лаборатория Bell Labs разработала вокодер , который автоматически анализировал речь на ее основные тона и резонансы. На основе своей работы над вокодером Гомер Дадли разработал клавиатурный синтезатор голоса под названием The Voder (Voice Demonstrator), который он продемонстрировал на Всемирной выставке в Нью-Йорке в 1939 году .

Доктор Франклин С. Купер и его коллеги из Haskins Laboratories создали устройство воспроизведения паттернов в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время выживает только один. Машина преобразует изображения акустических паттернов речи в виде спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).

Электронные устройства [ править ]

Корпус компьютера и синтезатора речи, использовавшийся Стивеном Хокингом в 1999 году.

Первые компьютерные системы синтеза речи возникли в конце 1950-х годов. Норико Умеда и др. разработал первую систему преобразования текста в речь на общем английском языке в 1968 году в Электротехнической лаборатории в Японии. [8] В 1961 году физик Джон Ларри Келли-младший и его коллега Луи Герстман. [9] использовал компьютер IBM 704 для синтеза речи, что стало одним из самых выдающихся событий в истории Bell Labs . [ нужна ссылка ] Синтезатор диктофона Келли ( вокодер ) воссоздал песню « Daisy Bell » под музыкальное сопровождение Макса Мэтьюза . По совпадению, Артур Кларк гостил у своего друга и коллеги Джона Пирса в лаборатории Bell Labs в Мюррей-Хилл. Кларк был настолько впечатлен демонстрацией, что использовал ее в кульминационной сцене сценария своего романа « 2001: Космическая одиссея» . [10] где компьютер HAL 9000 поет ту же песню, которую астронавт Дэйв Боуман усыпляет. [11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются. [12] [ нужен сторонний источник ]

Линейное предсказательное кодирование (LPC), форма речевого кодирования , начало развиваться с работы Фумитады Итакуры из Нагойского университета и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом . и Манфред Р. Шредер из Bell Labs в 1970-е годы. [13] Позже LPC стал основой для первых микросхем синтезаторов речи, таких как речевые чипы LPC Texas Instruments, используемые в игрушках Speak & Spell с 1978 года.

В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высокой степенью сжатия, находясь в NTT. [14] [15] [16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP. [16] В 1980 году его команда разработала микросхему синтезатора речи на основе LSP. LSP является важной технологией синтеза и кодирования речи, и в 1990-х годах она была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствуя совершенствованию цифровой речевой связи по мобильным каналам и Интернету. [15]

В 1975 году была выпущена MUSA , которая стала одной из первых систем синтеза речи. Он состоял из автономного компьютерного оборудования и специализированного программного обеспечения, позволяющего читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле « а капелла ». [17]

Продолжительность: 15 секунд.
Демо-запись DECtalk с использованием голосов Perfect Paul и Uppity Ursula.

Доминирующими системами в 1980-х и 1990-х годах были система DECtalk , основанная в основном на работах Денниса Клатта из Массачусетского технологического института, и система Bell Labs; [18] последняя была одной из первых многоязычных, независимых от языка систем, широко использовавших методы обработки естественного языка .

Fidelity Voice Chess Challenger (1979), первый говорящий шахматный компьютер
Продолжительность: 28 секунд.
Речевой вывод Fidelity Voice Chess Challenger

Портативная электроника с синтезатором речи начала появляться в 1970-х годах. Одним из первых был портативный калькулятор Telesensory Systems Inc. (TSI) Speech+ для слепых, выпущенный в 1976 году. [19] [20] Другие устройства имели в первую очередь образовательные цели, например игрушка Speak & Spell, выпущенная Texas Instruments в 1978 году. [21] В 1979 году Fidelity выпустила говорящую версию своего электронного шахматного компьютера. [22] Первой видеоигрой, в которой использовался синтез речи, была Stratovox аркадная игра- стрелялка ( известная в Японии как Speak & Rescue ) 1980 года от Sun Electronics . [23] [24] Первой компьютерной игрой с синтезатором речи была Manbiki Shoujo ( «Девушка-воровщица» ), выпущенная в 1980 году для PET 2001 , для которой разработчик игры Хироши Судзуки разработал технику программирования « перекрестия нуля » для создания синтезированной речевой волны. [25] Другой ранний пример, аркадная версия Berzerk , также датируется 1980 годом. компания Milton Bradley выпустила первую многопользовательскую электронную игру с использованием синтеза голоса — Milton В том же году .

В 1976 году компания Computalker Consultants выпустила синтезатор речи CT-1. Разработанный Д. Ллойдом Райсом и Джимом Купером, это был аналоговый синтезатор, предназначенный для работы с микрокомпьютерами, использующими стандарт шины S-100. [26]

Ранние электронные синтезаторы речи звучали как роботы и часто были едва разборчивы. Качество синтезированной речи неуклонно улучшалось, но по состоянию на 2016 г. Вывод современных систем синтеза речи по-прежнему четко отличается от реальной человеческой речи.

Синтезированные голоса обычно звучали мужскими до 1990 года, когда Энн Сирдал из AT&T Bell Laboratories создала женский голос. [27]

Курцвейл предсказал в 2005 году, что, поскольку соотношение цены и качества привело к тому, что синтезаторы речи стали дешевле и доступнее, больше людей выиграют от использования программ преобразования текста в речь. [28]

Синтезаторные технологии [ править ]

Важнейшими качествами системы синтеза речи являются естественность и разборчивость . [29] Естественность характеризует, насколько результат похож на человеческую речь, а разборчивость — это легкость, с которой вывод воспринимается. Идеальный синтезатор речи одновременно естественен и понятен. Системы синтеза речи обычно пытаются максимизировать обе характеристики.

Двумя основными технологиями, генерирующими синтетические речевые сигналы, являются конкатенативный синтез и формантный синтез . У каждой технологии есть сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход используется.

Синтез конкатенации [ править ]

Конкатенативный синтез основан на конкатенации (связывании) сегментов записанной речи. Как правило, конкатенативный синтез дает наиболее естественно звучащую синтезированную речь. Однако различия между естественными изменениями речи и характером автоматизированных методов сегментации сигналов иногда приводят к слышимым сбоям на выходе. Существует три основных подтипа конкатенативного синтеза.

Синтез выбора единиц измерения [ править ]

Синтез выбора единиц измерения использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих элементов: отдельные звуки , дифоны , полуфоны, слоги , морфемы , слова , фразы и предложения . Обычно разделение на сегменты выполняется с помощью специально модифицированного распознавателя речи , установленного в режим «принудительного выравнивания» с последующей ручной коррекцией, с использованием визуальных представлений, таких как форма волны и спектрограмма . [30] Затем создается индекс основная единиц в базе данных речи на основе сегментации и акустических параметров, таких как частота ( высота ), длительность, положение в слоге и соседние звуки. Во время выполнения желаемое целевое высказывание создается путем определения лучшей цепочки возможных единиц из базы данных (выбор единицы). Этот процесс обычно достигается с помощью специально взвешенного дерева решений .

применяется лишь небольшой объем цифровой обработки сигналов Выбор единиц измерения обеспечивает максимальную естественность, поскольку к записанной речи (DSP). DSP часто делает звук записанной речи менее естественным, хотя некоторые системы используют небольшую обработку сигнала в точке конкатенации для сглаживания формы сигнала. Результаты лучших систем выбора единиц часто неотличимы от реальных человеческих голосов, особенно в контекстах, для которых была настроена система TTS. Однако максимальная естественность обычно требует, чтобы базы данных речевых данных с выбором единиц были очень большими, в некоторых системах до гигабайт записанных данных, что соответствует десяткам часов речи. [31] Кроме того, известно, что алгоритмы выбора единиц выбирают сегменты из того места, что приводит к далеко не идеальному синтезу (например, второстепенные слова становятся неясными), даже если в базе данных существует лучший выбор. [32] Недавно исследователи предложили различные автоматизированные методы обнаружения неестественных сегментов в системах синтеза речи с выбором единицы измерения. [33]

Дифонный синтез [ править ]

Синтез дифонов использует минимальную речевую базу данных, содержащую все дифоны (переходы между звуками), встречающиеся в языке. Количество дифонов зависит от фонотактики языка: например, в испанском языке около 800 дифонов, а в немецком - около 2500. При синтезе дифонов в речевой базе данных содержится только один экземпляр каждого дифона. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью методов цифровой обработки сигналов, таких как линейное кодирование с предсказанием , PSOLA. [34] или МБРОЛА . [35] или более поздние методы, такие как изменение высоты тона в исходной области с использованием дискретного косинусного преобразования . [36] Синтез дифонов страдает от звуковых сбоев конкатенативного синтеза и роботизированного характера формантного синтеза и имеет мало преимуществ любого подхода, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях сокращается. [ нужна ссылка ] хотя его продолжают использовать в исследованиях, поскольку существует ряд свободно доступных программных реализаций. Ранним примером синтеза дифонов является обучающий робот Leachim , изобретенный Майклом Дж. Фриманом . [37] Лихим содержал информацию об учебной программе класса и определенную биографическую информацию об учениках, для обучения которых он был запрограммирован. [38] Оно было протестировано в классе четвертого класса в Бронксе, Нью-Йорк . [39] [40]

Специализированный синтез [ править ]

Специализированный для предметной области синтез объединяет заранее записанные слова и фразы для создания законченных высказываний. Он используется в приложениях, где разнообразие текстов, выводимых системой, ограничено определенным доменом, например, объявления о расписании общественного транспорта или сводки погоды. [41] Эту технологию очень просто реализовать, и она уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, поскольку разнообразие типов предложений ограничено, и они точно соответствуют просодии и интонации оригинальных записей. [ нужна ссылка ]

Поскольку эти системы ограничены количеством слов и фраз в своих базах данных, они не являются универсальными и могут синтезировать только те комбинации слов и фраз, которые были заранее запрограммированы. Однако смешение слов в естественном разговорном языке все равно может вызвать проблемы, если не принять во внимание множество вариаций. Например, в неротических диалектах английского языка буква «r» в таких словах, как «clear» /ˈklɪə/, обычно произносится только тогда, когда в следующем слове в качестве первой буквы имеется гласная (например, «clear out» реализуется как /ˌklɪəɹˈʌʊt/). ). Аналогично во французском языке многие конечные согласные перестают молчать, если за ними следует слово, начинающееся с гласной — эффект, называемый связью . Это чередование не может быть воспроизведено с помощью простой системы конкатенации слов, которая потребует дополнительной сложности, чтобы быть контекстно-зависимой .

Формантный синтез [ править ]

Формантный синтез не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с использованием аддитивного синтеза и акустической модели ( синтез физического моделирования ). [42] Такие параметры, как основная частота , тембр голоса и уровни шума , изменяются со временем, создавая форму волны искусственной речи. Этот метод иногда называют синтезом на основе правил ; однако многие конкатенативные системы также имеют компоненты, основанные на правилах.Многие системы, основанные на технологии формантного синтеза, генерируют искусственную, роботизированную речь, которую никогда нельзя принять за человеческую речь. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы формантного синтеза имеют преимущества перед конкатенативными системами. Формантно-синтезированная речь может быть надежно разборчивой даже на очень высоких скоростях, избегая акустических сбоев, которые обычно мешают конкатенативным системам. Высокоскоростная синтезированная речь используется слабовидящими для быстрой навигации по компьютеру с помощью программы чтения с экрана . Формантные синтезаторы обычно представляют собой программы меньшего размера, чем конкатенативные системы, поскольку у них нет базы данных образцов речи. Поэтому их можно использовать во встроенных системах. , где память и мощность микропроцессора особенно ограничены . Поскольку системы на основе формант полностью контролируют все аспекты выходной речи, можно выводить самые разнообразные просодии и интонации , передавая не только вопросы и утверждения, но и различные эмоции и тона голоса.

Примеры высокоточного управления интонацией при синтезе формант не в режиме реального времени включают работу, проделанную в конце 1970-х годов для Texas Instruments игрушки Speak & Spell и в начале 1980-х годов Sega . для игровых автоматов [43] и во многих Atari, Inc. аркадных играх [44] с использованием чипов TMS5220 LPC . Создание правильной интонации для этих проектов было кропотливым процессом, и результаты еще не были подтверждены интерфейсами преобразования текста в речь в реальном времени. [45]

Артикуляционный синтез [ править ]

человека Артикуляционный синтез состоит из вычислительных методов синтеза речи на основе моделей речевого тракта и происходящих в нем артикуляционных процессов. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в лабораториях Хаскинса в середине 1970-х годов Филипом Рубином , Томом Баером и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами.

До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является система на базе NeXT, первоначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где была проведена большая часть первоначальных исследований. После упадка различных воплощений NeXT (начатой ​​Стивом Джобсом в конце 1980-х годов и объединенной с Apple Computer в 1997 году) программное обеспечение Trillium было опубликовано под лицензией GNU General Public License, а работа продолжалась как gnuspech . Система, впервые представленная на рынке в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или аналога линии передачи орального и носового трактов человека, управляемого «моделью отличительной области» Карре.

Более поздние синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых связок, голосовой аэродинамики и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях и, таким образом, представляют собой полноценные системы моделирования речи на основе физики. [46] [47]

Синтез на основе HMM [ править ]

Синтез на основе HMM — это метод синтеза, основанный на скрытых марковских моделях , также называемый статистическим параметрическим синтезом. В этой системе частотный спектр ( голосовой тракт ), основная частота (источник голоса) и длительность ( просодия ) речи моделируются одновременно с помощью HMM. Речевые сигналы генерируются из самих HMM на основе критерия максимального правдоподобия . [48]

Синусоидальный синтез [ править ]

Синусоидальный синтез — это метод синтеза речи путем замены формант (основных полос энергии) чистыми тонами свиста. [49]

глубокого обучения на основе Синтез

Продолжительность: 6 секунд.
Пример синтеза речи с использованием нейронного вокодера HiFi-GAN

Синтез речи с глубоким обучением использует глубокие нейронные сети (DNN) для создания искусственной речи из текста (текст в речь) или спектра (вокодер).Глубокие нейронные сети обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных с ней меток и/или входного текста.

15.ai использует модель с несколькими динамиками — сотни голосов обучаются одновременно, а не последовательно, что сокращает необходимое время обучения и позволяет модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подвергающихся воздействию такого эмоционального контекста. [50] Модель глубокого обучения , используемая приложением, является недетерминированной : каждый раз, когда речь генерируется из одной и той же текстовой строки, интонация речи будет немного отличаться. Приложение также поддерживает ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный в рамках этого проекта), предложения или фразы, передающей эмоции дубля, которые служат руководством для модели во время вывода. [51] [52]

ElevenLabs в первую очередь известна своим браузерным программным обеспечением для преобразования текста в речь с помощью искусственного интеллекта Speech Synthesis, которое может воспроизводить реалистичную речь путем синтеза голосовых эмоций и интонации . [53] Компания заявляет, что ее программное обеспечение создано для корректировки интонации и темпа речи в зависимости от контекста используемого языкового ввода. [54] Он использует передовые алгоритмы для анализа контекстуальных аспектов текста с целью обнаружения таких эмоций, как гнев, печаль, счастье или тревога, что позволяет системе понимать настроения пользователя. [55] в результате получается более реалистичная и человечная интонация. Другие функции включают в себя генерацию многоязычной речи и создание длинного контента с помощью контекстно-зависимых голосов. [56] [57]

Синтезаторы речи на основе DNN приближаются к естественности человеческого голоса.Примерами недостатков метода являются низкая устойчивость при недостаточности данных, отсутствие управляемости и низкая производительность в авторегрессионных моделях.

Для тональных языков, таких как китайский или тайваньский язык, требуются разные уровни тонального сандхи, и иногда выходные данные синтезатора речи могут приводить к ошибкам тонального сандхи. [58]

Аудио дипфейки [ править ]

Аудио -дипфейк (также известный как клонирование голоса или дипфейк-аудио) — это продукт искусственного интеллекта. [59] используется для создания убедительных речевых предложений, которые звучат так, как будто конкретные люди говорят то, чего они не говорили. [60] [61] [62] Эта технология изначально разрабатывалась для различных приложений по улучшению жизни человека. Например, его можно использовать для создания аудиокниг, [63] а также помочь людям, потерявшим голос (из-за болезни горла или других медицинских проблем), вернуть его. [64] [65] В коммерческом плане это открыло двери нескольким возможностям. Эта технология также может создавать более персонализированных цифровых помощников и естественно звучащие услуги преобразования текста в речь, а также услуги по переводу речи .

В 2023 году репортер VICE банка Джозеф Кокс опубликовал данные о том, что он записал пять минут своего разговора, а затем использовал инструмент, разработанный ElevenLabs, для создания голосовых дипфейков, которые обошли систему голосовой аутентификации . [66]

Проблемы [ править ]

Проблемы нормализацией с текста

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов , цифр и сокращений , которые требуют расширения в фонетическое представление. В английском языке существует множество вариантов написания, которые произносятся по-разному в зависимости от контекста. Например, фраза «Мой последний проект — научиться лучше выражать свой голос» содержит два варианта произношения слова «проект».

Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления входных текстов, поскольку процессы для этого ненадежны, плохо поняты и вычислительно неэффективны. В результате различные эвристические используются для угадывания правильного способа устранения неоднозначности омографов методы , такие как проверка соседних слов и использование статистики частоты встречаемости.

Недавно системы TTS начали использовать HMM (обсуждаемые выше ) для генерации « частей речи », чтобы помочь устранить неоднозначность омографов. Этот метод весьма успешен во многих случаях, например, следует ли произносить слово «read» как «red», подразумевающее прошедшее время, или как «reed», подразумевающее настоящее время. Типичный уровень ошибок при таком использовании HMM обычно составляет менее пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к необходимым учебным корпусам для этих языков часто затруднен.

Решение о том, как преобразовывать числа, — еще одна проблема, которую приходится решать системам TTS. Преобразовать число в слова (по крайней мере, на английском языке) — это простая задача программирования, например, «1325» в «одна тысяча триста двадцать пять». Однако числа встречаются во многих разных контекстах; «1325» также можно читать как «один три два пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может определить, как расширить число, на основе окружающих слов, цифр и знаков препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен. [67] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», а «Глава VIII» читается как «Глава восьмая».

Точно так же сокращения могут быть неоднозначными. Например, аббревиатуру «in» для «дюймов» следует отличать от слова «in» и адреса «12 St John St.» использует одну и ту же аббревиатуру как для «Святого», так и для «Улицы». Системы TTS с интеллектуальным интерфейсом могут делать обоснованные предположения о неоднозначных сокращениях, в то время как другие дают один и тот же результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, например, « Улисс С. Грант » отображается как «Улисс Южный Грант». .

текста Проблемы преобразования в фонему

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его написания . Этот процесс часто называют преобразованием текста в фонему или графемы в фонему ( фонема — это термин, используемый лингвистами для описания отличительных звуков в речи). язык ) . большой словарь, содержащий все слова языка и их правильное произношение Самый простой подход к преобразованию текста в фонему - это подход на основе словаря, при котором программа хранит . Определение правильного произношения каждого слова заключается в поиске каждого слова в словаре и замене написания на произношение, указанное в словаре. Другой подход основан на правилах, при котором правила произношения применяются к словам, чтобы определить их произношение на основе их написания. Это похоже на «озвучивание», или синтетическую фонетику , подход к обучению чтению.

Каждый подход имеет преимущества и недостатки. Подход на основе словаря является быстрым и точным, но полностью терпит неудачу, если ему дано слово, которого нет в его словаре. По мере роста размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход, основанный на правилах, работает с любыми входными данными, но сложность правил существенно возрастает, поскольку система учитывает нерегулярное написание и произношение. (Учтите, что слово «of» очень распространено в английском языке, но это единственное слово, в котором буква «f» произносится как [v] .) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания весьма успешно. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для тех немногих слов, таких как иностранные имена и заимствованные слова, произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют крайне нерегулярную систему правописания, чаще полагаются на словари и используют методы, основанные на правилах, только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия общепринятых объективных критериев оценки. Разные организации часто используют разные речевые данные. Качество систем синтеза речи также зависит от качества технологии производства (которая может включать аналоговую или цифровую запись) и от средств, используемых для воспроизведения речи. Поэтому оценка систем синтеза речи часто затрудняется различиями между методами производства и средствами воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных. [68]

Просодика и эмоциональное содержание [ править ]

, опубликованное в журнале Speech Communication Исследование, проведенное Эми Драготой и ее коллегами из Портсмутского университета ( Великобритания) , показало, что слушатели голосовых записей могут с большей вероятностью определить, улыбается ли говорящий. [69] [70] [71] Было высказано предположение, что идентификация голосовых особенностей, сигнализирующих об эмоциональном содержании, может быть использована для придания синтезированной речи более естественного звучания. Одним из связанных с этим вопросов является изменение тонального контура предложения в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным. Один из методов изменения высоты звука. [72] использует дискретное косинусное преобразование в исходной области ( остаток линейного предсказания ). Такие способы изменения основного тона синхронного тона требуют априорной маркировки основного тона базы данных синтезированной речи с использованием таких методов, как извлечение эпохи с использованием индекса динамического взрыва , применяемого к интегрированному остатку линейного предсказания вокализованных областей речи. [73]

Выделенное оборудование [ править ]

Комплект синтеза речи производства Bell System.

Аппаратно-программные комплексы [ править ]

Популярные системы, предлагающие синтез речи в качестве встроенной возможности.

Техасские инструменты [ править ]

Продолжительность: 4 секунды.
Демонстрация речи TI-99/4A с использованием встроенного словаря

В начале 1980-х годов компания TI была известна как пионер в области синтеза речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Синтезаторы речи предлагались бесплатно при покупке некоторого количества картриджей и использовались во многих видеоиграх, написанных TI (игры с речью, предлагаемые во время этой акции, включали Alpiner и Parsec ). Синтезатор использует вариант кодирования с линейным предсказанием и имеет небольшой встроенный словарь. Первоначальная цель заключалась в выпуске небольших картриджей, которые подключались непосредственно к синтезатору, что позволило бы расширить встроенный словарь устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Маттел [ править ]

В 1982 году игровая консоль Mattel Voice Synthesis . Intellivision предлагала модуль Intellivoice Он включал в себя микросхему синтезатора речи SP0256 Narrator на съемном картридже. У Рассказчика было 2 КБ постоянной памяти (ПЗУ), которая использовалась для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку чип Orator также мог принимать речевые данные из внешней памяти, любые дополнительные слова или фразы могли храниться внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра, предназначенных для изменения поведения синтетической модели речевого тракта чипа, а не из простых оцифрованных выборок.

СЭМ [ править ]

Продолжительность: 18 секунд.
Демонстрация ЗРК на C64

, также выпущенная в 1982 году, Software Automatic Mouth была первой коммерческой полностью программной программой синтеза голоса. Позже он был использован в качестве основы для Macintalk . Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный звук компьютера. вывод (с добавлением большого количества искажений), если карты не было. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключало запросы на прерывание и отключало чип ANTIC во время вывода голоса. Звуковой сигнал представляет собой сильно искаженную речь, когда экран включен. В Commodore 64 использовался встроенный в 64 аудиочип SID.

Атари [ править ]

Продолжительность: 12 секунд.
Демонстрация синтеза речи Atari ST

Можно утверждать, что первой речевой системой, интегрированной в операционную систему, были неизданные примерно в 1983 году компьютеры Atari 1400XL/1450XL . В них использовался чип Votrax SC01 и конечный автомат для синтеза речи World English Spelling. [75]

Компьютеры Atari ST продавались с файлом «stspeech.tos» на дискете.

Яблоко [ править ]

Продолжительность: 15 секунд.
Демонстрация MacinTalk 1
Продолжительность: 9 секунд.
Демо MacinTalk 2 с голосами мистера Хьюза и Марвина

Первой речевой системой, интегрированной в операционную систему , которая поставлялась в больших количествах, была Apple Computer от MacInTalk . Программное обеспечение было лицензировано у сторонних разработчиков Джозефа Каца и Марка Бартона (позже SoftVoice, Inc.) и было представлено во время представления компьютера Macintosh в 1984 году. Для этой январской демо-версии требовалось 512 килобайт оперативной памяти. В результате он не мог работать со 128 килобайтами оперативной памяти, с которыми фактически поставлялся первый Mac. [76] Итак, демонстрация была проведена на прототипе Mac 512k, хотя присутствующим об этом не сообщили, и демонстрация синтеза вызвала значительный ажиотаж среди Macintosh. В начале 1990-х годов Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили в себя более качественную выборку голоса. Apple также внедрила распознавание речи в свои системы, что обеспечило гибкий набор команд. Совсем недавно Apple добавила голоса на основе сэмплов. Начав с любопытства, речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. VoiceOver впервые был представлен в 2005 году в Mac OS X Tiger (10.4). В версии 10.4 (Tiger) и первых выпусках 10.5 ( Leopard ) в Mac OS X была только одна стандартная голосовая доставка. Начиная с версии 10.6 ( Snow Leopard ), пользователь может выбирать несколько голосов из широкого списка. Голоса VoiceOver обеспечивают реалистичное дыхание между предложениями, а также улучшенную четкость при высокой скорости чтения по сравнению с PlainTalk. Mac OS X также включает в себя скажем , приложение на основе командной строки , которое преобразует текст в звуковую речь. Стандартные дополнения AppleScript включают глагол «сказать», который позволяет сценарию использовать любой из установленных голосов и контролировать высоту звука, скорость речи и модуляцию произнесенного текста.

Амазонка [ править ]

Используется в Alexa и как программное обеспечение как услуга в AWS. [77] (с 2017 г.).

АмигаОС [ править ]

Продолжительность: 12 секунд.
Пример синтеза речи с включенной утилитой Say в Workbench 1.3

Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS , представленная в 1985 году. Синтез голоса был лицензирован Commodore International у компании SoftVoice, Inc., которая также разработала оригинальную MacinTalk систему преобразования текста в речь . В нем была реализована полная система голосовой эмуляции американского английского с мужскими и женскими голосами и маркерами индикатора «стресса», что стало возможным Amiga аудиочипсету . благодаря [78] Система синтеза была разделена на библиотеку переводчика, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, реализовавшее формантную модель генерации речи. AmigaOS также имела высокоуровневый « Speak Handler », который позволял управлять -линии пользователей для перенаправления вывода текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение синтеза практически не изменилось с момента первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи, начиная с AmigaOS 2.1.

Несмотря на ограничение фонем американского английского языка, была разработана неофициальная версия с многоязычным синтезатором речи. При этом использовалась расширенная версия библиотеки переводчика, которая могла переводить несколько языков с учетом набора правил для каждого языка. [79]

Microsoft Windows [ править ]

Современные настольные системы Windows могут использовать SAPI 4 и SAPI 5 компоненты для поддержки синтеза и распознавания речи . SAPI 4.0 был доступен как дополнительное дополнение для Windows 95 и Windows 98 . В Windows 2000 добавлен экранный диктор — утилита преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение текста вслух с указанного веб-сайта, учетной записи электронной почты, текстового документа, Буфер обмена Windows, набор текста с клавиатуры пользователя и т. д. Не все программы могут использовать синтез речи напрямую. [80] Некоторые программы могут использовать плагины, расширения или надстройки для чтения текста вслух. Доступны сторонние программы, которые могут читать текст из системного буфера обмена.

Microsoft Speech Server — это серверный пакет для синтеза и распознавания голоса. Он предназначен для использования в сети с веб-приложениями и центрами обработки вызовов .

Вотракс [ править ]

Продолжительность: 14 секунд.
Синтезатор речи Votrax Type 'N Talk (1980)

С 1971 по 1996 год Votrax произвела ряд коммерческих компонентов синтезаторов речи. Синтезатор Votrax был включен в читальную машину Kurzweil первого поколения для слепых.

Системы преобразования текста в речь [ править ]

Преобразование текста в речь (TTS) означает способность компьютеров читать текст вслух. Механизм TTS преобразует письменный текст в фонематическое представление, а затем преобразует фонематическое представление в сигналы, которые можно вывести в виде звука. Движки TTS с разными языками, диалектами и специализированными словарями доступны через сторонних издателей. [81]

Андроид [ править ]

1.6 В версии Android добавлена ​​поддержка синтеза речи (TTS). [82]

Интернет [ править ]

В настоящее время существует ряд приложений , плагинов и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страницы из веб-браузера или панели инструментов Google . Некоторые специализированные программы могут озвучивать RSS-каналы . С одной стороны, онлайн-рассказчики RSS упрощают доставку информации, позволяя пользователям слушать свои любимые источники новостей и конвертировать их в подкасты . С другой стороны, онлайновые программы чтения RSS доступны практически на любом персональном компьютере, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью приемника подкастов , и слушать их во время прогулки, пробежки или по дороге на работу.

Растущей областью TTS на базе Интернета являются вспомогательные веб-технологии , например, «Browseloud» от британской компании и Readspeaker . Он может предоставить функциональность TTS любому человеку (по соображениям доступности, удобства, развлечения или информации), имеющему доступ к веб-браузеру. Некоммерческий проект Pediaphon был создан в 2006 году для предоставления веб-интерфейса TTS, аналогичного Википедии. [83]

Другая работа ведется в контексте W3C через группу W3C Audio Incubator Group с участием BBC и Google Inc.

Открытый исходный код [ править ]

некоторые системы программного обеспечения с открытым исходным кодом Доступны , такие как:

Другие [ править ]

  • После коммерческого провала аппаратного Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх. [ нужна ссылка ] . Более ранние системы Atari, такие как Atari 5200 (Baseball) и Atari 2600 ( Quadrun и Open Sesame), также имели игры, использующие программный синтез. [ нужна ссылка ]
  • Некоторые устройства для чтения электронных книг , такие как Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebook Neo.
  • BBC Micro оснащена микросхемой синтеза речи Texas Instruments TMS5220.
  • Некоторые модели домашних компьютеров Texas Instruments, выпущенные в 1979 и 1981 годах ( Texas Instruments TI-99/4 и TI-99/4A ), были способны синтезировать текст в фонему или воспроизводить полные слова и фразы (текст в словарь), используя очень популярное периферийное устройство синтезатора речи. TI использовала собственный кодек для встраивания полных произнесенных фраз в приложения, в первую очередь в видеоигры. [85]
  • IBM OS /2 Warp 4 включала VoiceType, предшественника IBM ViaVoice .
  • Устройства GPS- навигации производства Garmin , Magellan , TomTom и других используют синтез речи для автомобильной навигации.
  • В 1999 году компания Yamaha выпустила музыкальный синтезатор Yamaha FS1R, который имел возможность формантного синтеза. Последовательности, содержащие до 512 отдельных гласных и согласных формантов, можно было сохранять и воспроизводить, что позволяло синтезировать короткие голосовые фразы.

Цифровые аналоги [ править ]

На конференции по нейронным системам обработки информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения от проверки говорящего к синтезу текста в речь с несколькими динамиками», которая переносит обучение от проверки говорящего для достижения синтеза речи, что можно заставить звучать почти так же, как кто-либо, используя образец речи продолжительностью всего 5 секунд. [86]

Также исследователи из Baidu Research представили систему клонирования голоса с аналогичными целями на конференции NeurIPS 2018 года. [87] хотя результат весьма неубедителен.

К 2019 году цифровые звуковые копии попали в руки преступников: исследователям Symantec известны три случая, когда технология цифровых звуковых аналогов использовалась в преступных целях. [88] [89]

Это увеличивает нагрузку на ситуацию с дезинформацией в сочетании с фактами, которые

В марте 2020 года было выпущено бесплатное веб-приложение 15.ai , которое генерирует высококачественные голоса множества вымышленных персонажей из различных медиа-источников. [92] Первоначальными персонажами были ГЛаДОС из Portal , Сумеречная Искорка и Флаттершай из сериала My Little Pony: Friendship Is Magic , а также Десятый Доктор из Доктора Кто .

Языки разметки синтеза речи [ править ]

ряд языков разметки , создан Для преобразования текста в речь в формате, совместимом с XML . Самым последним из них является язык разметки синтеза речи (SSML), который стал рекомендацией W3C в 2004 году. Более старые языки разметки синтеза речи включают язык разметки речи Java ( JSML ) и SABLE . Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения. [ нужна ссылка ]

Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML , например, включает в себя теги, связанные с распознаванием речи, управлением диалогами и тональным набором номера, в дополнение к разметке преобразования текста в речь. [ нужна ссылка ]

Приложения [ править ]

Синтез речи уже давно стал жизненно важным инструментом ассистивных технологий, и его применение в этой области значимо и широко распространено. Это позволяет устранить экологические барьеры для людей с широким спектром инвалидности. Самым долгим применением программ чтения с экрана для людей с нарушениями зрения является использование систем преобразования текста в речь в настоящее время широко используется людьми с дислексией и другими нарушениями чтения , а также детьми, не умеющими читать. [93] Их также часто используют для помощи людям с серьезными нарушениями речи , обычно с помощью специального средства голосовой связи . [94] Становится доступной работа по персонализации синтетического голоса, чтобы он лучше соответствовал личности человека или историческому голосу. [95] Известным применением синтеза речи была читающая машина Kurzweil для слепых , которая включала программное обеспечение для преобразования текста в фонетику, основанное на разработках Haskins Laboratories , и синтезатор черного ящика, созданный Votrax . [96]

Стивен Хокинг был одним из самых известных людей, использовавших речевой компьютер для общения.

Методы синтеза речи также используются в развлекательных программах, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета программных приложений на основе своего программного обеспечения для синтеза речи FineSpeech, специально предназначенного для клиентов в индустрии развлечений и способного генерировать повествование и строки диалога в соответствии с требованиями пользователя. [97] Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, позволяющий пользователям создавать фразы из голосов персонажей японского аниме- сериала Code Geass: Lelouch of the Rebellion R2 . [98] 15.ai часто использовался для создания контента в различных фандомах , включая My Little Pony: Friendship Is Magic фандом , фандом Team Fortress 2 , фандом Portal и фандом SpongeBob SquarePants . [ нужна ссылка ]

Преобразование текста в речь для людей с ограниченными возможностями и средства коммуникации с нарушениями речи стали широко доступны. Преобразование текста в речь также находит новые применения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка . Некоторые пользователи также создали виртуальных помощников с искусственным интеллектом, используя 15.ai и внешнее программное обеспечение для голосового управления. [99] [100]

Преобразование текста в речь также используется при овладении вторым языком. Например, Voki — это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать свои собственные говорящие аватары, используя разные акценты. Их можно отправлять по электронной почте, размещать на веб-сайтах или публиковать в социальных сетях.

Создатели контента использовали инструменты клонирования голоса, чтобы воссоздать свои голоса для подкастов. [101] [102] повествование, [103] и комедийные шоу. [104] [105] [106] Издатели и авторы также использовали такое программное обеспечение для озвучивания аудиокниг и информационных бюллетеней. [107] [108] Еще одна область применения — создание ИИ-видео с говорящими головами. Веб-приложения и видеоредакторы, такие как Elai.io или Synthesia, позволяют пользователям создавать видеоконтент с участием аватаров искусственного интеллекта, которые заставляют говорить с использованием технологии преобразования текста в речь. [109] [110]

Синтез речи является ценным вычислительным средством для анализа и оценки речевых нарушений. Синтезатор качества голоса , разработанный Хорхе К. Лусеро и др. в Университете Бразилиа моделирует физику фонации и включает модели дрожания и тремора голосовых частот, шума воздушного потока и асимметрии гортани. [46] Синтезатор использовался для имитации тембра дисфонических динамиков с контролируемыми уровнями шероховатости, хриплости и напряжения. [47]

Певческий синтез [ править ]

В 2010-х годах технология синтеза пения воспользовалась последними достижениями в области искусственного интеллекта — глубокого прослушивания и машинного обучения, чтобы лучше передавать нюансы человеческого голоса. Новые библиотеки семплов высокого качества в сочетании с рабочими станциями цифрового аудио упрощают редактирование до мельчайших деталей, например изменение форматов, настройку вибрато и настройку гласных и согласных. Доступны библиотеки примеров для разных языков и различных акцентов. Благодаря сегодняшним достижениям в области синтеза вокала артисты иногда используют библиотеки сэмплов вместо бэк-вокалистов. [111]

См. также [ править ]

Ссылки [ править ]

  1. ^ Аллен, Джонатан; Ханникатт, М. Шарон; Клатт, Деннис (1987). От текста к речи: система MITalk . Издательство Кембриджского университета. ISBN  978-0-521-30641-6 .
  2. ^ Рубин, П.; Баер, Т.; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Бибкод : 1981ASAJ...70..321R . дои : 10.1121/1.386780 .
  3. ^ ван Сантен, Ян П.Х.; Спроат, Ричард В.; Олив, Джозеф П.; Хиршберг, Джулия (1997). Прогресс в синтезе речи . Спрингер. ISBN  978-0-387-94701-3 .
  4. ^ Ван Сантен, Дж. (апрель 1994 г.). «Назначение сегментной длительности при синтезе речи». Компьютерная речь и язык . 8 (2): 95–128. дои : 10.1006/csla.1994.1005 .
  5. История и развитие синтеза речи , Хельсинкский технологический университет, дата обращения 4 ноября 2006 г.
  6. ^ Механизм человеческой речи с описанием ее говорящей машины , Дж. Б. Деген, Вена). (на немецком языке)
  7. ^ Маттингли, Игнатиус Г. (1974). Себеок, Томас А. (ред.). «Синтез речи для фонетических и фонологических моделей» (PDF) . Современные тенденции в лингвистике . 12 . Мутон, Гаага: 2451–2487 гг. Архивировано из оригинала (PDF) 12 мая 2013 г. Проверено 13 декабря 2011 г.
  8. ^ Клатт, Д. (1987). «Обзор преобразования текста в речь для английского языка». Журнал Акустического общества Америки . 82 (3): 737–93. Бибкод : 1987ASAJ...82..737K . дои : 10.1121/1.395275 . ПМИД   2958525 .
  9. ^ Ламберт, Брюс (21 марта 1992 г.). «Луи Герстман, 61 год, специалист по нарушениям и процессам речи» . Нью-Йорк Таймс .
  10. ^ «Биография Артура Кларка» . Архивировано из оригинала 11 декабря 1997 года . Проверено 5 декабря 2017 г.
  11. ^ «Где впервые заговорил «HAL» (веб-сайт Bell Labs Speech Synthesis)» . Лаборатории Белла. Архивировано из оригинала 7 апреля 2000 г. Проверено 17 февраля 2010 г.
  12. Серия антропоморфных говорящих роботов Waseda-Talker. Архивировано 4 марта 2016 г. в Wayback Machine.
  13. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN   1932-8346 . Архивировано (PDF) из оригинала 9 октября 2022 г.
  14. ^ Чжэн, Ф.; Песня, З.; Ли, Л.; Ю, В. (1998). «Мера расстояния для пар линейных спектров, применяемая к распознаванию речи» (PDF) . Материалы 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6. Архивировано (PDF) из оригинала 9 октября 2022 г.
  15. Перейти обратно: Перейти обратно: а б «Список вех IEEE» . ИИЭЭ . Проверено 15 июля 2019 г.
  16. Перейти обратно: Перейти обратно: а б «Устная история Фумитада Итакура» . Сеть глобальной истории IEEE. 20 мая 2009 года . Проверено 21 июля 2009 г.
  17. ^ Билли, Роберто; Канавесио, Франко; Чарамелла, Альберто ; Неббия, Лучано (1 ноября 1995 г.). «Интерактивная голосовая технология в действии: опыт CSELT». Речевое общение . 17 (3): 263–271. дои : 10.1016/0167-6393(95)00030-R .
  18. ^ Спроат, Ричард В. (1997). Многоязычный синтез речи в речь: подход Bell Labs . Спрингер. ISBN  978-0-7923-8027-6 .
  19. ^ [TSI Speech+ и другие говорящие калькуляторы]
  20. ^ Геварьяху, Джонатан, [ «Руководство по интегральной схеме синтезатора речи LSI TSI S14001A»] [ мертвая ссылка ]
  21. ^ Бреслоу и др. США 4326710   : «Говорящая электронная игра», 27 апреля 1982 г.
  22. ^ Голосовой шахматный претендент
  23. ^ Наиболее важные изменения в играх. Архивировано 15 июня 2011 г. на Wayback Machine , GamesRadar.
  24. ^ Адлум, Эдди (ноябрь 1985 г.). «Годы повтора: размышления Эдди Адлума» . Повторное воспроизведение . Том. 11, нет. 2. С. 134–175 (160–3).
  25. ^ Щепаньяк, Джон (2014). Нерассказанная история японских разработчиков игр . Том. 1. Пистолет-пулемет Щепаньяк. стр. 544–615. ISBN  978-0992926007 .
  26. ^ «Краткая история компьютера» . Смитсоновский проект истории синтеза речи .
  27. ^ КадеМец (20 августа 2020 г.). «Энн Сирдал, которая помогла компьютерам обрести женский голос, умерла в возрасте 74 лет» . Нью-Йорк Таймс . Проверено 23 августа 2020 г.
  28. ^ Курцвейл, Раймонд (2005). Сингулярность уже близко . Книги о пингвинах . ISBN  978-0-14-303788-0 .
  29. ^ Тейлор, Пол (2009). Синтез текста в речь . Кембридж, Великобритания: Издательство Кембриджского университета. п. 3 . ISBN  9780521899277 .
  30. ^ Алан В. Блэк , Идеальный синтез для всех людей в любое время. Семинар IEEE TTS 2002.
  31. ^ Джон Коминек и Алан В. Блэк . (2003). Базы данных CMU ARCTIC для синтеза речи. КМУ-ЛТИ-03-177. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллон.
  32. ^ Джулия Чжан. Генерация языка и синтез речи в диалогах для изучения языка , магистерская диссертация, раздел 5.6 на стр. 54.
  33. ^ Уильям Ян Ван и Каллиррой Джорджила. (2011). Автоматическое обнаружение неестественных сегментов на уровне слов при синтезе речи с выбором единицы измерения , IEEE ASRU 2011.
  34. ^ «Синхронное перекрытие и добавление высоты тона (PSOLA)» . Архивировано из оригинала 22 февраля 2007 года . Проверено 28 мая 2008 г.
  35. ^ Т. Дютуа, В. Пагель, Н. Пьерре, Ф. Батай, О. ван дер Врекен. Проект MBROLA: На пути к созданию набора высококачественных синтезаторов речи для использования в некоммерческих целях . Слушания ICSLP , 1996.
  36. ^ Муралишанкар, Р; Рамакришнан, АГ; Пратибха, П. (2004). «Модификация высоты звука с использованием DCT в исходной области». Речевое общение . 42 (2): 143–154. doi : 10.1016/j.specom.2003.05.001 .
  37. ^ «Образование: Чудо Бронкса» . Время . 1 апреля 1974 г. ISSN   0040-781X . Проверено 28 мая 2019 г.
  38. ^ «1960 — Робот Руди — Майкл Фримен (американец)» . www.cyberneticzoo.com . 13 сентября 2010 г. Проверено 23 мая 2019 г.
  39. ^ Журнал Нью-Йорк . Нью-Йорк Медиа, ООО. 1979-07-30.
  40. ^ Футурист . Мировое общество будущего. 1978. стр. 359, 360, 361.
  41. ^ Л.Ф. Ламель , Дж.Л. Говен, Б. Праутс, К. Бухье, Р. Бош. Генерация и синтез широковещательных сообщений , материалы семинара ESCA-NATO и применение речевых технологий , сентябрь 1993 г.
  42. Дартмутский колледж: Музыка и компьютеры. Архивировано 8 июня 2011 г. в Wayback Machine , 1993.
  43. ^ Примеры: Astro Blaster , Space Fury и Star Trek: Strategic Operations Simulator.
  44. ^ Примеры включают « Звездные войны» , Firefox , « Возвращение джедая» , « Дорожный бегун» , «Империя наносит ответный удар» , Индиана Джонс и Храм судьбы , 720 ° , Gauntlet , Gauntlet II , APB , Paperboy , RoadBlasters , Vindicators Part II , Escape from the Планета роботов-монстров .
  45. ^ Джон Холмс и Венди Холмс (2001). Синтез речи и распознавание (2-е изд.). КПР. ISBN  978-0-7484-0856-6 .
  46. Перейти обратно: Перейти обратно: а б Лусеро, JC; Шентген, Дж.; Бехлау, М. (2013). «Физический синтез неупорядоченных голосов» (PDF) . Интерспич 2013 . Лион, Франция: Международная ассоциация речевой коммуникации: 587–591. doi : 10.21437/Interspeech.2013-161 . S2CID   17451802 . Проверено 27 августа 2015 г.
  47. Перейти обратно: Перейти обратно: а б Энглерт, Марина; Мадацио, Главция; Гилоу, Ингрид; Лусеро, Хорхе; Бехлау, Мара (2016). «Идентификация ошибок восприятия человеческих и синтезированных голосов». Журнал голоса . 30 (5): 639.e17–639.e23. дои : 10.1016/j.jvoice.2015.07.017 . ПМИД   26337775 .
  48. ^ «Система синтеза речи на основе HMM» . Hts.sp.nitech.ac.j . Проверено 22 февраля 2012 г.
  49. ^ Ремез Р.; Рубин, П.; Пизони, Д.; Каррелл, Т. (22 мая 1981 г.). «Восприятие речи без традиционных речевых сигналов» (PDF) . Наука . 212 (4497): 947–949. Бибкод : 1981Sci...212..947R . дои : 10.1126/science.7233191 . ПМИД   7233191 . Архивировано из оригинала (PDF) 16 декабря 2011 г. Проверено 14 декабря 2011 г.
  50. ^ Валле, Рафаэль (2020). «Меллотрон: экспрессивный синтез голоса с несколькими динамиками путем регулирования ритма, высоты тона и токенов глобального стиля». arXiv : 1910.11997 [ eess ].
  51. ^ Куросава, Юки (19 января 2021 г.) «Программное обеспечение для чтения голоса игровых персонажей «15.ai» уже доступно. Пусть персонажи из «Undertale» и «Portal» произнесут ваши любимые фразы. Проверено АВТОМАТОН . Архивировано из оригинала 19 января 2021 г. 19 января 2021 г.
  52. ^ января 2021 г.) «GLaDOS из Portal и Санс из UNDERTALE зачитывают текст. 15.ai, сервис, целью которого является воспроизведение эмоций, содержащихся в тексте, — горячая . » . тема Ёсиюки, Фурусима ( 18 оригинал 18 января 2021 г. Проверено 18 января 2021 г.
  53. ^ «Генераторный ИИ применяется для дубляжа фильмов: стартап ElevenLabs, занимающийся аудиоИИ, собирает предварительную посевную информацию» . Просеянный . 23 января 2023 г. . Проверено 3 февраля 2023 г.
  54. ^ Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста» . Проводной . Проверено 25 апреля 2023 г.
  55. ^ ПРОВОДНОЙ Персонал. «Этот подкаст не ведется клонами AI Voice. Мы клянемся» . Проводной . ISSN   1059-1028 . Проверено 25 июля 2023 г.
  56. ^ Виггерс, Кайл (20 июня 2023 г.). «Платформа генерации голоса ElevenLabs привлекла $19 млн и запускает инструмент обнаружения» . ТехКранч . Проверено 25 июля 2023 г.
  57. ^ Бонк, Лоуренс. «Новый мощный инструмент искусственного интеллекта от ElevenLabs позволяет создать полноценную аудиокнигу за считанные минуты» . Жизненный провод . Проверено 25 июля 2023 г.
  58. ^ Чжу, Цзянь (25 мая 2020 г.). «Исследование фонетических и фонологических знаний тонов в моделях мандаринского TTS» . Речевая просодия 2020 . ISCA: ISCA: 930–934. arXiv : 1912.10915 . doi : 10.21437/speechprosody.2020-190 . S2CID   209444942 .
  59. ^ Смит, Ханна; Манстед, Кэтрин (1 апреля 2020 г.). Глубокие фейки с оружием: национальная безопасность и демократия . Том. 28. Австралийский институт стратегической политики . стр. 11–13. ISSN   2209-9689 . {{cite book}}: CS1 maint: дата и год ( ссылка )
  60. ^ Лю, Сивэй (2020). «Обнаружение дипфейков: текущие проблемы и следующие шаги» . Международная конференция IEEE по мультимедиа и выставочным семинарам 2020 года (ICMEW) . стр. 1–6. arXiv : 2003.09234 . дои : 10.1109/icmew46912.2020.9105991 . ISBN  978-1-7281-1485-9 . S2CID   214605906 . Проверено 29 июня 2022 г.
  61. ^ Диакопулос, Николас; Джонсон, Дебора (июнь 2020 г.). «Предвидение и устранение этических последствий дипфейков в контексте выборов» . Новые медиа и общество . 23 (7) (опубликовано 5 июня 2020 г.): 2072–2098. дои : 10.1177/1461444820925811 . ISSN   1461-4448 . S2CID   226196422 .
  62. ^ Мерфи, Марги (20 февраля 2024 г.). «Бум Deepfake Audio использует искусственный интеллект стартапа стоимостью в один миллиард долларов» . Блумберг.
  63. ^ Чадха, Анупама; Кумар, Вайбхав; Кашьяп, Сону; Гупта, Маянк (2021), Сингх, Прадип Кумар; Вежхонь, Славомир Т.; Танвар, Судип; Ганжа, Мария (ред.), «Deepfake: Обзор» , Материалы второй международной конференции по вычислительной технике, коммуникациям и кибербезопасности , Конспекты лекций по сетям и системам, том. 203, Сингапур: Springer Singapore, стр. 557–566, doi : 10.1007/978-981-16-0733-2_39 , ISBN.  978-981-16-0732-5 , S2CID   236666289 , получено 29 июня 2022 г.
  64. ^ «ИИ вернул Вэлу Килмеру голос. Но критики опасаются, что технология может быть использована не по назначению» . Вашингтон Пост . ISSN   0190-8286 . Проверено 29 июня 2022 г.
  65. ^ Этьен, Ванесса (19 августа 2021 г.). «Вэл Килмер возвращает себе голос после борьбы с раком горла с помощью технологии искусственного интеллекта: узнайте результаты» . ЛЮДИ.com . Проверено 1 июля 2022 г.
  66. ^ Ньюман, Лили Хэй. «Голосовые дипфейки, генерируемые искусственным интеллектом, пока не так уж и хороши» . Проводной . ISSN   1059-1028 . Проверено 25 июля 2023 г.
  67. ^ «Синтез речи» . Организация Всемирной паутины.
  68. ^ «Вызов метели» . Festvox.org . Проверено 22 февраля 2012 г.
  69. ^ «Улыбнись – и мир тебя услышит» . Университет Портсмута. 9 января 2008 г. Архивировано из оригинала 17 мая 2008 г.
  70. ^ «Улыбнись – и мир услышит тебя, даже если ты спрячешься» . Наука Дейли . Январь 2008 года.
  71. ^ Драгота, А. (2008). «Вокальная коммуникация разных видов улыбки» (PDF) . Речевое общение . 50 (4): 278–287. doi : 10.1016/j.specom.2007.10.001 . S2CID   46693018 . Архивировано из оригинала (PDF) 3 июля 2013 г.
  72. ^ Муралишанкар, Р.; Рамакришнан, АГ; Пратибха, П. (февраль 2004 г.). «Модификация высоты звука с использованием DCT в исходном домене». Речевое общение . 42 (2): 143–154. doi : 10.1016/j.specom.2003.05.001 .
  73. ^ Пратош, AP; Рамакришнан, АГ; Анантападманабха, ТВ (декабрь 2013 г.). «Извлечение эпох на основе интегрированного остатка линейного предсказания с использованием индекса взрыва». IEEE Транс. Обработка аудио речи . 21 (12): 2471–2480. дои : 10.1109/TASL.2013.2273717 . S2CID   10491251 .
  74. ^ ЭЭ Таймс. « TI прекратит выпуск специализированных чипов синтеза речи и перенесет продукты в сенсорный архив, заархивированный 28 мая 2012 г., в Wayback Machine ». 14 июня 2001 г.
  75. ^ «Внешняя справочная спецификация обработчика речи 1400XL/1450XL» (PDF) . Архивировано из оригинала (PDF) 24 марта 2012 г. Проверено 22 февраля 2012 г.
  76. ^ «Конечно, здорово вылезти из этой сумки!» . фольклор.орг . Проверено 24 марта 2013 г.
  77. ^ «Амазонка Полли» . Amazon Веб-сервисы, Inc. Проверено 28 апреля 2020 г.
  78. ^ Майнер, Джей ; и др. (1991). Справочное руководство по оборудованию Amiga (3-е изд.). Addison-Wesley Publishing Company, Inc. ISBN издательства  978-0-201-56776-2 .
  79. ^ Девитт, Франческо (30 июня 1995 г.). «Библиотека переводчика (Мультиязычная версия)» . Архивировано из оригинала 26 февраля 2012 года . Проверено 9 апреля 2013 г.
  80. ^ «Руководства по специальным возможностям для Windows XP: использование экранного диктора» . Майкрософт. 29 января 2011 г. Архивировано из оригинала 21 июня 2003 года . Проверено 29 января 2011 г.
  81. ^ «Как настроить и использовать преобразование текста в речь в Windows XP и Windows Vista» . Майкрософт. 07.05.2007 . Проверено 17 февраля 2010 г.
  82. ^ Жан-Мишель Триви (23 сентября 2009 г.). «Введение в преобразование текста в речь в Android» . Android-developers.blogspot.com . Проверено 17 февраля 2010 г.
  83. ^ Андреас Бишофф, Педиафон - речевой интерфейс к бесплатной энциклопедии Википедии для мобильных телефонов , КПК и MP3-плееров, Материалы 18-й Международной конференции по приложениям баз данных и экспертных систем, Страницы: 575–579 ISBN   0-7695-2932-1 , 2007 г.
  84. ^ «гнуречь» . Gnu.org . Проверено 17 февраля 2010 г.
  85. ^ «Смитсоновский проект истории синтеза речи (SSSHP) 1986–2002» . Mindspring.com. Архивировано из оригинала 3 октября 2013 г. Проверено 17 февраля 2010 г.
  86. ^ Цзя, Йе; Чжан, Ю; Вайс, Рон Дж. (12 июня 2018 г.), «Перенос обучения от проверки говорящего к синтезу речи нескольких говорящих», « Достижения в области нейронных систем обработки информации» , 31 : 4485–4495, arXiv : 1806.04558
  87. ^ Арик, Серкан О.; Чен, Цзитун; Пэн, Кайнан; Пин, Вэй; Чжоу, Яньци (2018), «Нейронное клонирование голоса с помощью нескольких образцов» , Достижения в области нейронных систем обработки информации , 31 , arXiv : 1802.06006
  88. ^ «Фальшивые голоса помогают киберпреступникам украсть деньги » . bbc.com . Би-би-си . 08.07.2019 . Проверено 11 сентября 2019 г.
  89. ^ Дрю, Харвелл (4 сентября 2019 г.). «Сначала искусственный интеллект: программное обеспечение, имитирующее голос, как сообщается, использовалось при крупной краже» . Вашингтон Пост . Проверено 8 сентября 2019 г.
  90. ^ Тис, Юстус (2016). «Face2Face: захват лиц в реальном времени и реконструкция RGB-видео» . Учеб. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 18 июня 2016 г.
  91. ^ Суваджанакорн, Супасорн; Зейтц, Стивен; Кемельмахер-Шлизерман, Ира (2017), Синтезируя Обаму: обучение синхронизации губ по аудио , Вашингтонский университет , получено 2 марта 2018 г.
  92. ^ Нг, Эндрю (01 апреля 2020 г.). «Клонирование голоса для масс» . глубокое обучение.ай . Пакет. Архивировано из оригинала 07 августа 2020 г. Проверено 02 апреля 2020 г.
  93. ^ Брунов, Дэвид А.; Каллен, Тереза ​​А. (3 июля 2021 г.). «Влияние преобразования текста в речь и человеческого чтения на понимание на слух у учащихся с ограниченными возможностями обучения» . Компьютеры в школах . 38 (3): 214–231. дои : 10.1080/07380569.2021.1953362 . hdl : 11244/316759 . ISSN   0738-0569 . S2CID   243101945 .
  94. ^ Триандафилиди, Иоаннис I.; Татарникова, ТМ; Попонин А.С. (30 мая 2022 г.). «Система синтеза речи для людей с ограниченными возможностями» . 2022 Волновая электроника и ее применение в информационных и телекоммуникационных системах (WECONF) . Санкт-Петербург, Российская Федерация: IEEE. стр. 1–5. дои : 10.1109/WECONF55058.2022.9803600 . ISBN  978-1-6654-7083-4 . S2CID   250118756 .
  95. ^ Чжао, Юньсинь; Сун, Мингуан; Юэ, Янхао; Курувилла-Дагдейл, Мили (27 июля 2021 г.). «Персонализация голосов TTS при прогрессирующей дизартрии» . Международная конференция IEEE EMBS 2021 по биомедицинской и медицинской информатике (BHI) . Афины, Греция: IEEE. стр. 1–4. дои : 10.1109/BHI50953.2021.9508522 . ISBN  978-1-6654-0358-0 . S2CID   236982893 .
  96. ^ «Эволюция читающих машин для слепых: исследование Haskins Laboratories как история болезни» (PDF) . Журнал исследований и разработок в области реабилитации . 21 (1). 1984.
  97. ^ «Анонсировано программное обеспечение для синтеза речи для аниме» . Сеть новостей аниме . 2 мая 2007 г. Проверено 17 февраля 2010 г.
  98. ^ «Услуга синтезатора речи Code Geass, предлагаемая в Японии» . Animenewsnetwork.com. 9 сентября 2008 г. Проверено 17 февраля 2010 г.
  99. ^ Куросава, Юки (19 января 2021 г.) «Программное обеспечение для чтения голоса игровых персонажей «15.ai» уже доступно. Пусть персонажи из «Undertale» и «Portal» произнесут ваши любимые фразы. Проверено АВТОМАТОН . Архивировано из оригинала 19 января 2021 г. 19 января 2021 г.
  100. ^ января 2021 г.) «GLaDOS из Portal и Санс из UNDERTALE зачитывают текст. 15.ai, сервис, целью которого является воспроизведение эмоций, содержащихся в тексте, — горячая . » . тема Ёсиюки, Фурусима ( 18 оригинал 18 января 2021 г. Проверено 18 января 2021 г.
  101. ^ «А теперь послушайте: стартап ElevenLabs, занимающийся клонированием голоса, получил 19 миллионов долларов от a16z и других крупных игроков» . ВенчурБит . 20 июня 2023 г. Проверено 25 июля 2023 г.
  102. ^ «Искусственный интеллект читает голосом Ярослава Кузняра. Революция в радио и подкастах» . Press.pl (на польском языке). 9 апреля 2023 г. . Проверено 25 апреля 2023 г.
  103. ^ Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста» . Проводной . Проверено 25 апреля 2023 г.
  104. ^ Ниббс, Кейт. «Подкасты о генеративном искусственном интеллекте уже здесь. Приготовьтесь скучать» . Проводной . ISSN   1059-1028 . Проверено 25 июля 2023 г.
  105. ^ Сучу, Питер. «Пародия на арест престолонаследия на YouTube включает «повествование», созданное искусственным интеллектом Рона Ховарда» . Форбс . Проверено 25 июля 2023 г.
  106. ^ Фадулу, Лола (6 июля 2023 г.). «Может ли ИИ быть забавным? Эта труппа так думает» . Нью-Йорк Таймс . ISSN   0362-4331 . Проверено 25 июля 2023 г.
  107. ^ Канеткар, Риддхи. «Горячий стартап в области искусственного интеллекта ElevenLabs, основанный бывшими сотрудниками Google и Palantir, собирается привлечь 18 миллионов долларов при оценке в 100 миллионов долларов. Посмотрите презентацию из 14 слайдов, которую он использовал для своего предварительного посевного проекта на 2 миллиона долларов» . Бизнес-инсайдер . Проверено 25 июля 2023 г.
  108. ^ «Фирма, производящая голоса, генерируемые искусственным интеллектом, прекращает работу после того, как 4chan использует голоса знаменитостей для злоупотреблений» . www.vice.com . 30 января 2023 г. . Проверено 3 февраля 2023 г.
  109. ^ «Использование преобразования текста в речь в создании видео с помощью ИИ» . элай.io. ​Проверено 10 августа 2022 г.
  110. ^ «AI Преобразование текста в речь для видео» . Synthesia.io . Проверено 12 октября 2023 г.
  111. ^ Бруно, Челси А (25 марта 2014 г.). Вокальный синтез и глубокое прослушивание (музыкальная диссертация). Международный университет Флориды. дои : 10.25148/etd.fi14040802 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c9f06be15451a09ad6c4ad95177145f1__1718413380
URL1:https://arc.ask3.ru/arc/aa/c9/f1/c9f06be15451a09ad6c4ad95177145f1.html
Заголовок, (Title) документа по адресу, URL1:
Speech synthesis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)