Артикуляционный синтез

3D-модель речевого тракта для артикуляционного синтеза. На основе моделирования коартикуляции согласных и гласных было воспроизведено немецкое предложение « Lea und Doreen mögen Bananen. » из естественно произнесенного предложения с точки зрения основной частоты и продолжительности звука. ^[1]

Артикуляционный синтез — это вычислительные методы синтеза речи, человека основанные на моделях речевого тракта и происходящих там артикуляционных процессов. Формой речевого тракта можно управлять несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через речевой тракт.

Механические говорящие головы

Существует долгая история попыток создания механических « говорящих голов ». ^[2] Говорят, что у Герберта (ум. 1003), Альберта Великого (1198–1280) и Роджера Бэкона (1214–1294) были говорящие головы ( Wheatstone 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своих исследованиях в 1791 году (см. также Dudley & Tarnoczy 1950 ).

Электрические аналоги голосового тракта

Первые электрические аналоги речевого тракта были статическими, как у Данна (1950), Кена Стивенса и его коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический речевой тракт (DAVO), которым Деннис (1963) позже попытался управлять с помощью компьютера. Деннис и др. (1964), Хики и др. (1968), а также Бакстер и Стронг (1969) также описали аппаратные аналоги речевого тракта. Келли и Лохбаум (1962) провели первое компьютерное моделирование; позднее цифровое компьютерное моделирование было выполнено, например, Накатой и Мицуокой (1965), Мацуи (1968) и Полом Мермельштейном (1971). Хонда и др. (1968) провели аналоговое компьютерное моделирование.

Модели Хаскинса и Маэды

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином , Томом Баером и Полом Мермельштейном. Этот синтезатор, известный как ASY, ^[3] — вычислительная модель производства речи, основанная на моделях речевого тракта, разработанная в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами. Другая популярная модель, которая часто используется, — это модель Синдзи Маэды, которая использует факторный подход для управления формой языка .

Современные модели

Недавний прогресс в визуализации речи, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способе выполнения артикуляционного синтеза [1] ^{[ постоянная мертвая ссылка ]}. Примеры включают модель Haskins CASY (конфигурируемый артикуляционный синтез), ^[4] Разработан Филипом Рубином , Марком Тиде [2] Архивировано 1 сентября 2006 г. в Wayback Machine и Луи Гольдштейном [3] , который сопоставляет среднесагиттальные голосовые тракты с фактическими данными магнитно-резонансной томографии (МРТ) и использует данные МРТ для построения 3D-модель голосового тракта. Полная трехмерная модель артикуляционного синтеза была описана Оловым Энгваллом. Геометрический трехмерный артикуляционный синтезатор речи был разработан Питером Биркхольцем (VocalTractLab). ^[5]). Модель « Направления скоростей артикуляторов» (DIVA) — подход к управлению с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, — был разработан Фрэнком Х. Гюнтером из Бостонского университета . Проект ArtiSynth, ^[6] возглавляемый Сидни Фелсом [4] из Университета Британской Колумбии , представляет собой набор инструментов для 3D-биомеханического моделирования голосового тракта человека и верхних дыхательных путей. Биомеханическое моделирование артикуляторов, таких как язык, было впервые предложено рядом ученых, в том числе Райнером Вильгельмсом-Трикарико [5] , Йоханом Пайаном [6] и Жан-Мишелем Жераром [7] , Цзяньву Дангом и Киёши Хонда [8] .

Коммерческие модели

Одной из немногих коммерческих систем артикуляционного синтеза речи является система на базе NeXT, первоначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где была проведена большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатой Стивом Джобсом в конце 1980-х годов и объединенной с Apple Computer в 1997 году) программное обеспечение Trillium было опубликовано под лицензией GNU General Public License , а работа продолжалась как gnuspech . Система, впервые представленная на рынке в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или аналога линии передачи ротового и носового трактов человека, управляемого «моделью отличительной области» Рене Карре. ^[7]

См. также

Сноски

^ Биркхольц, Питер (2013). «Моделирование коартикуляции согласных и гласных для артикуляционного синтеза речи» . ПЛОС ОДИН . 8 (4): е60603. Бибкод : 2013PLoSO...860603B . дои : 10.1371/journal.pone.0060603 . ПМЦ 3628899 . ПМИД 23613734 .
^ «Говорящие головы» . Архивировано из оригинала 7 декабря 2006 г. Проверено 6 декабря 2006 г.
^ АСЫ
^ "КАСИ" . Архивировано из оригинала 28 августа 2006 г. Проверено 6 декабря 2006 г.
^ VocalTractLab
^ Артисинт
^ Артикуляционный синтез речи в реальном времени по правилам.

Библиография

Бакстер, Брент и Уильям Дж. Стронг. (1969). WINDBAG — аналоговый синтезатор речи голосового аппарата. Журнал Акустического общества Америки , 45, 309 (A).
Биркхольц П., Джекель Д., Крегер Б.Дж. (2007)Моделирование потерь из-за турбулентности в изменяющейся во времени голосовой системе. Транзакции IEEE по обработке звука, речи и языка 15: 1218-1225
Биркхольц П., Джекель Д., Крегер Б.Дж. (2006)Построение и управление трехмерной моделью речевого тракта. Материалы Международной конференции по акустике, речи и обработке сигналов (ICASSP 2006) (Тулуза, Франция), стр. 873–876.
Кокер. Ч. (1968). Синтез речи с помощью параметрической артикуляционной модели. Учеб. Речь. Симпозиум, Киото, Япония , документ А-4.
Кокер, CH (1976). «Модель артикуляционной динамики и контроля». Труды IEEE . 64 (4): 452–460. дои : 10.1109/PROC.1976.10154 . S2CID 1412611 .
Кокер; Фудзимура, О. (1966). «Модель спецификации функции области речевого тракта» . Журнал Акустического общества Америки . 40 (5): 1271. Бибкод : 1966ASAJ...40.1271C . дои : 10.1121/1.2143456 .
Деннис, Джек Б. (1963). Компьютерное управление аналоговым речевым трактом. Журнал Акустического общества Америки , 35, 1115(A).
Дадли, Гомер; Тарночи, Томас Х. (1950). «Говорящая машина Вольфганга фон Кемпелена» (PDF) . Журнал Акустического общества Америки . 22 (2): 151–166. Бибкод : 1950ASAJ...22..151D . дои : 10.1121/1.1906583 .
Данн, Хью К. (1950). «Расчет резонансов гласных и электрического голосового тракта». Журнал Акустического общества Америки . 22 (6): 740–53. Бибкод : 1950ASAJ...22..740D . дои : 10.1121/1.1906681 .
Энгуолл, О. (2003). Сочетание измерений МРТ, ЭМА и ЭПГ в трехмерной модели языка. Речевое общение, 41, 303–329.
Фант, К. Гуннар М. (1960). Акустическая теория речевого производства . Гаага, Мутон.
Гариэль, М. (1879). «Говорящая машина мистера Фабера» . Дж. Теоретическая и прикладная физика . 8 : 274–5. doi : 10.1051/jphystap:018790080027401 .
Джерард, Дж. М.; Вильгельмс-Трикарико, Р.; Перье, П.; Паян, Ю. (2003). «3D-динамическая биомеханическая модель языка для изучения речевого моторного контроля» (PDF) . Последние научные разработки в области биомеханики . 1 : 49–64.
Хенке, WL (1966). Динамическая артикуляционная модель речевого производства с использованием компьютерного моделирования. Неопубликованная докторская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс.
Хонда, Такаси, Сейичи Иноуэ и Ясуо Огава. (1968). Гибридная система управления имитатором речевого тракта человека. Доклады 6-го Международного конгресса по акустике , под ред. Ю. Кохаси, стр. 175–8. Токио, Международный совет научных союзов.
Келли, Джон Л. и Кэрол Лохбаум. (1962). Синтез речи. Материалы семинара по речевым коммуникациям , статья F7. Стокгольм, Лаборатория передачи речи, Королевский технологический институт.
Кемпелен, Вольфганг Р. фон. (1791). Механизм человеческого языка вместе с описанием его говорящей машины . Вена, Дж. Б. Деген.
Маэда, С. (1988). Улучшенная артикуляционная модель. Журнал Акустического общества Америки , 84, Sup. 1, С146.
Маэда, С. (1990). Компенсаторная артикуляция во время речи: данные анализа и синтеза форм речевого тракта с использованием артикуляционной модели. В. Дж. Хардкасл и А. Маршал (ред.), Производство речи и моделирование речи , Kluwer Academic, Дордрехт, 131–149.
Мацуи, Эйичи. (1968). Компьютерное моделирование голосовых органов. Доклады 6-го Международного конгресса по акустике , под ред. Ю. Кохаси, стр. 151–4. Токио, Международный совет научных союзов.
Мермельштейн, Пол. (1969). Компьютерное моделирование артикуляционной деятельности при постановке речи. Материалы Международной совместной конференции по искусственному интеллекту , Вашингтон, округ Колумбия, 1969, изд. Д. Уокер и Л. М. Нортон. Нью-Йорк, Гордон и Брич.
Мермельштейн, П. (1973). «Артикуляционная модель для изучения речевого производства». Журнал Акустического общества Америки . 53 (4): 1070–1082. Бибкод : 1973ASAJ...53.1070M . дои : 10.1121/1.1913427 . ПМИД 4697807 .
Наката, Кадзуо; Мицуока, Т. (1965). «Фонематическое преобразование и аспекты управления синтезом связной речи». Дж. Радио Рес. Лаборатории . 12 : 171–86.
Рахим, М.; Гудиер, К.; Клейн, В.; Шретер, Дж.; Сондхи, М. (1993). «О применении нейронных сетей в артикуляционном синтезе речи». Журнал Акустического общества Америки . 93 (2): 1109–1121. Бибкод : 1993ASAJ...93.1109R . дои : 10.1121/1.405559 . S2CID 120130348 .
Розен, Джордж (1958). «Динамический аналоговый синтезатор речи». Журнал Акустического общества Америки . 30 (3): 201–9. Бибкод : 1958ASAJ...30..201R . дои : 10.1121/1.1909541 . hdl : 1721.1/118106 .
Рубин, ЧП; Баер, Т.; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Бибкод : 1981ASAJ...70..321R . дои : 10.1121/1.386780 .
Рубин П., Зальцман Э., Гольдштейн Л., Макгоуэн Р., Тиде М. и Броуман К. (1996). CASY и расширения задачно-динамической модели. Материалы 1-го учебного и исследовательского семинара ESCA по моделированию речевого производства - 4-й семинар по речевому производству , 125–128.
Стивенс, Кеннет Н.; Касовский, С.; Фант, К. Гуннар М. (1953). «Электрический аналог речевого тракта». Журнал Акустического общества Америки . 25 (4): 734–42. Бибкод : 1953ASAJ...25..734S . дои : 10.1121/1.1907169 .

Внешние ссылки

«От МРТ и акустических данных к артикуляционному синтезу» . Архивировано из оригинала 14 августа 2007 года.
«Смитсоновский проект истории синтеза речи (SSSHP) 1986–2002» . Архивировано из оригинала 3 октября 2013 года.
Введение в артикуляционный синтез речи
Имитация пения с поющим роботом Павароботти на YouTube или описание от BBC того , как робот синтезировал пение на YouTube .
Онлайн-инструмент для синтеза речи Pink Trombone голыми руками и демонстрационный видеоклип на YouTube

[1] Биркхольц, Питер (2013). «Моделирование коартикуляции согласных и гласных для артикуляционного синтеза речи» . ПЛОС ОДИН . 8 (4): е60603. Бибкод : 2013PLoSO...860603B . дои : 10.1371/journal.pone.0060603 . ПМЦ 3628899 . ПМИД 23613734 .

[2] «Говорящие головы» . Архивировано из оригинала 7 декабря 2006 г. Проверено 6 декабря 2006 г.

[3] АСЫ

[4] "КАСИ" . Архивировано из оригинала 28 августа 2006 г. Проверено 6 декабря 2006 г.

[5] VocalTractLab

[6] Артисинт

[7] Артикуляционный синтез речи в реальном времени по правилам.

[1]

[2]

[3]

[4]

[5]

[6]

[7]