Jump to content

Артикуляционный синтез

Продолжительность: 3 секунды.
3D-модель речевого тракта для артикуляционного синтеза. На основе моделирования коартикуляции согласных и гласных было воспроизведено немецкое предложение « Lea und Doreen mögen Bananen. » из естественно произнесенного предложения с точки зрения основной частоты и продолжительности звука. [1]

Артикуляционный синтез — это вычислительные методы синтеза речи, человека основанные на моделях речевого тракта и происходящих там артикуляционных процессов. Формой речевого тракта можно управлять несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через речевой тракт.

Механические говорящие головы

[ редактировать ]

Существует долгая история попыток создания механических « говорящих голов ». [2] Говорят, что у Герберта (ум. 1003), Альберта Великого (1198–1280) и Роджера Бэкона (1214–1294) были говорящие головы ( Wheatstone 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своих исследованиях в 1791 году (см. также Dudley & Tarnoczy 1950 ).

Электрические аналоги голосового тракта

[ редактировать ]

Первые электрические аналоги речевого тракта были статическими, как у Данна (1950), Кена Стивенса и его коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический речевой тракт (DAVO), которым Деннис (1963) позже попытался управлять с помощью компьютера. Деннис и др. (1964), Хики и др. (1968), а также Бакстер и Стронг (1969) также описали аппаратные аналоги речевого тракта. Келли и Лохбаум (1962) провели первое компьютерное моделирование; позднее цифровое компьютерное моделирование было выполнено, например, Накатой и Мицуокой (1965), Мацуи (1968) и Полом Мермельштейном (1971). Хонда и др. (1968) провели аналоговое компьютерное моделирование.

Модели Хаскинса и Маэды

[ редактировать ]

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином , Томом Баером и Полом Мермельштейном. Этот синтезатор, известный как ASY, [3] — вычислительная модель производства речи, основанная на моделях речевого тракта, разработанная в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами. Другая популярная модель, которая часто используется, — это модель Синдзи Маэды, которая использует факторный подход для управления формой языка .

Современные модели

[ редактировать ]

Недавний прогресс в визуализации речи, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способе выполнения артикуляционного синтеза [1] [ постоянная мертвая ссылка ] . Примеры включают модель Haskins CASY (конфигурируемый артикуляционный синтез), [4] Разработан Филипом Рубином , Марком Тиде [2] Архивировано 1 сентября 2006 г. в Wayback Machine и Луи Гольдштейном [3] , который сопоставляет среднесагиттальные голосовые тракты с фактическими данными магнитно-резонансной томографии (МРТ) и использует данные МРТ для построения 3D-модель голосового тракта. Полная трехмерная модель артикуляционного синтеза была описана Оловым Энгваллом. Геометрический трехмерный артикуляционный синтезатор речи был разработан Питером Биркхольцем (VocalTractLab). [5] ). Модель « Направления скоростей артикуляторов» (DIVA) — подход к управлению с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, — был разработан Фрэнком Х. Гюнтером из Бостонского университета . Проект ArtiSynth, [6] возглавляемый Сидни Фелсом [4] из Университета Британской Колумбии , представляет собой набор инструментов для 3D-биомеханического моделирования голосового тракта человека и верхних дыхательных путей. Биомеханическое моделирование артикуляторов, таких как язык, было впервые предложено рядом ученых, в том числе Райнером Вильгельмсом-Трикарико [5] , Йоханом Пайаном [6] и Жан-Мишелем Жераром [7] , Цзяньву Дангом и Киёши Хонда [8] .

Коммерческие модели

[ редактировать ]

Одной из немногих коммерческих систем артикуляционного синтеза речи является система на базе NeXT, первоначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где была проведена большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатой ​​Стивом Джобсом в конце 1980-х годов и объединенной с Apple Computer в 1997 году) программное обеспечение Trillium было опубликовано под лицензией GNU General Public License , а работа продолжалась как gnuspech . Система, впервые представленная на рынке в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или аналога линии передачи ротового и носового трактов человека, управляемого «моделью отличительной области» Рене Карре. [7]

См. также

[ редактировать ]
  1. ^ Биркхольц, Питер (2013). «Моделирование коартикуляции согласных и гласных для артикуляционного синтеза речи» . ПЛОС ОДИН . 8 (4): е60603. Бибкод : 2013PLoSO...860603B . дои : 10.1371/journal.pone.0060603 . ПМЦ   3628899 . ПМИД   23613734 .
  2. ^ «Говорящие головы» . Архивировано из оригинала 7 декабря 2006 г. Проверено 6 декабря 2006 г.
  3. ^ АСЫ
  4. ^ "КАСИ" . Архивировано из оригинала 28 августа 2006 г. Проверено 6 декабря 2006 г.
  5. ^ VocalTractLab
  6. ^ Артисинт
  7. ^ Артикуляционный синтез речи в реальном времени по правилам.

Библиография

[ редактировать ]
  • Бакстер, Брент и Уильям Дж. Стронг. (1969). WINDBAG — аналоговый синтезатор речи голосового аппарата. Журнал Акустического общества Америки , 45, 309 (A).
  • Биркхольц П., Джекель Д., Крегер Б.Дж. (2007)Моделирование потерь из-за турбулентности в изменяющейся во времени голосовой системе. Транзакции IEEE по обработке звука, речи и языка 15: 1218-1225
  • Биркхольц П., Джекель Д., Крегер Б.Дж. (2006)Построение и управление трехмерной моделью речевого тракта. Материалы Международной конференции по акустике, речи и обработке сигналов (ICASSP 2006) (Тулуза, Франция), стр. 873–876.
  • Кокер. Ч. (1968). Синтез речи с помощью параметрической артикуляционной модели. Учеб. Речь. Симпозиум, Киото, Япония , документ А-4.
  • Кокер, CH (1976). «Модель артикуляционной динамики и контроля». Труды IEEE . 64 (4): 452–460. дои : 10.1109/PROC.1976.10154 . S2CID   1412611 .
  • Кокер; Фудзимура, О. (1966). «Модель спецификации функции области речевого тракта» . Журнал Акустического общества Америки . 40 (5): 1271. Бибкод : 1966ASAJ...40.1271C . дои : 10.1121/1.2143456 .
  • Деннис, Джек Б. (1963). Компьютерное управление аналоговым речевым трактом. Журнал Акустического общества Америки , 35, 1115(A).
  • Дадли, Гомер; Тарночи, Томас Х. (1950). «Говорящая машина Вольфганга фон Кемпелена» (PDF) . Журнал Акустического общества Америки . 22 (2): 151–166. Бибкод : 1950ASAJ...22..151D . дои : 10.1121/1.1906583 .
  • Данн, Хью К. (1950). «Расчет резонансов гласных и электрического голосового тракта». Журнал Акустического общества Америки . 22 (6): 740–53. Бибкод : 1950ASAJ...22..740D . дои : 10.1121/1.1906681 .
  • Энгуолл, О. (2003). Сочетание измерений МРТ, ЭМА и ЭПГ в трехмерной модели языка. Речевое общение, 41, 303–329.
  • Фант, К. Гуннар М. (1960). Акустическая теория речевого производства . Гаага, Мутон.
  • Гариэль, М. (1879). «Говорящая машина мистера Фабера» . Дж. Теоретическая и прикладная физика . 8 : 274–5. doi : 10.1051/jphystap:018790080027401 .
  • Джерард, Дж. М.; Вильгельмс-Трикарико, Р.; Перье, П.; Паян, Ю. (2003). «3D-динамическая биомеханическая модель языка для изучения речевого моторного контроля» (PDF) . Последние научные разработки в области биомеханики . 1 : 49–64.
  • Хенке, WL (1966). Динамическая артикуляционная модель речевого производства с использованием компьютерного моделирования. Неопубликованная докторская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс.
  • Хонда, Такаси, Сейичи Иноуэ и Ясуо Огава. (1968). Гибридная система управления имитатором речевого тракта человека. Доклады 6-го Международного конгресса по акустике , под ред. Ю. Кохаси, стр. 175–8. Токио, Международный совет научных союзов.
  • Келли, Джон Л. и Кэрол Лохбаум. (1962). Синтез речи. Материалы семинара по речевым коммуникациям , статья F7. Стокгольм, Лаборатория передачи речи, Королевский технологический институт.
  • Кемпелен, Вольфганг Р. фон. (1791). Механизм человеческого языка вместе с описанием его говорящей машины . Вена, Дж. Б. Деген.
  • Маэда, С. (1988). Улучшенная артикуляционная модель. Журнал Акустического общества Америки , 84, Sup. 1, С146.
  • Маэда, С. (1990). Компенсаторная артикуляция во время речи: данные анализа и синтеза форм речевого тракта с использованием артикуляционной модели. В. Дж. Хардкасл и А. Маршал (ред.), Производство речи и моделирование речи , Kluwer Academic, Дордрехт, 131–149.
  • Мацуи, Эйичи. (1968). Компьютерное моделирование голосовых органов. Доклады 6-го Международного конгресса по акустике , под ред. Ю. Кохаси, стр. 151–4. Токио, Международный совет научных союзов.
  • Мермельштейн, Пол. (1969). Компьютерное моделирование артикуляционной деятельности при постановке речи. Материалы Международной совместной конференции по искусственному интеллекту , Вашингтон, округ Колумбия, 1969, изд. Д. Уокер и Л. М. Нортон. Нью-Йорк, Гордон и Брич.
  • Мермельштейн, П. (1973). «Артикуляционная модель для изучения речевого производства». Журнал Акустического общества Америки . 53 (4): 1070–1082. Бибкод : 1973ASAJ...53.1070M . дои : 10.1121/1.1913427 . ПМИД   4697807 .
  • Наката, Кадзуо; Мицуока, Т. (1965). «Фонематическое преобразование и аспекты управления синтезом связной речи». Дж. Радио Рес. Лаборатории . 12 : 171–86.
  • Рахим, М.; Гудиер, К.; Клейн, В.; Шретер, Дж.; Сондхи, М. (1993). «О применении нейронных сетей в артикуляционном синтезе речи». Журнал Акустического общества Америки . 93 (2): 1109–1121. Бибкод : 1993ASAJ...93.1109R . дои : 10.1121/1.405559 . S2CID   120130348 .
  • Розен, Джордж (1958). «Динамический аналоговый синтезатор речи». Журнал Акустического общества Америки . 30 (3): 201–9. Бибкод : 1958ASAJ...30..201R . дои : 10.1121/1.1909541 . hdl : 1721.1/118106 .
  • Рубин, ЧП; Баер, Т.; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Бибкод : 1981ASAJ...70..321R . дои : 10.1121/1.386780 .
  • Рубин П., Зальцман Э., Гольдштейн Л., Макгоуэн Р., Тиде М. и Броуман К. (1996). CASY и расширения задачно-динамической модели. Материалы 1-го учебного и исследовательского семинара ESCA по моделированию речевого производства - 4-й семинар по речевому производству , 125–128.
  • Стивенс, Кеннет Н.; Касовский, С.; Фант, К. Гуннар М. (1953). «Электрический аналог речевого тракта». Журнал Акустического общества Америки . 25 (4): 734–42. Бибкод : 1953ASAJ...25..734S . дои : 10.1121/1.1907169 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f2da7723aef3358072c05ad6a3f1764b__1699452420
URL1:https://arc.ask3.ru/arc/aa/f2/4b/f2da7723aef3358072c05ad6a3f1764b.html
Заголовок, (Title) документа по адресу, URL1:
Articulatory synthesis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)