Модель источник-фильтр

Модель источник-фильтр представляет речь как комбинацию источника звука, такого как голосовые связки , и линейного акустического фильтра, речевого тракта . Хотя эта модель является лишь приближением, она широко используется в ряде приложений, таких как синтез речи и анализ речи, из-за ее относительной простоты. Это также связано с линейным предсказанием . Разработка модели во многом обязана ранним работам Гуннара Фанта , хотя другие, особенно Кен Стивенс , также внесли существенный вклад в модели, лежащие в основе акустического анализа речи и синтеза речи. ^[1] Фант опирался на работы Цутому Чибы и Масато Кадзиямы, которые впервые показали связь между акустическими свойствами гласных и формой речевого тракта. ^[1]

Важным допущением, которое часто делается при использовании модели источник-фильтр, является независимость источника и фильтра. ^[1] В таких случаях модель правильнее называть «моделью независимого источника-фильтра». ^{[ нужна ссылка ]}

История

В 1942 году Тиба и Кадзияма опубликовали свои исследования акустики гласных и речевого тракта в своей книге « Гласный звук: его природа и структура» . Создав модели речевого тракта с помощью рентгеновской фотографии , они смогли предсказать формантные частоты различных гласных, установив связь между ними. Гуннар Фант, пионер в области речевого развития, использовал исследования Чибы и Каджиямы, включающие рентгеновскую фотографию речевого тракта, для интерпретации своих собственных данных о звуках русской речи в «Акустической теории речевого производства» , которая установила модель «источник-фильтр». ^[2]

Приложения

В разной степени разные фонемы можно отличить по свойствам их источника (источников) и их спектральной форме . Звонкие звуки (например, гласные) имеют по крайней мере один источник из-за преимущественно периодического возбуждения голосовой щели, которое можно аппроксимировать последовательностью импульсов во временной области и гармониками в частотной области, а также фильтром, который зависит, например, от языка. положение и выпячивание губ. ^[3] С другой стороны, фрикативные звуки , такие как [s] и [f] , имеют по крайней мере один источник из-за турбулентного шума, возникающего при сужении ротовой полости или глотки . Так называемые звонкие фрикативные звуки , такие как [z] и [v] , имеют два источника — один в голосовой щели и один в надгортанном сужении.

Синтез речи

При реализации модели производства речи источник-фильтр источник звука или сигнал возбуждения часто моделируется как периодическая последовательность импульсов для вокализованной речи или белый шум для невокализованной речи. Фильтр речевого тракта в простейшем случае аппроксимируется всеполюсным фильтром, где коэффициенты получаются путем выполнения линейного прогнозирования для минимизации среднеквадратической ошибки в воспроизводимом речевом сигнале. Свертка сигнала возбуждения с откликом фильтра затем дает синтезированную речь.

Моделирование производства человеческой речи

При воспроизведении человеческой речи источником звука являются голосовые связки , которые могут производить периодический звук при сжатии или апериодический звук (белый шум) при расслаблении. ^[4] Фильтром является остальная часть речевого тракта, которая может менять форму при манипуляциях с глоткой , ртом и полостью носа. ^[3] Фант грубо сравнивает источник и фильтр с фонацией и артикуляцией соответственно. Источник создает ряд гармоник различной амплитуды , которые проходят через речевой тракт и либо усиливаются, либо ослабляются, образуя звук речи. ^[4]

См. также

Инверсный фильтр

Ссылки

^ Jump up to: ^а ^б ^с Арай, Такаюки (2004). «История Тибы и Кадзиямы и их влияние в современной науке о речи». От звука к смыслу: более 50 лет открытий в области речевой коммуникации (PDF) . стр. 115–120.
^ Фант, Гуннар (2001). «Т. Чиба и М. Кадзияма, пионеры речевой акустики» . Журнал Фонетического общества Японии . 5 (2). дои : 10.24467/онсейкенкю.5.2_4 . Проверено 3 июля 2020 г.
^ Jump up to: ^а ^б Фант, Гуннар (1970). Акустическая теория речевого производства с расчетами на основе рентгеновских исследований русской артикуляции . Де Грютер.
^ Jump up to: ^а ^б Жига, Элизабет К. (2012). Звуки языка: введение в фонетику и фонологию . Джон Уайли и сыновья. ISBN 978-1-118-34060-8 .

Чиба, Т.; Кадзияма, М. (1942). Гласная: ее природа и структура . Токио: паб Tokyo-Kaiseikan. Компания, ООО
(было переиздание в 1952 году и переведенное на японский язык издание в 2003 году как ISBN 4-00-002107-9 )
Стивенс, КН (2001). «Книга Тибы и Кадзиямы как предшественник акустической теории производства речи» . Журнал Фонетического общества Японии . 5 (2): 6–7.
Стивенс, КН (1998). Акустическая фонетика . Кембридж, Массачусетс: MIT Press . ISBN 978-0-262-19404-4 . (твердый переплет 1999 г.) / (мягкая обложка 2000 г.).

[arai-1] Jump up to: ^а ^б ^с Арай, Такаюки (2004). «История Тибы и Кадзиямы и их влияние в современной науке о речи». От звука к смыслу: более 50 лет открытий в области речевой коммуникации (PDF) . стр. 115–120.

[2] Фант, Гуннар (2001). «Т. Чиба и М. Кадзияма, пионеры речевой акустики» . Журнал Фонетического общества Японии . 5 (2). дои : 10.24467/онсейкенкю.5.2_4 . Проверено 3 июля 2020 г.

[gf-3] Jump up to: ^а ^б Фант, Гуннар (1970). Акустическая теория речевого производства с расчетами на основе рентгеновских исследований русской артикуляции . Де Грютер.

[zs-4] Jump up to: ^а ^б Жига, Элизабет К. (2012). Звуки языка: введение в фонетику и фонологию . Джон Уайли и сыновья. ISBN 978-1-118-34060-8 .

[1]

[2]

[3]

[4]