Гнуспич

Гнуспич
Разработчик(и)	Триллиум Саунд Исследования
Первоначальный выпуск	2002 год ; 22 года назад
Стабильная версия	0.9 / 14 октября 2015 г .; 8 лет назад
Репозиторий	Саванна .gnu .org / git /?group=gnuspech ;
Платформа	Кросс-платформенный
Тип	Преобразование текста в речь
Лицензия	Стандартная общественная лицензия GNU
Веб-сайт	www .gnu .org /программное обеспечение /gnuspech /

Gnuspech — это расширяемый для преобразования текста в речь компьютерный пакет программного обеспечения , который производит искусственную речь на основе артикуляционного синтеза речи в реальном времени по правилам. То есть он преобразует текстовые строки в фонетические описания с помощью словаря произношения, правил преобразования букв в звуки, а также моделей ритма и интонации; преобразует фонетические описания в параметры для артикуляционного синтезатора речи низкого уровня ; использует их для управления артикуляционной моделью речевого тракта человека , производящей выходной сигнал, подходящий для обычных устройств вывода звука, используемых различными компьютерными операционными системами ; и делает это с той же или более высокой скоростью, чем речь взрослого человека.

Дизайн

Синтезатор представляет собой модель лампового резонанса или волновода, которая напрямую и достаточно точно моделирует поведение реального речевого тракта , в отличие от формантных синтезаторов, которые косвенно моделируют речевой спектр. ^[2] Проблема управления решается с помощью модели отличительной области Рене Карре. ^[3] который связывает изменения радиусов восьми продольных отделов речевого тракта с соответствующими изменениями трех частотных формант речевого спектра, которые передают большую часть речевой информации. Регионы, в свою очередь, основаны на работе Стокгольмской лаборатории речевых технологий. ^[4] Королевского технологического института ( KTH ) по «анализу формантной чувствительности» — то есть тому, как на формантные частоты влияют небольшие изменения радиуса речевого тракта в различных местах по его длине. ^[5]

История

Gnuspech изначально был коммерческим программным обеспечением, созданным ныне несуществующей компанией Trillium Sound Research для компьютера NeXT в виде различных версий набора «TextToSpeech». Trillium Sound Research — дочерняя компания по передаче технологий , созданная в Университете Калгари, Альберта, Канада, на основе многолетних исследований факультета информатики по взаимодействию компьютера и человека с использованием речи, где публикуются документы и руководства, относящиеся к системе. поддерживается. ^[6] Первоначальная версия 1992 года использовала синтезатор речи на основе формант. Когда NeXT прекратила производство оборудования, программное обеспечение синтезатора было полностью переписано. ^[7] а также портирован на NSFIP (NextStep для процессоров Intel) с использованием волноводного подхода к моделированию акустической трубки на основе исследований Центра компьютерных исследований в области музыки и акустики ( CCRMA ) в Стэнфордском университете, особенно Music Kit. Подход к синтезу более подробно описан в документе, представленном Американскому обществу голосового ввода-вывода в 1995 году. ^[8] В системе использовался встроенный процессор цифровых сигналов (DSP) 56001 на компьютере NeXT и дополнительная плата Turtle Beach с тем же DSP на версии NSFIP для работы волновода (также известного как ламповая модель). Ограничения по скорости означали, что наименьшая длина речевого тракта, которую можно было использовать для речи в реальном времени (то есть генерировать с той же или более высокой скоростью, чем она была «произнесена»), составляла около 15 сантиметров, поскольку частота дискретизации для волноводных вычислений увеличивается. с уменьшением длины голосового тракта. Более высокие скорости процессора постепенно устраняют это ограничение, что является важным шагом вперед в создании детской речи в реальном времени.

Поскольку NeXTSTEP снят с производства, а компьютеры NeXT встречаются редко, одним из вариантов выполнения исходного кода является использование виртуальные машины . эмулятор предыдущий Например, NeXT может эмулировать DSP на компьютерах .который может использоваться программным обеспечением Trillium.

Торговля Trillium прекратилась в конце 1990-х годов, и проект Gnuspech был впервые внесен в репозиторий GNU Savannah на условиях Стандартной общественной лицензии GNU в 2002 году в качестве официального программного обеспечения GNU .

Благодаря бесплатной лицензии с открытым исходным кодом , которая позволяет настраивать код, Gnuspech используется в академических исследованиях. ^[9] ^[10]

Пример синтеза

Хаос синтезирован Trillium TTS (Gnuspech) с использованием модели голосового тракта DSP.

Проблемы с воспроизведением этого файла? См. справку для СМИ .

Ссылки

^ https://directory.fsf.org/wiki/gnuspeech . {{cite web}}: Отсутствует или пусто |title= ( помощь )
^ КУК, PR (1989) Синтез певческого голоса с использованием физически параметризованной модели речевого тракта человека. Международная конференция компьютерной музыки, Колумбус, Огайо
^ КАРРЕ, Р. (1992) Отличительные области в акустических трубках. Моделирование речевой продукции. Journal d'Acoustique, 5, 141–159.
^ Сейчас Департамент речи, музыки и слуха.
^ ФАНТ, Г. и ПАУЛИ, С. (1974) Пространственные характеристики моделей резонанса речевого тракта. Материалы Стокгольмского семинара по речевой коммуникации, KTH , Стокгольм, Швеция.
^ Соответствующий веб-сайт Университета Калгари.
^ Синтезатор речи модели лампового резонанса
^ ХИЛЛ, ДР, МАНЗАРА, Л. И ТАУБ-ШОК, CR. (1995) Артикуляционный синтез речи в реальном времени по правилам. Учеб. AVIOS '95, 14-я ежегодная международная конференция голосовых технологий, Сан-Хосе, 12–14 сентября 1995 г., 27–44.
^ Д'Эсте, Ф. - Синтез артикуляционной речи с помощью параллельного многоцелевого генетического алгоритма. Магистерская диссертация, Лейденский институт передовых компьютерных наук, 2010 г.
^ Сюн, Ф.; Баркер, Дж. - Глубокое изучение артикуляционных представлений и их применение для улучшения распознавания дизартричной речи. Конференция ITG по речевой коммуникации, Германия, 2018.

Внешние ссылки

[wikidata-11394c46a421cfb4f2c5f1fe4a3af522b7679d35-v13-1] ttps://directory.fsf.org/wiki/gnuspeech . {{cite web}}: Отсутствует или пусто |title= ( помощь )

[2] КУК, PR (1989) Синтез певческого голоса с использованием физически параметризованной модели речевого тракта человека. Международная конференция компьютерной музыки, Колумбус, Огайо

[3] КАРРЕ, Р. (1992) Отличительные области в акустических трубках. Моделирование речевой продукции. Journal d'Acoustique, 5, 141–159.

[4] Сейчас Департамент речи, музыки и слуха.

[5] ФАНТ, Г. и ПАУЛИ, С. (1974) Пространственные характеристики моделей резонанса речевого тракта. Материалы Стокгольмского семинара по речевой коммуникации, KTH , Стокгольм, Швеция.

[6] Соответствующий веб-сайт Университета Калгари.

[7] Синтезатор речи модели лампового резонанса

[8] ХИЛЛ, ДР, МАНЗАРА, Л. И ТАУБ-ШОК, CR. (1995) Артикуляционный синтез речи в реальном времени по правилам. Учеб. AVIOS '95, 14-я ежегодная международная конференция голосовых технологий, Сан-Хосе, 12–14 сентября 1995 г., 27–44.

[9] Д'Эсте, Ф. - Синтез артикуляционной речи с помощью параллельного многоцелевого генетического алгоритма. Магистерская диссертация, Лейденский институт передовых компьютерных наук, 2010 г.

[10] Сюн, Ф.; Баркер, Дж. - Глубокое изучение артикуляционных представлений и их применение для улучшения распознавания дизартричной речи. Конференция ITG по речевой коммуникации, Германия, 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]