Jump to content

Акустическая модель

Акустическая модель используется при автоматическом распознавании речи для представления взаимосвязи между звуковым сигналом и фонемами или другими лингвистическими единицами, составляющими речь. Модель изучается на основе набора аудиозаписей и соответствующих им расшифровок. Он создается путем создания аудиозаписей речи и их текстовой транскрипции и использования программного обеспечения для создания статистических представлений звуков, составляющих каждое слово.

Современные системы распознавания речи используют как акустическую модель, так и языковую модель для представления статистических свойств речи. Акустическая модель моделирует взаимосвязь между звуковым сигналом и фонетическими единицами языка. Языковая модель отвечает за моделирование последовательностей слов в языке. Эти две модели объединяются для получения последовательностей слов с самым высоким рейтингом, соответствующих данному аудиосегменту.

Большинство современных систем распознавания речи обрабатывают звук небольшими фрагментами, известными как кадры, примерной длительностью 10 мс на кадр. Необработанный аудиосигнал из каждого кадра можно преобразовать, применив мел-частотный кепстр . Коэффициенты этого преобразования широко известны как кепстральные коэффициенты мел-частоты (MFCC) и используются в качестве входных данных для акустической модели наряду с другими функциями.

В последнее время использование сверточных нейронных сетей привело к значительным улучшениям в акустическом моделировании. [1]

Характеристики звука речи

[ редактировать ]

Аудио может кодироваться с разной частотой дискретизации (т. е. выборками в секунду — наиболее распространенные из них: 8, 16, 32, 44,1, 48 и 96 кГц) и разными битами на выборку (наиболее распространенные: 8-битные, 16-битные). -бит, 24-бит или 32-бит). Механизмы распознавания речи работают лучше всего, если используемая ими акустическая модель была обучена с помощью речевого звука, записанного с той же частотой дискретизации/битов на семпл, что и распознаваемая речь.

Распознавание речи на основе телефонии

[ редактировать ]

Ограничивающим фактором для распознавания речи на основе телефонии является полоса пропускания, в которой может передаваться речь. Например, стандартный стационарный телефон имеет пропускную способность всего 64 кбит/с при частоте дискретизации 8 кГц и 8 бит на выборку (8000 выборок в секунду * 8 бит на выборку = 64000 бит/с). Поэтому для распознавания речи на основе телефонии акустические модели должны быть обучены с помощью речевых аудиофайлов с частотой 8 кГц/8 бит.

В случае по IP кодек передачи голоса определяет частоту дискретизации/количество битов на выборку передачи речи. Кодеки с более высокой частотой дискретизации/битами на выборку для передачи речи (которые улучшают качество звука) требуют акустических моделей, обученных аудиоданными, которые соответствуют этой частоте дискретизации/битам на выборку.

Распознавание речи на рабочем столе

[ редактировать ]

Для распознавания речи на стандартном настольном ПК ограничивающим фактором является звуковая карта . Большинство звуковых карт сегодня могут записывать звук с частотой дискретизации от 16 до 48 кГц, со скоростью передачи данных от 8 до 16 бит на выборку и воспроизводить с частотой до 96 кГц.

Как правило, механизм распознавания речи лучше работает с акустическими моделями, обученными с помощью речевых аудиоданных, записанных с более высокими частотами дискретизации и количеством битов на выборку. Но использование звука со слишком высокой частотой дискретизации/битами на выборку может замедлить работу механизма распознавания. Нужен компромисс. Таким образом, для настольного распознавания речи текущим стандартом являются акустические модели, обученные с помощью речевых аудиоданных, записанных с частотой дискретизации 16 кГц/16 бит на выборку.

  1. ^ Т. Саинат и др. ., «Сверточные нейронные сети для LVCSR», ICASSP , 2013.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fd07bab1e193fe00b0354e540209f282__1715315340
URL1:https://arc.ask3.ru/arc/aa/fd/82/fd07bab1e193fe00b0354e540209f282.html
Заголовок, (Title) документа по адресу, URL1:
Acoustic model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)