Jump to content

Аудиовизуальное распознавание речи

Аудиовизуальное распознавание речи (AVSR) — это метод, который использует обработки изображений возможности при чтении по губам , чтобы помочь системам распознавания речи распознавать недетерминированные телефоны или давать преимущество среди решений, близких к вероятности.

Каждая система чтения по губам и распознавания речи работает отдельно, затем их результаты смешиваются на этапе объединения функций . Как следует из названия, он состоит из двух частей. Первая часть — звуковая, вторая — визуальная. В аудиочасти мы используем такие функции, как логарифмическая спектрограмма, mfcc и т. д. из необработанных аудиосэмплов, и строим модель, чтобы получить из нее вектор признаков. Для визуальной части обычно мы используем тот или иной вариант сверточной нейронной сети для сжатия изображения в вектор признаков, после чего мы объединяем эти два вектора (аудио и визуальный) и пытаемся предсказать целевой объект.

[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 141d26cb85f289b3b6745708cf3432fe__1663712460
URL1:https://arc.ask3.ru/arc/aa/14/fe/141d26cb85f289b3b6745708cf3432fe.html
Заголовок, (Title) документа по адресу, URL1:
Audio-visual speech recognition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)