Аудиовизуальное распознавание речи

Аудиовизуальное распознавание речи (AVSR) — это метод, который использует обработки изображений возможности при чтении по губам , чтобы помочь системам распознавания речи распознавать недетерминированные телефоны или давать преимущество среди решений, близких к вероятности.

Каждая система чтения по губам и распознавания речи работает отдельно, затем их результаты смешиваются на этапе объединения функций . Как следует из названия, он состоит из двух частей. Первая часть — звуковая, вторая — визуальная. В аудиочасти мы используем такие функции, как логарифмическая спектрограмма, mfcc и т. д. из необработанных аудиосэмплов, и строим модель, чтобы получить из нее вектор признаков. Для визуальной части обычно мы используем тот или иной вариант сверточной нейронной сети для сжатия изображения в вектор признаков, после чего мы объединяем эти два вектора (аудио и визуальный) и пытаемся предсказать целевой объект.

Внешние ссылки

Эта компьютерной лингвистике статья, посвященная , незавершена . Вы можете помочь Википедии, расширив ее .