Аудиовизуальное распознавание речи
Аудиовизуальное распознавание речи (AVSR) — это метод, который использует обработки изображений возможности при чтении по губам , чтобы помочь системам распознавания речи распознавать недетерминированные телефоны или давать преимущество среди решений, близких к вероятности.
Каждая система чтения по губам и распознавания речи работает отдельно, затем их результаты смешиваются на этапе объединения функций . Как следует из названия, он состоит из двух частей. Первая часть — звуковая, вторая — визуальная. В аудиочасти мы используем такие функции, как логарифмическая спектрограмма, mfcc и т. д. из необработанных аудиосэмплов, и строим модель, чтобы получить из нее вектор признаков. Для визуальной части обычно мы используем тот или иной вариант сверточной нейронной сети для сжатия изображения в вектор признаков, после чего мы объединяем эти два вектора (аудио и визуальный) и пытаемся предсказать целевой объект.
Внешние ссылки
[ редактировать ]- IBM Research — аудиовизуальные речевые технологии
- Хочу послушать на коктейльной вечеринке
- Блог Google по искусственному интеллекту