Нормализация кепстрального среднего и дисперсии
Эта статья нуждается в дополнительных цитатах для проверки . ( сентябрь 2014 г. ) |
Нормализация кепстрального среднего и дисперсии ( CMVN ) — это в вычислительном отношении эффективный метод нормализации для надежного распознавания речи . Известно, что производительность CMVN ухудшается при коротких высказываниях . Это происходит из-за недостаточности данных для оценки параметров и потери различимой информации, поскольку все высказывания вынуждены иметь нулевое среднее значение и единичную дисперсию . [1]
CMVN минимизирует искажения, вызванные шумовым загрязнением, для надежного извлечения признаков путем линейного преобразования кепстральных коэффициентов для получения одинаковой сегментной статистики. [2] Кепстральная нормализация оказалась эффективной в CMU Sphinx для поддержания высокого уровня точности распознавания в самых разных акустических средах. [3]
Методы кепстральной нормализации
[ редактировать ]Существует несколько алгоритмов, которые разными способами достигают кепстральной нормализации.
Фиксированная кепстральная нормализация, зависящая от кодового слова (FCDCN)
[ редактировать ]FCDCN был разработан как форма компенсации, которая обеспечивает более высокую точность распознавания, чем SDCN, но более эффективный в вычислительном отношении способ, чем алгоритм CDCN. Алгоритм FCDCN применяет аддитивную коррекцию, которая зависит от мгновенного отношения сигнал/шум на входе (например, SDCN), но также может варьироваться от кодового слова к кодовому слову (например, CDCN).
Множественная кепстральная нормализация, зависящая от фиксированного кодового слова (MFCDCN)
[ редактировать ]MFDCCN — это простое расширение алгоритма FCDCN, которое не требует специального обучения для конкретной среды. В MFDCCN векторы компенсации предварительно вычисляются параллельно для набора целевых сред с использованием алгоритма FCDCN.
Инкрементная множественная кепстральная нормализация, зависящая от фиксированного кодового слова (IMFCDCN)
[ редактировать ]В то время как выбор среды для векторов компенсации MFDCCN обычно выполняется для каждого высказывания, IMFCFCN улучшает его, позволяя процессу классификации использовать кепстральные векторы из предыдущих высказываний в данном сеансе.
Вычитание кепстрального шума
[ редактировать ]Автоматическое распознавание речи (ASR) описывает этапы расшифровки речевых высказываний, представленных в виде акустических волн, в письменные слова. Как бы то ни было, CMVN использовался в различных приложениях, поскольку этот метод доказал, что обеспечивает лучшие результаты распознавания речи в различных средах. CMVN имеет возможность уменьшить различия между тестовыми и обучающими данными, возникающие из-за искажений и раскрашивания каналов. Также было обнаружено, что CMVN способен уменьшить различия в представлении функций между динамиками, а также частично уменьшить влияние фонового шума. [4]
Ссылки
[ редактировать ]- ^ Прасад, Н.В., Умеш, С. «Улучшенная нормализация кепстрального среднего и дисперсии с использованием байесовской структуры», IEEE, 2013, Автоматическое распознавание и понимание речи (ASRU), Семинар IEEE 2013, стр. 156–161, дои : 10.1109/ASRU.2013.6707722
- ^ Вийкки О. и Лаурила К., « Нормализация вектора сегментных признаков кепстральной области для устойчивого к шуму распознавания речи », Speech Communication, 25(1-3):133-147, 1998 год
- ^ Лю Ф., Стерн Р., Хуанг Х. и Асеро А. (1993). Эффективная кепстральная нормализация для надежного распознавания речи . Учеб. Семинар ARPA по технологиям человеческого языка, Принстон, Нью-Джерси.
- ^ Рер, Р., и Геркманн, Т. (2015). Вычитание кепстрального шума для надежного автоматического распознавания речи. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP), 2015 г. дои : 10.1109/icassp.2015.7177994