Нормализация кепстрального среднего и дисперсии

Нормализация кепстрального среднего и дисперсии ( CMVN ) — это в вычислительном отношении эффективный метод нормализации для надежного распознавания речи . Известно, что производительность CMVN ухудшается при коротких высказываниях . Это происходит из-за недостаточности данных для оценки параметров и потери различимой информации, поскольку все высказывания вынуждены иметь нулевое среднее значение и единичную дисперсию . ^[1]

CMVN минимизирует искажения, вызванные шумовым загрязнением, для надежного извлечения признаков путем линейного преобразования кепстральных коэффициентов для получения одинаковой сегментной статистики. ^[2] Кепстральная нормализация оказалась эффективной в CMU Sphinx для поддержания высокого уровня точности распознавания в самых разных акустических средах. ^[3]

Методы кепстральной нормализации

Существует несколько алгоритмов, которые разными способами достигают кепстральной нормализации.

Фиксированная кепстральная нормализация, зависящая от кодового слова (FCDCN)

FCDCN был разработан как форма компенсации, которая обеспечивает более высокую точность распознавания, чем SDCN, но более эффективный в вычислительном отношении способ, чем алгоритм CDCN. Алгоритм FCDCN применяет аддитивную коррекцию, которая зависит от мгновенного отношения сигнал/шум на входе (например, SDCN), но также может варьироваться от кодового слова к кодовому слову (например, CDCN).

Множественная кепстральная нормализация, зависящая от фиксированного кодового слова (MFCDCN)

MFDCCN — это простое расширение алгоритма FCDCN, которое не требует специального обучения для конкретной среды. В MFDCCN векторы компенсации предварительно вычисляются параллельно для набора целевых сред с использованием алгоритма FCDCN.

Инкрементная множественная кепстральная нормализация, зависящая от фиксированного кодового слова (IMFCDCN)

В то время как выбор среды для векторов компенсации MFDCCN обычно выполняется для каждого высказывания, IMFCFCN улучшает его, позволяя процессу классификации использовать кепстральные векторы из предыдущих высказываний в данном сеансе.

Вычитание кепстрального шума

Автоматическое распознавание речи (ASR) описывает этапы расшифровки речевых высказываний, представленных в виде акустических волн, в письменные слова. Как бы то ни было, CMVN использовался в различных приложениях, поскольку этот метод доказал, что обеспечивает лучшие результаты распознавания речи в различных средах. CMVN имеет возможность уменьшить различия между тестовыми и обучающими данными, возникающие из-за искажений и раскрашивания каналов. Также было обнаружено, что CMVN способен уменьшить различия в представлении функций между динамиками, а также частично уменьшить влияние фонового шума. ^[4]

Ссылки

^ Прасад, Н.В., Умеш, С. «Улучшенная нормализация кепстрального среднего и дисперсии с использованием байесовской структуры», IEEE, 2013, Автоматическое распознавание и понимание речи (ASRU), Семинар IEEE 2013, стр. 156–161, дои : 10.1109/ASRU.2013.6707722
^ Вийкки О. и Лаурила К., « Нормализация вектора сегментных признаков кепстральной области для устойчивого к шуму распознавания речи », Speech Communication, 25(1-3):133-147, 1998 год
^ Лю Ф., Стерн Р., Хуанг Х. и Асеро А. (1993). Эффективная кепстральная нормализация для надежного распознавания речи . Учеб. Семинар ARPA по технологиям человеческого языка, Принстон, Нью-Джерси.
^ Рер, Р., и Геркманн, Т. (2015). Вычитание кепстрального шума для надежного автоматического распознавания речи. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP), 2015 г. дои : 10.1109/icassp.2015.7177994

Эта по информатике статья незавершена . Вы можете помочь Википедии, расширив ее .

[1] Прасад, Н.В., Умеш, С. «Улучшенная нормализация кепстрального среднего и дисперсии с использованием байесовской структуры», IEEE, 2013, Автоматическое распознавание и понимание речи (ASRU), Семинар IEEE 2013, стр. 156–161, дои : 10.1109/ASRU.2013.6707722

[2] Вийкки О. и Лаурила К., « Нормализация вектора сегментных признаков кепстральной области для устойчивого к шуму распознавания речи », Speech Communication, 25(1-3):133-147, 1998 год

[efficent_cepstral-3] Лю Ф., Стерн Р., Хуанг Х. и Асеро А. (1993). Эффективная кепстральная нормализация для надежного распознавания речи . Учеб. Семинар ARPA по технологиям человеческого языка, Принстон, Нью-Джерси.

[4] Рер, Р., и Геркманн, Т. (2015). Вычитание кепстрального шума для надежного автоматического распознавания речи. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP), 2015 г. дои : 10.1109/icassp.2015.7177994

[1]

[2]

[3]

[4]