Jump to content

Нормализация кепстрального среднего и дисперсии

Нормализация кепстрального среднего и дисперсии ( CMVN ) — это в вычислительном отношении эффективный метод нормализации для надежного распознавания речи . Известно, что производительность CMVN ухудшается при коротких высказываниях . Это происходит из-за недостаточности данных для оценки параметров и потери различимой информации, поскольку все высказывания вынуждены иметь нулевое среднее значение и единичную дисперсию . [1]

CMVN минимизирует искажения, вызванные шумовым загрязнением, для надежного извлечения признаков путем линейного преобразования кепстральных коэффициентов для получения одинаковой сегментной статистики. [2] Кепстральная нормализация оказалась эффективной в CMU Sphinx для поддержания высокого уровня точности распознавания в самых разных акустических средах. [3]

Методы кепстральной нормализации

[ редактировать ]

Существует несколько алгоритмов, которые разными способами достигают кепстральной нормализации.

Фиксированная кепстральная нормализация, зависящая от кодового слова (FCDCN)

[ редактировать ]

FCDCN был разработан как форма компенсации, которая обеспечивает более высокую точность распознавания, чем SDCN, но более эффективный в вычислительном отношении способ, чем алгоритм CDCN. Алгоритм FCDCN применяет аддитивную коррекцию, которая зависит от мгновенного отношения сигнал/шум на входе (например, SDCN), но также может варьироваться от кодового слова к кодовому слову (например, CDCN).

Множественная кепстральная нормализация, зависящая от фиксированного кодового слова (MFCDCN)

[ редактировать ]

MFDCCN — это простое расширение алгоритма FCDCN, которое не требует специального обучения для конкретной среды. В MFDCCN векторы компенсации предварительно вычисляются параллельно для набора целевых сред с использованием алгоритма FCDCN.

Инкрементная множественная кепстральная нормализация, зависящая от фиксированного кодового слова (IMFCDCN)

[ редактировать ]

В то время как выбор среды для векторов компенсации MFDCCN обычно выполняется для каждого высказывания, IMFCFCN улучшает его, позволяя процессу классификации использовать кепстральные векторы из предыдущих высказываний в данном сеансе.

Вычитание кепстрального шума

[ редактировать ]

Автоматическое распознавание речи (ASR) описывает этапы расшифровки речевых высказываний, представленных в виде акустических волн, в письменные слова. Как бы то ни было, CMVN использовался в различных приложениях, поскольку этот метод доказал, что обеспечивает лучшие результаты распознавания речи в различных средах. CMVN имеет возможность уменьшить различия между тестовыми и обучающими данными, возникающие из-за искажений и раскрашивания каналов. Также было обнаружено, что CMVN способен уменьшить различия в представлении функций между динамиками, а также частично уменьшить влияние фонового шума. [4]

  1. ^ Прасад, Н.В., Умеш, С. «Улучшенная нормализация кепстрального среднего и дисперсии с использованием байесовской структуры», IEEE, 2013, Автоматическое распознавание и понимание речи (ASRU), Семинар IEEE 2013, стр. 156–161, дои : 10.1109/ASRU.2013.6707722
  2. ^ Вийкки О. и Лаурила К., « Нормализация вектора сегментных признаков кепстральной области для устойчивого к шуму распознавания речи », Speech Communication, 25(1-3):133-147, 1998 год
  3. ^ Лю Ф., Стерн Р., Хуанг Х. и Асеро А. (1993). Эффективная кепстральная нормализация для надежного распознавания речи . Учеб. Семинар ARPA по технологиям человеческого языка, Принстон, Нью-Джерси.
  4. ^ Рер, Р., и Геркманн, Т. (2015). Вычитание кепстрального шума для надежного автоматического распознавания речи. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP), 2015 г. дои : 10.1109/icassp.2015.7177994


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: de5b9b00eebbe81992e70278b44f45b5__1712889660
URL1:https://arc.ask3.ru/arc/aa/de/b5/de5b9b00eebbe81992e70278b44f45b5.html
Заголовок, (Title) документа по адресу, URL1:
Cepstral mean and variance normalization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)