Кодирование гармонического векторного возбуждения
Гармоническое векторное кодирование возбуждения , сокращенно HVXC, представляет собой кодирования речи алгоритм , указанный в стандарте MPEG-4 Part 3 (MPEG-4 Audio) для кодирования речи с очень низкой скоростью передачи данных . HVXC поддерживает скорость передачи данных 2 и 4 кбит/с в режиме фиксированной и переменной скорости передачи данных и частоту дискретизации 8 кГц. Он также работает на более низких скоростях передачи данных, например 1,2–1,7 кбит/с, используя метод переменной скорости передачи данных. [1] Суммарная алгоритмическая задержка для кодера и декодера составляет 36 мс. [2]
Он был опубликован как подраздел 2 ISO / IEC 14496-3:1999 (MPEG-4 Audio) в 1999 году. [3] Расширенная версия HVXC была опубликована в MPEG-4 Audio Version 2 (ISO/IEC 14496-3:1999/Amd 1:2000). [4] [5]
Набор инструментов кодирования естественной речи MPEG-4 использует два алгоритма: HVXC и CELP ( линейное предсказание с возбуждением кода ). HVXC используется на низкой скорости передачи данных 2 или 4 кбит/с. CELP распространяется на скорости выше 4 кбит/с в дополнение к 3,85 кбит/с. [6]
Технология [ править ]
Линейное прогнозирующее кодирование
HVXC использует линейное прогнозирующее кодирование (LPC) с блочной адаптацией каждые 20 мс. [2] Параметры LPC преобразуются в коэффициенты линейных спектральных пар (LSP), которые подвергаются совместному квантованию. [2] Остаточный сигнал LPC классифицируется как вокализованный или невокализованный . В случае вокализованной речи остаток кодируется в параметрическом представлении (работает как вокодер ), тогда как в случае невокализованной речи остаточная форма сигнала квантуется (таким образом, работая как гибридный речевой кодек).
Звонкое (гармоническое кодирование остаточное )
В вокализованных сегментах остаточный сигнал представлен двумя параметрами: периодом основного тона и огибающей спектра. [2] Период основного тона оценивается по пиковым значениям автокорреляции остаточного сигнала. [2] В этом процессе остаточный сигнал сравнивается со сдвинутыми копиями самого себя, и сдвиг, который обеспечивает наибольшее сходство по мере линейной зависимости, идентифицируется как период основного тона. Спектральная огибающая представлена набором значений амплитуд, по одному на гармонику . [2] Чтобы извлечь эти значения, остаточный сигнал LPC преобразуется в DFT -домен. [2] ДПФ-спектр сегментирован на полосы, по одной полосе на гармонику. Полоса частот m-й гармоники состоит из коэффициентов ДПФ от (m-1/2)ω 0 до (m+1/2)ω 0 , ω 0 — основная частота. [2] Значение амплитуды m-й гармоники выбирается таким образом, чтобы оптимально представить эти коэффициенты ДПФ. [2] Информация о фазе в этом процессе отбрасывается. Спектральная огибающая затем кодируется с использованием взвешенного векторного квантования переменной размерности . Этот процесс также называется Harmonic VQ .
Чтобы речь со смесью звонкого и глухого возбуждения звучала более естественно и плавно, различают три разных режима звонкой речи (Mixed Voiced-1, Mixed Voiced-2, Full Voiced). [2] Степень звонкости определяется значением нормированной автокорреляционной функции при сдвиге на один период тона. различное количество полосового гауссова шума В зависимости от выбранного режима декодер добавляет к синтезированному гармоническому сигналу .
Безголосое (VXC кодирование остаточное )
Невокализованные сегменты кодируются по схеме CELP , которую также называют векторным кодированием возбуждения (VXC). [2] CELP-кодирование в HVXQ выполняется с использованием только стохастической кодовой книги. В других кодеках CELP динамическая кодовая книга используется дополнительно для выполнения долгосрочного прогнозирования голосовых сегментов. Однако, поскольку HVXC не использует CELP для голосовых сегментов, динамическая кодовая книга исключена из проекта.
См. также [ править ]
Ссылки [ править ]
- ^ ISO / IEC (01.09.2009), ISO/IEC 14496-3:2009 - Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио (PDF) , IEC , получено 7 октября 2009 г.
- ^ Перейти обратно: а б с д и ж г час я дж к Масаюки Нисигути (17 апреля 2006 г.), Гармоническое векторное кодирование речи (PDF) , Акустическая наука и технологии , получено 9 октября 2009 г.
- ^ ИСО (1999). «ИСО/МЭК 14496-3:1999 – Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио» . ИСО . Проверено 9 октября 2009 г.
- ^ ИСО (2000). «ISO/IEC 14496-3:1999/Поправка 1:2000 – Расширения аудио» . ИСО . Проверено 7 октября 2009 г.
- ^ ISO / IEC JTC 1/SC 29/WG 11 (июль 1999 г.), ISO/IEC 14496-3:/Amd.1 — Проект итогового комитета — MPEG-4 Audio Version 2 (PDF) , заархивировано из оригинала (PDF) на 01 августа 2012 г. , получено 7 октября 2009 г.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Карлхайнц Бранденбург; Оливер Кунц; Акихико Сугияма. «Кодирование естественного звука MPEG-4 — инструменты кодирования естественной речи» (PDF) . Проверено 25 марта 2013 г.