Jump to content

Кодирование гармонического векторного возбуждения

(Перенаправлено с HVXC )

Гармоническое векторное кодирование возбуждения , сокращенно HVXC, представляет собой кодирования речи алгоритм , указанный в стандарте MPEG-4 Part 3 (MPEG-4 Audio) для кодирования речи с очень низкой скоростью передачи данных . HVXC поддерживает скорость передачи данных 2 и 4 кбит/с в режиме фиксированной и переменной скорости передачи данных и частоту дискретизации 8 кГц. Он также работает на более низких скоростях передачи данных, например 1,2–1,7 кбит/с, используя метод переменной скорости передачи данных. [1] Суммарная алгоритмическая задержка для кодера и декодера составляет 36 мс. [2]

Он был опубликован как подраздел 2 стандарта ISO / IEC 14496-3:1999 (MPEG-4 Audio) в 1999 году. [3] Расширенная версия HVXC была опубликована в MPEG-4 Audio Version 2 (ISO/IEC 14496-3:1999/Amd 1:2000). [4] [5]

Набор инструментов кодирования естественной речи MPEG-4 использует два алгоритма: HVXC и CELP ( линейное предсказание с возбуждением кода ). HVXC используется на низкой скорости передачи данных 2 или 4 кбит/с. CELP распространяется на скорости выше 4 кбит/с в дополнение к 3,85 кбит/с. [6]

Технология

[ редактировать ]

Линейное прогнозирующее кодирование

[ редактировать ]

HVXC использует кодирование с линейным прогнозированием (LPC) с блочной адаптацией каждые 20 мс. [2] Параметры LPC преобразуются в коэффициенты линейных спектральных пар (LSP), которые подвергаются совместному квантованию. [2] Остаточный сигнал LPC классифицируется как вокализованный или невокализованный . В случае вокализованной речи остаток кодируется в параметрическом представлении (работает как вокодер ), тогда как в случае невокализованной речи остаточная форма сигнала квантуется (таким образом, работая как гибридный речевой кодек).

Звонкое (гармоническое) остаточное кодирование

[ редактировать ]

В вокализованных сегментах остаточный сигнал представлен двумя параметрами: периодом основного тона и огибающей спектра. [2] Период основного тона оценивается по пиковым значениям автокорреляции остаточного сигнала. [2] В этом процессе остаточный сигнал сравнивается со сдвинутыми копиями самого себя, и сдвиг, который обеспечивает наибольшее сходство по мере линейной зависимости, идентифицируется как период основного тона. Спектральная огибающая представлена ​​набором значений амплитуд, по одному на гармонику . [2] Чтобы извлечь эти значения, остаточный сигнал LPC преобразуется в DFT -домен. [2] ДПФ-спектр сегментирован на полосы, по одной полосе на гармонику. Полоса частот m-й гармоники состоит из коэффициентов ДПФ от (m-1/2)ω 0 до (m+1/2)ω 0 , ω 0 — основная частота. [2] Значение амплитуды m-й гармоники выбирается таким образом, чтобы оптимально представить эти коэффициенты ДПФ. [2] Информация о фазе в этом процессе отбрасывается. Спектральная огибающая затем кодируется с использованием взвешенного векторного квантования переменной размерности . Этот процесс также называется Harmonic VQ .

Чтобы речь со смесью звонкого и глухого возбуждения звучала более естественно и плавно, различают три разных режима звонкой речи (Mixed Voiced-1, Mixed Voiced-2, Full Voiced). [2] Степень звонкости определяется значением нормированной автокорреляционной функции при сдвиге на один период тона. различное количество полосового гауссова шума В зависимости от выбранного режима декодер добавляет к синтезированному гармоническому сигналу .

Безголосое (VXC) остаточное кодирование

[ редактировать ]

Невокализованные сегменты кодируются по схеме CELP , которую также называют векторным кодированием возбуждения (VXC). [2] CELP-кодирование в HVXQ выполняется с использованием только стохастической кодовой книги. В других кодеках CELP динамическая кодовая книга используется дополнительно для выполнения долгосрочного прогнозирования голосовых сегментов. Однако, поскольку HVXC не использует CELP для голосовых сегментов, динамическая кодовая книга исключена из проекта.

См. также

[ редактировать ]
  1. ^ ISO / IEC (01.09.2009), ISO/IEC 14496-3:2009 - Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио (PDF) , IEC , получено 7 октября 2009 г.
  2. ^ Перейти обратно: а б с д и ж г час я дж к Масаюки Нисигути (17 апреля 2006 г.), Гармоническое векторное кодирование речи (PDF) , Акустическая наука и технологии , получено 9 октября 2009 г.
  3. ^ ИСО (1999). «ИСО/МЭК 14496-3:1999 – Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио» . ИСО . Проверено 9 октября 2009 г.
  4. ^ ИСО (2000). «ISO/IEC 14496-3:1999/Поправка 1:2000 – Расширения аудио» . ИСО . Проверено 7 октября 2009 г.
  5. ^ ISO / IEC JTC 1/SC 29/WG 11 (июль 1999 г.), ISO/IEC 14496-3:/Amd.1 — Проект итогового комитета — MPEG-4 Audio Version 2 (PDF) , заархивировано из оригинала (PDF) на 01 августа 2012 г. , получено 7 октября 2009 г. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  6. ^ Карлхайнц Бранденбург; Оливер Кунц; Акихико Сугияма. «Кодирование естественного звука MPEG-4 — инструменты кодирования естественной речи» (PDF) . Проверено 25 марта 2013 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 104447613d13bd18416ec550decd12a1__1714071840
URL1:https://arc.ask3.ru/arc/aa/10/a1/104447613d13bd18416ec550decd12a1.html
Заголовок, (Title) документа по адресу, URL1:
Harmonic Vector Excitation Coding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)