Перцептивная оценка качества звука

Перцепционная оценка качества звука ( PEAQ ) — это стандартизированный алгоритм объективного измерения воспринимаемого качества звука , разработанный в 1994–1998 годах совместным предприятием экспертов Целевой группы 6Q Сектора радиосвязи Международного союза электросвязи ( ITU-R ). Первоначально он был выпущен как Рекомендация ITU-R BS.1387 в 1998 году и последний раз обновлялся в 2023 году. Он использует программное обеспечение для моделирования перцепционных свойств человеческого уха , а затем объединяет несколько выходных переменных модели в единый показатель.

PEAQ характеризует воспринимаемое качество звука так, как это делали бы испытуемые при тесте на прослушивание в соответствии с ITU-R BS.1116. Результаты PEAQ в основном моделируют средние оценки мнений, которые охватывают шкалу от 1 (плохо) до 5 (отлично). Оценка субъективной разницы (SDG), которая измеряет степень повреждения при сжатии (ухудшения), определяется как разница между оценками протестированной версии и эталоном (источником). ЦУР обычно находится в диапазоне от 0 (отсутствие предполагаемого ухудшения) до -4 (ужасное ухудшение). Оценка объективной разницы (ODG) — это фактический результат работы алгоритма, разработанный для соответствия SDG. ^{[ 1 ]}

Описание обесценения	Оценка BS.1284 ^{[ 2 ]}	ОТВЕЧАТЬ
Незаметный	5.0	0.0
Заметно, но не раздражает	4.0	−1.0
Немного раздражает	3.0	−2.0
Раздражающий	2.0	−3.0
Очень раздражает	1.0	−4.0

Мотивация

Необходимость сохранения полосы пропускания привела к развитию сжатия передаваемых аудиоданных. Различные методы кодирования устраняют как избыточность, так и перцептивную нерелевантность аудиосигнала, так что скорость передачи данных, необходимая для кодирования сигнала, значительно снижается. Они принимают во внимание знания о слуховом восприятии человека и обычно достигают пониженной скорости передачи данных, игнорируя аудиоинформацию, которую большинство слушателей вряд ли услышат. Традиционные измерения звука, такие как частотная характеристика на основе синусоидальной развертки, соотношение сигнал/шум, THD+N, не обязательно хорошо коррелируют с качеством аудиокодека. Психоакустическая модель должна использоваться для прогнозирования того, как информация маскируется более громким звуковым контентом, близким по времени и частоте.

Поскольку субъективные прослушивающие тесты отнимают много времени, дороги и непрактичны для повседневного использования, было полезно заменить прослушивающие тесты объективными компьютерными методами. Под руководством Целевой группы 6Q МСЭ-R группа ведущих экспертов по качеству звука разработала новую объективную модель качества звука: PEAQ. Этими участниками были:

OPTICOM GmbH, Эрланген, Германия
Институт Фраунгофера , IIS-A, Эрланген, Германия интегральных микросхем
Deutsche Telekom Berkom, Берлин, Германия
, Берлинский университет Берлин, Германия
Институт технологий радиовещания , IRT, Мюнхен, Германия
КПН Исследования , Доктор. Лаборатория Неера, Лейдсендам, Нидерланды
Объединенный центр исследований телевидения и телекоммуникаций , Франция
Центр коммуникационных исследований, CRC, Оттава, Канада

Принципы

При перцептивном кодировании крайне важно определить уровень шума, который может быть внесен в сигнал до того, как он станет слышимым. Поскольку слуховая система человека сильно нелинейна, уровни шума меняются в зависимости от временных и частотных характеристик аудиосигнала. Психоакустические исследования могут определить пороговые критерии для различных акустических событий и возникающих в результате воспринимаемых звуков. Ключом является маскировка , которая описывает эффект, который звук производит на другой одновременный звук. Маскирование зависит от спектрального состава маскера и маскирующего сигнала, а также от других изменений со временем. Базовая блок-схема системы перцептивного кодирования показана на рисунке.

Входной сигнал разлагается на субдискретизированные спектральные компоненты. Для каждого образца оценка фактического маскированного порога определяется с использованием правил, известных из психоакустики. Это перцептивная модель системы кодирования. Спектральные компоненты квантуются и кодируются, при этом шум квантования остается ниже маскированного порога. Наконец, битовый поток формируется .

Анализ результатов основан на шкале субъективных различий . Он сравнивает тестируемый сигнал с исходным опорным сигналом.

Модели

Модель учитывает фундаментальные свойства слуховой системы и различает стадии физиологических и психоакустических эффектов. Первая часть моделирует построение сигнала с помощью дискретного преобразования Фурье и банков фильтров. Вторая часть обеспечивает когнитивную обработку, как это делает человеческий мозг. Следующее изображение представляет собой простую блок-схему взаимосвязи между аудиосистемой человека и объективной психоакустической моделью.

В результате сравнения модели тестового сигнала с (исходным) опорным сигналом выводится ряд выходных переменных модели. Каждая выходная переменная модели может измерять различные психоакустические параметры. На заключительном этапе выходные переменные модели объединяются с помощью нейронной сети (веса определены в стандарте) для получения результата, который выдерживает субъективную оценку качества.

Есть две вариации модели. Базовая версия (менее интенсивная обработка) была разработана как достаточно быстрая для мониторинга в реальном времени и использует только БПФ. Расширенная версия требует больше вычислительных ресурсов и может давать немного более точные результаты; он использует БПФ и банки фильтров для создания большего количества MOV для работы нейронной сети.

Лицензия

Технология PEAQ, рекомендованная ITU-R Rec. BS.1387 защищен несколькими патентами и доступен по лицензии вместе с исходным кодом для коммерческих приложений в соответствии с справедливыми, разумными и недискриминационными условиями МСЭ.

Бесплатные реализации

Ранняя реализация базовой модели с открытым исходным кодом, названная EAQUAL, была прекращена в 2002 году из-за претензий о нарушении патентных прав.
Для использования в образовательных целях существует бесплатная кроссплатформенная программа под названием Peaqb, которая выполняет те же функции ограниченным образом, поскольку не была проверена на основе данных МСЭ. Оценка авторов GstPEAQ показывает среднеквадратическое отклонение 0,2063 для 16 тестовых векторов ITU. ^{[ 3 ]}
Еще одна непроверенная реализация базовой модели PEAQ для использования в образовательных целях, PQevalAudio, доступна в лаборатории TSP Университета Макгилла. Оценка авторов GstPEAQ показывает среднеквадратическое отклонение 0,2329 для 16 тестовых векторов ITU. ^{[ 3 ]}
GstPEAQ реализует как базовую, так и расширенную модели, но не соответствует допускам BS.1387-1. Тем не менее, отличие от соответствия (RMSE 0,2009 в базовом режиме) меньше, чем в предыдущих реализациях с открытым исходным кодом. Автор также обнаружил, что разница статистически незначима с точки зрения использования ODG в качестве оценки ЦУР. ^{[ 3 ]}

См. также

Ссылки

^ Рек. МСЭ-R BS.1387-2, страницы 10–11
^ Рекомендация МСЭ BS.1284
^ Jump up to: ^а ^б ^с Холтерс, Мартин; Зёльцер, Удо (2015). GstPEAQ — реализация алгоритма PEAQ с открытым исходным кодом . 18-й Международный. Конференция по цифровым аудиоэффектам (DAFx-15). Тронхейм, Норвегия.

Дальнейшее чтение

Рекомендация МСЭ-R BS.1387 : Метод объективного измерения воспринимаемого качества звука (PEAQ).
Рекомендация МСЭ-R BS.1116 : Методы субъективной оценки небольших ухудшений в аудиосистемах, включая многоканальные звуковые системы.
Рекомендация МСЭ-R BS.1534 : Метод субъективной оценки промежуточных уровней качества систем кодирования (MUSHRA).
Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2007). «Меры качества перцептивного аудиокодирования». Обработка и кодирование аудиосигналов . Уайли-Интерсайенс . стр. 401 . ISBN 978-0-47179147-8 .
Цвейич, Неделько; Сеппянен, Тапио Тапио (2007). «Субъективная и объективная оценка качества аудио с водяной маркировкой». Методы и технологии нанесения водяных знаков на цифровое аудио . Idea Group Inc. с. 270. ИСБН 978-1-59904515-3 .
Дельгадо, Пабло М.; Эрре, Юрген (май 2020 г.). Можем ли мы по-прежнему использовать PEAQ? Анализ эффективности стандарта ITU для объективной оценки воспринимаемого качества звука . 2020 Двенадцатая Международная конференция по качеству мультимедийного опыта (QoMEX). стр. 1–6. arXiv : 2212.01467 . дои : 10.1109/QoMEX48832.2020.9123105 . – обнаруживает, что PEAQ отстает от других объективных методов с точки зрения точности, но переобучение нейронной сети MOV-ODG дает модель, превосходящую другие объективные методы

Внешние ссылки

http://www.peaq.org Официальный сайт PEAQ
https://web.archive.org/web/20061207095623/http://www.crc.ca/en/html/aas/home/peaq/peaq PEAQ в CRC
https://web.archive.org/web/20090423074959/http://www.opticom.de/technology/technology.html Информация PEAQ от OPTICOM
http://elvera.nue.tu-berlin.de/files/0829Thiede1998.pdf PEAQ — будущий стандарт ITU для объективного измерения воспринимаемого качества звука
https://ieeexplore.ieee.org/document/1613524 IEEE — оценка воспринимаемого качества аудиосистемы с использованием алгоритма PEAQ
http://sourceforge.net/projects/peaqb/ Проект Peaqb
http://www-mmsp.ece.mcgill.ca/Documents/Software/index.html PQevalAudio — реализация базовой модели PEAQ в Matlab и C.
http://www.mp3-tech.org/programmer/sources/eaqual.tgz Исходный код EAQUAL

[BS1387-2-1] Рек. МСЭ-R BS.1387-2, страницы 10–11

[BS1284-2] Рекомендация МСЭ BS.1284

[GstPEAQ-3] Jump up to: ^а ^б ^с Холтерс, Мартин; Зёльцер, Удо (2015). GstPEAQ — реализация алгоритма PEAQ с открытым исходным кодом . 18-й Международный. Конференция по цифровым аудиоэффектам (DAFx-15). Тронхейм, Норвегия.

[ 1 ]

[ 2 ]

[ 3 ]