Перцептивный объективный анализ качества прослушивания

Перцепционный объективный анализ качества прослушивания ( POLQA ) — рабочее название стандарта ITU-T , охватывающего модель прогнозирования качества речи посредством анализа цифровых речевых сигналов. ^[1] Модель была стандартизирована как Рекомендация ITU-T P.863 (Перцептуальная объективная оценка качества прослушивания) в 2011 году. Второе издание стандарта появилось в 2014 году, а третье, действующее в настоящее время издание было принято в 2018 году под названием Перцепционная объективная оценка качества прослушивания. прогноз качества прослушивания. ^[2]

Область измерения

POLQA охватывает модель прогнозирования качества речи. ^[3]^[4] посредством цифрового анализа речевого сигнала. Прогнозы этих объективных показателей должны быть как можно ближе к субъективным оценкам качества, полученным в ходе субъективных тестов на прослушивание. Обычно прогнозируется средний балл мнений (MOS). POLQA использует реальную речь в качестве тестового стимула для оценки телефонных сетей.

Технологические возможности

POLQA является преемником PESQ (Рекомендация ITU-T P.862). ^[5] POLQA позволяет избежать недостатков текущей модели P.862 и расширена для обработки аудиосигналов с более широкой полосой пропускания. Дальнейшие улучшения направлены на обработку сигналов времени, называемых сигналами, и сигналов со многими вариациями задержки. Аналогично P.862, POLQA поддерживает измерения в обычном телефонном диапазоне (300–3400 Гц), но помимо этого имеет второй режим работы для оценки HD-Voice в широкополосных и сверхширокополосных речевых сигналах (50–14000 Гц). POLQA также нацелена на оценку речевых сигналов, акустически записываемых искусственной головой с имитаторами рта и ушей.

История развития

Деятельность POLQA началась в МСЭ-Т в начале 2006 года под рабочим названием P.OLQA. В середине 2009 года был объявлен конкурс на оценку нескольких моделей-кандидатов. В мае 2010 года ITU-T выбрал модели-кандидаты от трех компаний (OPTICOM, SwissQual/ Rohde & Schwarz и TNO ( Нидерландская организация прикладных научных исследований )). Три компании объединили свои подходы в одну модель, которая была принята как Рекомендация МСЭ-Т P.863. ^[2]

Генеалогия связанных стандартов

Семейство полных эталонных объективных измерений качества голоса ITU-T началось в 1997 году с Рекомендации ITU-T P.861 (PSQM), которая была заменена ITU-T P.862 (PESQ). ^[5] в 2001 году. Позже P.862 был дополнен Рекомендациями ITU-T P.862.1. ^[6] (сопоставление оценок PESQ со шкалой MOS), ITU-T P.862.2 ^[7] (широкополосные измерения) и ITU-T P.862.3 ^[8] (руководство по применению). Первое издание ITU-T P.863 (POLQA) ^[2] вступил в силу в 2011 году. Руководство по применению Рекомендации МСЭ-Т P.863 было утверждено в 2019 году и опубликовано как МСЭ-Т P.863.1. ^[9]

Помимо перечисленных выше полных эталонных методов, список стандартов объективного измерения качества голоса ITU-T также включает ITU-T P.563. ^[10] (безреферентный алгоритм).

Типология тестирования

POLQA, аналогичный P.862 PESQ, представляет собой алгоритм Full Reference (FR), который оценивает ухудшенный или обработанный речевой сигнал по отношению к исходному сигналу. Он сравнивает каждую выборку опорного сигнала (сторона говорящего) с каждой соответствующей выборкой ухудшенного сигнала (сторона слушателя). Перцептивные различия между обоими сигналами оцениваются как различия. Перцептивная психоакустическая модель основана на аналогичных моделях человеческого восприятия, таких как MP3 или AAC. По сути, сигналы анализируются в частотной области (в критических полосах) после применения маскирующих функций. Немаскированные различия между двумя представлениями сигнала будут считаться искажениями. Наконец, накопленные искажения в речевом файле отображаются по шкале качества от 1 до 5, как обычно для тестов MOS. Измерения FR обеспечивают высочайшую точность и повторяемость, но могут применяться только для специальных тестов в действующих сетях (например, инструменты тестирования для мобильных сетей).

POLQA представляет собой алгоритм полного эталона, который анализирует речевой сигнал по выборке после временного выравнивания соответствующих фрагментов эталонного и тестового сигнала. POLQA может применяться для обеспечения сквозной (E2E) оценки качества сети или характеристики отдельных сетевых компонентов.

Результаты POLQA в основном моделируют средние оценки мнений (MOS), которые охватывают шкалу от 1 (плохо) до 5 (отлично).

Описание алгоритма POLQA

Входными данными для алгоритма являются два сигнала, представленные двумя векторами данных, содержащими 16-битные выборки PCM. Первый вектор содержит выборки (неискаженного) опорного сигнала, тогда как второй вектор содержит выборки ухудшенного сигнала. Алгоритм POLQA состоит из блока временного выравнивания, средства оценки частоты дискретизации преобразователя частоты дискретизации, который используется для компенсации различий в частоте дискретизации входных сигналов, и фактической базовой модели, которая выполняет расчет MOS. На первом этапе определяется задержка между двумя входными сигналами и оценивается частота дискретизации двух сигналов относительно друг друга. Оценка частоты дискретизации основана на информации о задержке, рассчитанной посредством временного выравнивания. Если частота дискретизации отличается более чем примерно на 1%, сигнал с более высокой частотой дискретизации подвергается понижающей дискретизации. После каждого шага результаты сохраняются вместе со средним показателем надежности задержки, который является мерой качества оценки задержки. В конечном итоге выбирается результат этапа повторной выборки, который дал наибольшую общую надежность. После того как определена правильная задержка и компенсированы различия в частоте дискретизации, сигналы и информация о задержке передаются в базовую модель, которая рассчитывает заметность, а также раздражение от искажений и отображает их в шкале MOS. Гораздо более подробное и исчерпывающее описание алгоритма можно найти в . ^[2] Следующие несколько разделов предназначены только для того, чтобы дать обзор основ внутренней структуры POLQA.

Основная модель

Основным элементом базовой модели является модель восприятия, которая рассчитывается четыре раза с использованием разных параметров, чтобы справиться с различными основными типами искажений. Эти типы искажений можно разделить на аддитивные и вычитаемые искажения. Для обоих типов проводится дальнейшее различие между очень сильными и более слабыми эффектами. Входными данными для моделей восприятия являются формы сигналов и информация о задержке. Выходными данными является плотность помех, которая является мерой заметности искажений в сигналах. Перцепционная модель для основной ветви также создает индикаторы частотных искажений, шумовых и реверберационных искажений. Последующее переключение, которое срабатывает детектором очень сильных искажений, уменьшает четыре значения плотности возмущений до двух: одного для добавленных и одного для вычтенных искажений. Пока плотность возмущений является индикатором только заметности искажений, а когнитивные эффекты еще не учитываются. Однако когнитивные аспекты важны, когда людей просят оценить качество того, что они могут воспринимать. По сути, они преобразуют меру чувствительности (плотность возмущения) в меру раздражения. Это преобразование выполняется путем корректировки значений плотности возмущений для ситуаций с:

Значительные вариации уровней
Много повторений кадров
Сильный тембр
Спектральная плоскостность
Переключение шума во время речевых пауз
Множество вариантов задержки
Сильные изменения плотности возмущений с течением времени
Сильные колебания громкости сигналов

На этом этапе также рассчитываются еще два показателя: один для спектральной равномерности и один для изменений уровня.

Пока что все операции выполнялись над кадрами длительностью примерно 32 и 43 мс (в зависимости от частоты дискретизации и использования перекрытия 50%) и для каждой полосы Барка отдельно. На последнем этапе все индикаторы интегрируются по времени и частоте для расчета окончательного значения MOS LQO.

Модель восприятия

Ключевой концепцией модели восприятия является идеализация. Идея заключается в том, что POLQA должна имитировать тесты абсолютного рейтинга категории (ACR). Однако в тесте ACR испытуемые не имеют возможности сравниться с фактическим эталонным сигналом, когда они оценивают речевой сигнал. Вместо этого предполагается, что испытуемые понимают, как звучит идеальный сигнал, и используют это как собственный эталон. Следовательно, если их попросят оценить эталонный сигнал, который не является абсолютно идеальным (например, он имеет неправильную громкость или содержит слишком много тембра, шума или реверберации), он будет оценен хуже, чем идеальный. Таким образом, на этапе идеализации POLQA исправляет небольшие недостатки эталонных сигналов, чтобы получить тот же идеальный эталон для сравнения с ухудшенным сигналом, который люди использовали бы в своем сознании. Подобно идеализации опорного сигнала, некоторые искажения, присутствующие в ухудшенном сигнале, которые едва заметны при тесте ACR, будут частично компенсированы (например, небольшие сдвиги высоты тона, линейные частотные искажения). Модель восприятия начинается с масштабирования опорного сигнала до идеального среднего уровня активной речи примерно -26 дБов. Для ухудшенного сигнала такое масштабирование не выполняется. Предполагается, что любое отклонение уровня ухудшенного сигнала от идеального -26dBov должно расцениваться как ухудшение сигнала. Затем спектры обоих сигналов вычисляются с использованием БПФ с перекрытием кадров на 50% и длительностью от 32 мс до 43 мс (в зависимости от частоты дискретизации). Впоследствии небольшие сдвиги высоты тона ухудшенного сигнала будут устранены (устранение искажений частоты). Теперь спектры будут преобразованы в психоакустически мотивированную шкалу высоты звука путем объединения отдельных спектральных линий (элементов БПФ) в так называемые критические полосы. Используемая шкала высоты тона аналогична шкале Барка со средним разрешением 0,3 Барка на полосу. Результатом является плотность мощности тона. На этом этапе рассчитываются первые три показателя искажений: искажения АЧХ, аддитивный шум и реверберации помещения. После этого определяется возбуждение каждой полосы. Это включает моделирование эффектов маскирования как в частотной, так и во временной области. В результате для каждого кадра каждого сигнала создается внутреннее представление, которое примерно указывает, насколько громко будет восприниматься каждый частотный компонент. Теперь происходит дальнейший этап идеализации опорного сигнала путем фильтрации чрезмерного тембра и стационарного шума низкого уровня. При этом из ухудшенного сигнала частично удаляются линейные частотные искажения и стационарные шумы. Вычитание идеализированных возбуждений в конечном итоге приводит к плотности искажений, которая является мерой слышимости искажений.

ПОЛКА в исследованиях

Документ, в котором используется POLQA для исследования влияния тонового языка и неродного аудирования на измерение качества речи, можно найти здесь. ^[11]

См. также

Ссылки

^ «POLQA — стандарт тестирования качества мобильной голосовой связи нового поколения» . www.polqa.info . Проверено 11 апреля 2021 г.
^ Перейти обратно: ^а ^б ^с ^д «P.863: Перцептивное объективное прогнозирование качества прослушивания» . www.itu.int . Проверено 11 апреля 2021 г.
^ Берендс, Джон Г.; Шмидмер, Кристиан; Бергер, Йенс; Оберманн, Матиас; Ульманн, Рафаэль; Поми, Иоахим; Кейл, Майкл (8 июля 2013 г.). «Перцептуальная объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть I — временное выравнивание» . Журнал Общества аудиоинженеров . 61 (6): 366–384.
^ Берендс, Джон Г.; Шмидмер, Кристиан; Бергер, Йенс; Оберманн, Матиас; Ульманн, Рафаэль; Поми, Иоахим; Кейл, Майкл (8 июля 2013 г.). «Перцепционная объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть II — модель восприятия» . Журнал Общества аудиоинженеров . 61 (6): 385–402.
^ Перейти обратно: ^а ^б «P.862: Перцепционная оценка качества речи (PESQ): Объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках» . www.itu.int . Проверено 11 апреля 2021 г.
^ «P.862.1: Функция преобразования для преобразования необработанных результатов P.862 в MOS-LQO» . www.itu.int . Проверено 11 апреля 2021 г.
^ «P.862.2: Широкополосное расширение Рекомендации P.862 для оценки широкополосных телефонных сетей и речевых кодеков» . www.itu.int . Проверено 11 апреля 2021 г.
^ «P.862.3: Руководство по применению объективного измерения качества на основе Рекомендаций P.862, P.862.1 и P.862.2» . www.itu.int . Проверено 11 апреля 2021 г.
^ «P.863.1: Руководство по применению Рекомендации МСЭ-Т P.863» . www.itu.int . Проверено 11 апреля 2021 г.
^ «P.563: Односторонний метод объективной оценки качества речи в приложениях узкополосной телефонии» . www.itu.int . Проверено 11 апреля 2021 г.
^ Д. Эбем (Университет Нигерии); и др. (2011). «Влияние тонового языка и прослушивания неродного языка на измерение качества речи» (PDF) . Журнал Общества аудиоинженеров . 59 (9 сентября 2011 г.): 9.

[1] «POLQA — стандарт тестирования качества мобильной голосовой связи нового поколения» . www.polqa.info . Проверено 11 апреля 2021 г.

[:0-2] Перейти обратно: ^а ^б ^с ^д «P.863: Перцептивное объективное прогнозирование качества прослушивания» . www.itu.int . Проверено 11 апреля 2021 г.

[POLQA2-3] Берендс, Джон Г.; Шмидмер, Кристиан; Бергер, Йенс; Оберманн, Матиас; Ульманн, Рафаэль; Поми, Иоахим; Кейл, Майкл (8 июля 2013 г.). «Перцептуальная объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть I — временное выравнивание» . Журнал Общества аудиоинженеров . 61 (6): 366–384.

[POLQA3-4] Берендс, Джон Г.; Шмидмер, Кристиан; Бергер, Йенс; Оберманн, Матиас; Ульманн, Рафаэль; Поми, Иоахим; Кейл, Майкл (8 июля 2013 г.). «Перцепционная объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть II — модель восприятия» . Журнал Общества аудиоинженеров . 61 (6): 385–402.

[:1-5] Перейти обратно: ^а ^б «P.862: Перцепционная оценка качества речи (PESQ): Объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках» . www.itu.int . Проверено 11 апреля 2021 г.

[6] «P.862.1: Функция преобразования для преобразования необработанных результатов P.862 в MOS-LQO» . www.itu.int . Проверено 11 апреля 2021 г.

[7] «P.862.2: Широкополосное расширение Рекомендации P.862 для оценки широкополосных телефонных сетей и речевых кодеков» . www.itu.int . Проверено 11 апреля 2021 г.

[8] «P.862.3: Руководство по применению объективного измерения качества на основе Рекомендаций P.862, P.862.1 и P.862.2» . www.itu.int . Проверено 11 апреля 2021 г.

[9] «P.863.1: Руководство по применению Рекомендации МСЭ-Т P.863» . www.itu.int . Проверено 11 апреля 2021 г.

[10] «P.563: Односторонний метод объективной оценки качества речи в приложениях узкополосной телефонии» . www.itu.int . Проверено 11 апреля 2021 г.

[JAES1-11] Д. Эбем (Университет Нигерии); и др. (2011). «Влияние тонового языка и прослушивания неродного языка на измерение качества речи» (PDF) . Журнал Общества аудиоинженеров . 59 (9 сентября 2011 г.): 9.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]