Перцепционный показатель качества речи

Перцепционный показатель качества речи ( PSQM ) — это алгоритм вычислений и моделирования, определенный в Рекомендации МСЭ-Т голосового диапазона (300–3400 Гц) P.861, который объективно оценивает и количественно определяет качество голоса речевых кодеков . Его можно использовать для ранжирования производительности этих речевых кодеков с различными уровнями речевого ввода, говорящими, скоростями передачи данных и транскодированиями. P.861 был отозван и заменен Рекомендацией ITU-T P.862 ( PESQ ), которая содержит улучшенный алгоритм оценки речи.

Почему он используется

Использование стандарта PSQM позволяет использовать автоматизированные методы тестирования на основе моделирования, позволяющие объективно оценивать как четкость речи, так и качество передаваемой речи. Для облегчения такого тестирования были разработаны различные программные и/или аппаратные продукты. Это приводит к значительной экономии средств и времени по сравнению с традиционной практикой использования больших групп людей для субъективной оценки речевых сигналов и оценки качества голоса. Более того, он дает объективные результаты, которые являются надежными и воспроизводимыми. Это очень важно для операторов телефонной связи, которые обязаны поддерживать высокие стандарты качества обслуживания .

Алгоритм

PSQM использует алгоритм психоакустического математического моделирования (как перцептивного, так и когнитивного) для анализа речевых сигналов до и после передачи, получая значение PSQM, которое является мерой ухудшения качества сигнала и находится в диапазоне от 0 (отсутствие ухудшения) до 6,5 (максимальное ухудшение). В свою очередь, этот результат можно перевести в средний балл мнения (MOS), который является общепринятой мерой воспринимаемого качества получаемых средств массовой информации по числовой шкале от 1 до 5. Значение 1 указывает на неприемлемое, низкое качество голоса, в то время как значение 5 указывает на высокое качество передачи речи без заметных проблем.

Алгоритм PSQM преобразует сигнал(ы) физической области в значимую для восприятия психоакустическую область посредством серии нелинейных процессов, таких как частотно-временное отображение, искажение частоты и искажение интенсивности.

О качестве кодированной речи судят по различиям внутреннего представления. Разница используется для расчета шумового возмущения как функции времени и частоты. Помимо перцептивного моделирования, алгоритм PSQM использует когнитивное моделирование, такое как масштабирование громкости и асимметричное маскирование, чтобы получить высокую корреляцию между субъективными и объективными измерениями.

Ограничения

PSQM в первоначальном виде не был разработан для учета качества обслуживания нарушений сети, распространенных в приложениях передачи голоса по IP , таких как потеря пакетов, отклонение задержки (дрожание) или непоследовательные пакеты. Эти условия обычно дают неадекватные результаты при моделировании большой нагрузки на сеть, не учитывая вполне реальную воспринимаемую потерю качества голоса. Попытки дублировать условия сбоя сети путем внесения значительных потерь пакетов приводят к значениям PSQM, которые соответствуют ложно завышенным значениям MOS .

Чтобы преодолеть это ограничение, PSQM+ был разработан путем модификации исходного алгоритма. PSQM+ генерирует результаты, которые, по-видимому, более точно отражают неблагоприятную производительность речевых кодеков в реальных условиях загрузки сети.

Другие соображения

Другие проблемы связаны с отсутствием стандартизации тестовых сигналов, используемых для оценки различных речевых кодеков. PSQM обеспечивает более надежные и согласованные значения MOS, если используется в соответствии с рекомендованными МСЭ методами объективной и субъективной оценки качества (ITU-T P.800/P.830/P.861). Эти Рекомендации ITU-T включают использование эталонных речевых сигналов как мужского, так и женского пола на среднем уровне -20 дБ. ^{[ нужны разъяснения ]}. Тип, пол, продолжительность, усиление голоса или сигнала могут оказывать незначительное влияние на значение PSQM или показатель MOS, равно как и пороговые уровни, количество совершенных вызовов и другие параметры конфигурации среды. При сравнении измерений качества голоса следует принимать во внимание сигнал, окружающую среду и конфигурации.

Существует множество речевых кодеков, которые используются в самых разных приложениях. Для соответствия системным требованиям необходим тщательный выбор подходящего речевого кодека(ов). Доступен список общих речевых кодеков и связанных с ними значений MOS, полученных из PSQM/PSQM+, полученных в различных условиях сетевой нагрузки.

Ссылки

Рекомендация МСЭ-Т P.861 (отменена) : Объективное измерение качества речевых кодеков телефонного диапазона (300–3400 Гц). P.861 был признан имеющим определенные ограничения в конкретных областях применения. На смену ему пришел P.862, содержащий улучшенный алгоритм объективной оценки качества речи.
Рекомендация ITU-T P.862 (2001-02) : Перцептивная оценка качества речи (PESQ): объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках.
«Форум журнала AES »Перцептуальный показатель качества речи, основанный на психоакустическом звуковом представлении» . Secure.aes.org . Проверено 18 апреля 2024 г.

См. также

Средняя оценка мнения (MOS)
Перцепционная оценка качества речи (PESQ), технология, пришедшая на смену PSQM.
Голос по IP