Средняя оценка мнения

Средний балл мнения (MOS) — это мера, используемая в области качества опыта и телекоммуникационной техники , отражающая общее качество стимула или системы. Это среднее арифметическое всех индивидуальных «значений по заранее определенной шкале, которые субъект присваивает своему мнению о характеристиках качества системы». ^[1] Такие рейтинги обычно собираются в ходе теста субъективной оценки качества , но их также можно оценить алгоритмически.

MOS — это широко используемый показатель для оценки качества видео, аудио и аудиовизуального изображения, но не ограничивающийся этими методами. МСЭ-Т определил несколько способов ссылки на MOS в Рекомендации МСЭ-Т P.800.1 в зависимости от того, была ли оценка получена в результате тестов качества аудиовизуального, разговорного, прослушивания, разговора или видео.

Шкалы оценок и математическое определение

MOS выражается одним рациональным числом, обычно в диапазоне от 1 до 5, где 1 — самое низкое воспринимаемое качество, а 5 — самое высокое воспринимаемое качество. Возможны и другие диапазоны MOS, в зависимости от шкалы оценок , которая использовалась в базовом тесте. « плохого Очень часто используется шкала абсолютного рейтинга категорий, которая сопоставляет оценки от » до «отличного» с числами от 1 до 5, как показано в таблице ниже.

Рейтинг	Этикетка
5	Отличный
4	Хороший
3	Справедливый
2	Бедный
1	Плохой

существуют другие стандартизированные шкалы оценки качества В Рекомендациях МСЭ-Т (например, МСЭ-Т P.800 или МСЭ-Т P.910 ). Например, можно использовать непрерывную шкалу в диапазоне от 1 до 100. Какая шкала используется, зависит от цели теста. В определенных контекстах нет статистически значимых различий между оценками одних и тех же стимулов, если они получены с использованием разных шкал. ^[2]

MOS рассчитывается как среднее арифметическое по отдельным оценкам, полученным людьми для данного стимула в тесте субъективной оценки качества . Таким образом:

MOS={\frac {\sum _{n=1}^{N}{R_{n}}}{N}}

Где $R$ индивидуальные оценки данного стимула по $N$ предметы.

Свойства МОП

MOS подвержен определенным математическим свойствам и предвзятости. В целом, продолжаются споры о полезности MOS для количественной оценки качества опыта в одном скалярном значении. ^[3]

Когда MOS определяется с использованием категориальных рейтинговых шкал, он основан (аналогично шкалам Лайкерта) на порядковой шкале . В этом случае известен ранг пунктов шкалы, но не известен их интервал. Следовательно, математически неверно рассчитывать среднее значение по отдельным рейтингам, чтобы получить центральную тенденцию; вместо этого следует использовать медиану. ^[4] Однако на практике и при определении МОП считается приемлемым рассчитывать среднее арифметическое.

Было показано, что для категориальных рейтинговых шкал (таких как ACR) отдельные элементы не воспринимаются испытуемыми как равноотстоящие. Например, между «Хорошим» и «Удовлетворительным » может быть больший «разрыв» , чем между «Хорошим» и «Отличным» . Воспринимаемое расстояние также может зависеть от языка, на который переведена шкала. ^[5] Однако существуют исследования, которые не смогли доказать существенное влияние перевода масштаба на полученные результаты. ^[6]

В способах получения рейтингов MOS обычно присутствует несколько других предубеждений. ^[7] В дополнение к вышеупомянутым проблемам со шкалами, которые воспринимаются нелинейно, существует так называемая «предвзятость выравнивания диапазона»: испытуемые в ходе субъективного эксперимента имеют тенденцию давать оценки, охватывающие всю оценочную шкалу. . Это делает невозможным сравнение двух разных субъективных тестов, если диапазон представленного качества различается. Другими словами, MOS никогда не является абсолютной мерой качества, а только относительно теста, в котором он был получен.

По вышеуказанным причинам – а также из-за ряда других контекстуальных факторов, влияющих на воспринимаемое качество в субъективном тесте – значение MOS следует сообщать только в том случае, если контекст, в котором значения были собраны, известен и также сообщается. Поэтому значения MOS, полученные в различных контекстах и схемах испытаний, не следует сравнивать напрямую. Рекомендация МСЭ-Т P.800.2 определяет, как следует сообщать значения MOS. В частности, в P.800.2 говорится:

нет смысла напрямую сравнивать значения MOS, полученные в результате отдельных экспериментов, если только эти эксперименты не были специально разработаны для сравнения, и даже в этом случае данные должны быть статистически проанализированы, чтобы гарантировать достоверность такого сравнения.

MOS для оценки качества речи и звука

Исторически MOS возник на основе субъективных измерений, когда слушатели сидели в «тихой комнате» и оценивали качество телефонного звонка так, как они его воспринимали. Такая методология тестирования использовалась в телефонной отрасли на протяжении десятилетий и была стандартизирована в Рекомендации МСЭ-Т P.800 . В нем указано, что «говорящий должен находиться в тихом помещении объемом от 30 до 120 м³ и временем реверберации менее 500 мс (предпочтительно в диапазоне 200–300 мс). Уровень шума в помещении должен быть ниже 30 дБА без каких-либо ограничений. доминирующие пики в спектре». Требования для других условий были аналогичным образом определены в более поздних Рекомендациях МСЭ-Т.

Оценка MOS с использованием моделей качества

Получение рейтингов MOS может занять много времени и средств, поскольку требует найма людей-оценщиков. Для различных случаев использования, таких как разработка кодеков или мониторинг качества обслуживания, где качество должно оцениваться неоднократно и автоматически, показатели MOS также можно прогнозировать с помощью моделей объективного качества , которые обычно разрабатываются и обучаются с использованием оценок MOS, полученных человеком. При использовании таких моделей возникает вопрос, заметны ли пользователям различия в MOS. Например, при оценке изображений по пятибалльной шкале MOS ожидается, что изображение с MOS, равным 5, будет заметно лучше по качеству, чем изображение с MOS, равным 1. В противоположность этому, не очевидно, является ли изображение с MOS, равным 1, MOS, равный 3,8, заметно лучше по качеству, чем MOS, равный 3,6. Исследование, проведенное по определению наименьшей разницы MOS, заметной пользователям для цифровых фотографий, показало, что разница MOS примерно 0,46 необходима для того, чтобы 75% пользователей могли обнаружить изображение более высокого качества. ^[8] Тем не менее, ожидания качества изображения и, следовательно, MOS меняются со временем вместе с изменением ожиданий пользователей. В результате минимально заметные различия MOS, определенные с использованием аналитических методов, таких как ^[8] может измениться со временем.

См. также

Ссылки

^ Рек. МСЭ-Т. P.10/G.100 (2017 г.) Словарь терминов производительность, качество обслуживания и качество опыта.
^ Хюинь-Ту, К.; Гарсия, Миннесота; Сперанца, Ф.; Корриво, П.; Рааке, А. (01 марта 2011 г.). «Исследование рейтинговых шкал для субъективной оценки качества видео высокой четкости». Транзакции IEEE в области вещания . 57 (1): 1–14. дои : 10.1109/TBC.2010.2086750 . ISSN 0018-9316 .
^ Хоссфельд, Тобиас; Хигаард, Пол Э.; Варела, Мартин; Мёллер, Себастьян (01 декабря 2016 г.). «QoE за пределами MOS: углубленный взгляд на QoE с помощью лучших показателей и их связи с MOS». Качество и пользовательский опыт . 1 (1): 2. arXiv : 1607.00321 . дои : 10.1007/s41233-016-0002-1 . ISSN 2366-0139 .
^ Джеймисон, Сьюзен. «Шкалы Лайкерта: как (ab) их использовать». Медицинское образование 38.12 (2004): 1217-1218.
^ Стрейл, Роберт С., Стефан Винклер и Дэвид С. Хэндс. «Пересмотр среднего показателя мнения (MOS): методы и приложения, ограничения и альтернативы». Мультимедийные системы 22.2 (2016): 213-227.
^ Пинсон, Миннесота; Яновский, Л.; Пепион, Р.; Хюинь-Ту, К.; Шмидмер, К.; Корриво, П.; Юнкин, А.; Калле, П. Ле; Барковский, М. (октябрь 2012 г.). «Влияние предметов и окружающей среды на субъективные аудиовизуальные тесты: международное исследование» (PDF) . Журнал IEEE по избранным темам обработки сигналов . 6 (6): 640–651. дои : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 .
^ Зелински, Славомир, Фрэнсис Рамси и Сорен Бех. «О некоторых отклонениях, встречающихся при современных тестах качества звука — обзор». Журнал Общества аудиоинженеров 56.6 (2008): 427-451.
^ Перейти обратно: ^а ^б Кацигианнис, С.; Сковелл, Дж. Н.; Рамзан, Н.; Яновский, Л.; Корриво, П.; Саад, М.; Ван Валлендаль, Г. (2 мая 2018 г.). «Интерпретация оценок MOS: когда пользователи смогут увидеть разницу? Понимание различий в качестве фотографий в пользовательском опыте». Качество и пользовательский опыт . 3 (1): 6. дои : 10.1007/s41233-018-0019-8 . hdl : 1854/LU-8581457 . ISSN 2366-0139 .

[1] Рек. МСЭ-Т. P.10/G.100 (2017 г.) Словарь терминов производительность, качество обслуживания и качество опыта.

[2] Хюинь-Ту, К.; Гарсия, Миннесота; Сперанца, Ф.; Корриво, П.; Рааке, А. (01 марта 2011 г.). «Исследование рейтинговых шкал для субъективной оценки качества видео высокой четкости». Транзакции IEEE в области вещания . 57 (1): 1–14. дои : 10.1109/TBC.2010.2086750 . ISSN 0018-9316 .

[3] Хоссфельд, Тобиас; Хигаард, Пол Э.; Варела, Мартин; Мёллер, Себастьян (01 декабря 2016 г.). «QoE за пределами MOS: углубленный взгляд на QoE с помощью лучших показателей и их связи с MOS». Качество и пользовательский опыт . 1 (1): 2. arXiv : 1607.00321 . дои : 10.1007/s41233-016-0002-1 . ISSN 2366-0139 .

[4] Джеймисон, Сьюзен. «Шкалы Лайкерта: как (ab) их использовать». Медицинское образование 38.12 (2004): 1217-1218.

[5] Стрейл, Роберт С., Стефан Винклер и Дэвид С. Хэндс. «Пересмотр среднего показателя мнения (MOS): методы и приложения, ограничения и альтернативы». Мультимедийные системы 22.2 (2016): 213-227.

[6] Пинсон, Миннесота; Яновский, Л.; Пепион, Р.; Хюинь-Ту, К.; Шмидмер, К.; Корриво, П.; Юнкин, А.; Калле, П. Ле; Барковский, М. (октябрь 2012 г.). «Влияние предметов и окружающей среды на субъективные аудиовизуальные тесты: международное исследование» (PDF) . Журнал IEEE по избранным темам обработки сигналов . 6 (6): 640–651. дои : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 .

[7] Зелински, Славомир, Фрэнсис Рамси и Сорен Бех. «О некоторых отклонениях, встречающихся при современных тестах качества звука — обзор». Журнал Общества аудиоинженеров 56.6 (2008): 427-451.

[interpretMOS-8] Перейти обратно: ^а ^б Кацигианнис, С.; Сковелл, Дж. Н.; Рамзан, Н.; Яновский, Л.; Корриво, П.; Саад, М.; Ван Валлендаль, Г. (2 мая 2018 г.). «Интерпретация оценок MOS: когда пользователи смогут увидеть разницу? Понимание различий в качестве фотографий в пользовательском опыте». Качество и пользовательский опыт . 3 (1): 6. дои : 10.1007/s41233-018-0019-8 . hdl : 1854/LU-8581457 . ISSN 2366-0139 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]