Субъективное качество видео

Субъективное качество видео — это качество видео , воспринимаемое людьми. Он касается того, как видео воспринимается зрителем (также называемым «наблюдателем» или «субъектом»), и выражает его мнение о конкретном видеоряде . Это связано с областью качества опыта . Измерение субъективного качества видео необходимо, поскольку алгоритмы объективной оценки качества, такие как PSNR, было показано, что плохо коррелируют с субъективными оценками. Субъективные оценки также могут использоваться в качестве основы для разработки новых алгоритмов.

Субъективные тесты качества видео — это психофизические эксперименты , в которых несколько зрителей оценивают заданный набор стимулов. Эти тесты довольно затратны с точки зрения времени (подготовка и проведение) и человеческих ресурсов, и поэтому их необходимо тщательно планировать.

В субъективных тестах качества видео, как правило, SRC («Источники», т.е. исходные видеопоследовательности) обрабатываются различными условиями ( HRC для «Гипотетических эталонных схем») для генерации PVS («Обработанных видеопоследовательностей»). ^[1]

Измерение

Основная идея измерения субъективного качества видео аналогична оценке среднего мнения (MOS) для звука . Чтобы оценить субъективное качество видео системы обработки видео, обычно предпринимаются следующие шаги:

Выбирайте для тестирования оригинальные, неповрежденные видеофрагменты.
Выберите настройки системы, которые необходимо оценить
Примените настройки к SRC, в результате чего появятся тестовые последовательности.
Выберите метод тестирования, описывающий, как эпизоды представляются зрителям и как собирается их мнение.
Пригласите группу зрителей
Проведите тестирование в конкретной среде (например, в лабораторных условиях) и представьте каждому зрителю каждый PVS в определенном порядке.
Рассчитать результаты рейтингов для отдельных PVS, SRC и HRC, например MOS.

На результаты могут влиять многие параметры условий просмотра, такие как освещенность помещения, тип дисплея, яркость, контрастность, разрешение, расстояние просмотра, а также возраст и уровень образования зрителей. Поэтому рекомендуется сообщать эту информацию вместе с полученными рейтингами.

Выбор источника

Как правило, систему следует тестировать с репрезентативным количеством различного контента и его характеристик. Например, можно выбрать отрывки из контента разных жанров, например, боевиков, новостных шоу и мультфильмов. Длина исходного видео зависит от цели теста, но обычно используются фрагменты продолжительностью не менее 10 секунд.

Количество движения и пространственная детализация также должны охватывать широкий диапазон. Это гарантирует, что тест содержит последовательности различной сложности.

Исходники должны быть безупречного качества. Не должно быть видимых артефактов кодирования или других свойств, которые могли бы снизить качество исходной последовательности.

Настройки

Конструкция HRC зависит от изучаемой системы. Обычно на этом этапе вводится несколько независимых переменных, которые варьируются на нескольких уровнях. Например, для проверки качества видеокодека независимыми переменными могут быть программное обеспечение для кодирования видео, целевой битрейт и целевое разрешение обрабатываемой последовательности.

Рекомендуется выбирать настройки, которые приводят к получению оценок, охватывающих весь диапазон качества. Другими словами, принимая во внимание шкалу абсолютного рейтинга категорий , тест должен показывать эпизоды, которые зрители оценили бы от плохого до отличного.

Зрители

Количество зрителей

Зрителей также называют «наблюдателями» или «субъектами». К исследованию следует пригласить определенное минимальное количество зрителей, поскольку большее количество испытуемых повышает надежность результата эксперимента, например, за счет уменьшения стандартного отклонения усредненных оценок. Кроме того, существует риск необходимости исключить испытуемых за недостоверное поведение во время рейтинга.

Минимальное количество испытуемых, необходимое для субъективного исследования качества видео, строго не определено. Согласно ITU-T, возможно любое число от 4 до 40, где 4 — это абсолютный минимум по статистическим причинам, а приглашение более 40 субъектов не имеет дополнительной ценности. В целом в эксперименте должно участвовать не менее 15 наблюдателей. Они не должны быть непосредственноучаствуют в оценке качества изображения в рамках своей работы и не должны быть опытными оценщиками. ^[2] В других документах также утверждается, что для получения значимых усредненных оценок необходимо как минимум 10 предметов. ^[3]

Однако большинство рекомендаций по количеству испытуемых были разработаны для измерения качества видео, с которым сталкивается пользователь домашнего телевизора или ПК, где диапазон и разнообразие искажений обычно ограничены (например, только артефактами кодирования). Учитывая большой диапазон и разнообразие ухудшений, которые могут возникнуть в видео, снятом с помощью мобильных устройств и/или переданном по беспроводным сетям, обычно может потребоваться большее количество людей.

Бруннстрем и Барковски предоставили расчеты для оценки минимального количества необходимых испытуемых на основе существующих субъективных тестов. ^[4] Они утверждают, что для обеспечения статистически значимых различий при сравнении рейтингов может потребоваться большее количество испытуемых, чем обычно рекомендуется.

Выбор зрителя

Зрители не должны быть экспертами в том смысле, что они не являются профессионалами в области видеокодирования или смежных областях. Это требование введено во избежание потенциальной предвзятости по теме. ^[2]

Обычно зрителей проверяют на нормальное зрение или зрение, скорректированное до нормального, с помощью таблиц Снеллена . Дальтонизм часто проверяют с помощью пластин Исихара . ^[2]

продолжается дискуссия В сообществе QoE о том, оказывает ли культурное, социальное или экономическое происхождение зрителя существенное влияние на получаемые субъективные результаты качества видео. Систематическое исследование с участием шести лабораторий в четырех странах не выявило статистически значимого влияния языка и культуры/страны происхождения субъекта на оценки качества видео. ^[5]

Тестовая среда

Субъективные тесты качества можно проводить в любой среде. Однако из-за возможных факторов влияния гетерогенных условий обычно рекомендуется проводить тесты в нейтральной среде, например, в специально отведенном лабораторном помещении. Такая комната может быть звукоизолированной, со стенами, окрашенными в нейтральный серый цвет, и с использованием правильно откалиброванных источников света. В нескольких рекомендациях указаны эти условия. ^[6]^[7] Было показано, что контролируемая среда приводит к меньшей вариативности полученных показателей. ^[5]

Краудсорсинг

Краудсорсинг в последнее время стал использоваться для субъективной оценки качества видео и, в более общем смысле, в контексте качества опыта . ^[8] Здесь зрители выставляют оценки, используя собственный компьютер дома, а не принимая участие в субъективной проверке качества в лабораторных помещениях. Хотя этот метод позволяет получить больше результатов, чем традиционные субъективные тесты, при меньших затратах, валидность и надежность собранных ответов необходимо тщательно проверять. ^[9]

Анализ результатов

Мнения зрителей обычно усредняются в средний балл мнения (MOS). С этой целью метки категориальных шкал можно перевести в числа. Например, ответы «плохо» и «отлично» можно сопоставить со значениями от 1 до 5, а затем усреднить. Значения MOS всегда следует сообщать с их статистическими доверительными интервалами , чтобы можно было оценить общее согласие между наблюдателями.

Предметный скрининг

Часто перед оценкой результатов принимаются дополнительные меры. Предметный отбор — это процесс, при котором зрители, чьи рейтинги считаются недействительными или недостоверными, отклоняются от дальнейшего анализа. Недействительные оценки трудно обнаружить, поскольку испытуемые могли поставить оценку, не просматривая видео, или смошенничать во время теста. Общая надежность объекта может быть определена с помощью различных процедур, некоторые из которых изложены в рекомендациях МСЭ-R и МСЭ-Т. ^[2]^[7] Например, корреляция между индивидуальными баллами человека и общим MOS, оцененным для всех последовательностей, является хорошим индикатором их достоверности по сравнению с остальными участниками тестирования.

Продвинутые модели

Оценивая стимулы, люди подвержены предвзятости. Это может привести к различному и неточному поведению при оценке и, как следствие, к значениям MOS, которые не отражают «истинное качество» стимула. В последние годы были предложены усовершенствованные модели, целью которых является формальное описание процесса рейтингования и последующее восстановление зашумленности в субъективных рейтингах. По мнению Яновски и др., у испытуемых может быть предвзятость мнения, которая обычно приводит к изменению их оценок, а также неточность оценки, которая зависит от субъекта и оцениваемого стимула. ^[10] Ли и др. предложили различать предметную несогласованность и содержательную двусмысленность . ^[11]

Стандартизированные методы тестирования

Существует множество способов выбора правильных последовательностей, настроек системы и методологий тестирования. Некоторые из них стандартизированы. Они подробно описаны в нескольких рекомендациях ITU-R и ITU-T, в том числе в ITU-R BT.500. ^[7] и МСЭ-Т P.910. ^[2] Хотя в некоторых аспектах есть совпадение, рекомендация BT.500 уходит корнями в радиовещание, тогда как P.910 ориентирован на мультимедийный контент.

Стандартизированный метод тестирования обычно описывает следующие аспекты:

как долго длится сеанс эксперимента
где проходит эксперимент
сколько раз и в каком порядке следует просматривать каждый PVS
оцениваются ли оценки один раз за каждый стимул (например, после предъявления) или постоянно
являются ли оценки абсолютными, т. е. относящимися только к одному стимулу, или относительными (сравнивающими два или более стимулов)
по какой шкале принимаются оценки

Другая рекомендация, ITU-T P.913, ^[6] дает исследователям больше свободы для проведения субъективных тестов качества в условиях, отличных от типичной испытательной лаборатории, но при этом требует от них сообщать все детали, необходимые для обеспечения воспроизводимости таких тестов.

Примеры

Ниже приведены некоторые примеры стандартизированных процедур тестирования.

Одиночный стимул

ACR (абсолютный рейтинг категории): ^[2] каждая последовательность оценивается индивидуально по шкале ACR . Метки на шкале: «плохо», «плохо», «удовлетворительно», «хорошо» и «отлично» и при расчете MOS переводятся в значения 1, 2, 3, 4 и 5.
ACR-HR (рейтинг абсолютной категории со скрытой ссылкой): вариант ACR, в котором исходная неповрежденная исходная последовательность отображается в дополнение к поврежденным последовательностям, без информирования субъектов о ее присутствии (следовательно, «скрытая»). Рейтинги рассчитываются как разница в баллах между эталонной и ухудшенной версиями. Дифференциальный балл определяется как балл PVS минус балл, присвоенный скрытой ссылке, плюс количество баллов по шкале. Например, если PVS оценен как «плохой», а соответствующая ему скрытая ссылка — как «хороший», тогда рейтинг ${\textstyle 2-4+5=3}$ . Когда эти рейтинги усредняются, результатом является не MOS, а дифференциальная MOS («DMOS»).
SSCQE (Постоянный рейтинг качества одиночного стимула): ^[7] более длинная последовательность оценивается непрерывно с течением времени с помощью ползунка (разновидность фейдера ) , с помощью которого испытуемые оценивают текущее качество. Пробы отбираются через регулярные промежутки времени, в результате чего с течением времени формируется кривая качества, а не единый рейтинг качества.

Двойной или множественный стимул

DSCQS (шкала непрерывного качества двойного стимула): ^[7] зритель видит неповрежденную ссылку и поврежденную последовательность в случайном порядке. Им разрешается повторно просмотреть последовательности, а затем оценить качество обеих по непрерывной шкале, отмеченной категориями ACR.
DSIS (шкала двойного нарушения стимулов) ^[7] и DCR (категория деградации): ^[2] оба относятся к одному и тому же методу. Зритель видит неиспорченное эталонное видео, затем такое же видео с искажениями, после чего ему предлагается проголосовать за второе видео по так называемой шкале ухудшений (от «ухудшения незаметны» до «ухудшения очень раздражают»).
ПК (парное сравнение): ^[2] вместо сравнения неповрежденной и нарушенной последовательности сравниваются различные типы нарушений (HRC). Следует оценить все возможные комбинации HRC.

Выбор методологии

Какой метод выбрать во многом зависит от цели теста и возможных ограничений во времени и других ресурсах. Некоторые методы могут иметь меньше контекстных эффектов (т. е. когда порядок стимулов влияет на результаты), что является нежелательной погрешностью теста. ^[12] В ITU-T P.910 отмечается, что такие методы, как DCR, следует использовать для проверки точности передачи, особенно в системах высокого качества. ACR и ACR-HR лучше подходят для квалификационных испытаний и – поскольку дают абсолютные результаты – сравнения систем. Метод ПК обладает высокой дискриминационной способностью, но требует более длительных сеансов тестирования.

Базы данных

Результаты субъективных тестов качества, включая использованные стимулы, называются базами данных . Исследовательские институты опубликовали ряд баз данных субъективного качества изображений и видео, основанных на таких исследованиях. Эти базы данных, некоторые из которых стали де-факто стандартами, используются во всем мире инженерами телевидения, кинематографа и видео для разработки и тестирования моделей объективного качества, поскольку разработанные модели можно обучать на основе полученных субъективных данных. Обзор общедоступных баз данных был составлен Группой экспертов по качеству видео , а видеоматериалы были размещены в потребительской цифровой видеотеке .

Ссылки

^ Учебное пособие ITU-T: Объективная перцептивная оценка качества видео: Полное эталонное телевидение , 2004.
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час Рек. МСЭ-Т. P.910: Методы субъективной оценки качества видео для мультимедийных приложений , 2008.
^ Винклер, Стефан. «О свойствах субъективации в экспериментах по качеству видео» . Учеб. Качество мультимедийного опыта , 2009.
^ Бруннстрем, Кьель; Барковски, Маркус (25 сентября 2018 г.). «Статистическое качество анализа опыта: о планировании размера выборки и проверке статистической значимости» . Журнал электронных изображений . 27 (5): 053013. Бибкод : 2018JEI....27e3013B . дои : 10.1117/1.jei.27.5.053013 . ISSN 1017-9909 . S2CID 53058660 .
^ Jump up to: ^а ^б Пинсон, Миннесота; Яновский, Л.; Пепион, Р.; Хюинь-Ту, К.; Шмидмер, К.; Корриво, П.; Юнкин, А.; Калле, П. Ле; Барковский, М. (октябрь 2012 г.). «Влияние предметов и окружающей среды на субъективные аудиовизуальные тесты: международное исследование» (PDF) . Журнал IEEE по избранным темам обработки сигналов . 6 (6): 640–651. Бибкод : 2012ИССП...6..640П . дои : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 . S2CID 10667847 .
^ Jump up to: ^а ^б ITU-T P.913: Методы субъективной оценки качества видео, качества звука и аудиовизуального качества интернет-видео и качества распространения телевидения в любой среде , 2014.
^ Jump up to: ^а ^б ^с ^д ^и ^ж ITU-R BT.500: Методика субъективной оценки качества телевизионного изображения , 2012.
^ Хоссфельд, Тобиас (15 января 2014 г.). «Лучшие практики краудтестирования QoE: оценка QoE с помощью краудсорсинга». Транзакции IEEE в мультимедиа . 16 (2): 541–558. дои : 10.1109/TMM.2013.2291663 . S2CID 16862362 .
^ Хоссфельд, Тобиас; Хирт, Матиас; Реди, Джудит; Мацца, Филиппо; Коршунов Павел; Надери, Бабак; Зойферт, Майкл; Гардло, Бруно; Эггер, Себастьян (октябрь 2014 г.). «Лучшие практики и рекомендации по обеспечению качества взаимодействия с помощью краудсорсинга — уроки, извлеченные из опыта рабочей группы Qualinet «Краудсорсинг» » . hal-01078761. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Яновский, Лючан; Пинсон, Маргарет (2015). «Точность испытуемых в качественном эксперименте: теоретическая предметная модель» . Транзакции IEEE в мультимедиа . 17 (12): 2210–2224. дои : 10.1109/tmm.2015.2484963 . ISSN 1520-9210 . S2CID 22343847 .
^ Ли, Чжи; Бампис, Христос Г. (2017). «Восстановление субъективных показателей качества на основе зашумленных измерений». Конференция по сжатию данных 2017 (DCC) . IEEE. стр. 52–61. arXiv : 1611.01715 . дои : 10.1109/dcc.2017.26 . ISBN 9781509067213 . S2CID 14251604 .
^ Пинсон, Маргарет и Вольф, Стивен. «Сравнение методологий субъективного тестирования качества видео» . Конференция SPIE по видеокоммуникациям и обработке изображений , Лугано, Швейцария, июль 2003 г.

Внешние ссылки

Группа экспертов по качеству видео

[1] Учебное пособие ITU-T: Объективная перцептивная оценка качества видео: Полное эталонное телевидение , 2004.

[:1-2] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час Рек. МСЭ-Т. P.910: Методы субъективной оценки качества видео для мультимедийных приложений , 2008.

[3] Винклер, Стефан. «О свойствах субъективации в экспериментах по качеству видео» . Учеб. Качество мультимедийного опыта , 2009.

[4] Бруннстрем, Кьель; Барковски, Маркус (25 сентября 2018 г.). «Статистическое качество анализа опыта: о планировании размера выборки и проверке статистической значимости» . Журнал электронных изображений . 27 (5): 053013. Бибкод : 2018JEI....27e3013B . дои : 10.1117/1.jei.27.5.053013 . ISSN 1017-9909 . S2CID 53058660 .

[:3-5] Jump up to: ^а ^б Пинсон, Миннесота; Яновский, Л.; Пепион, Р.; Хюинь-Ту, К.; Шмидмер, К.; Корриво, П.; Юнкин, А.; Калле, П. Ле; Барковский, М. (октябрь 2012 г.). «Влияние предметов и окружающей среды на субъективные аудиовизуальные тесты: международное исследование» (PDF) . Журнал IEEE по избранным темам обработки сигналов . 6 (6): 640–651. Бибкод : 2012ИССП...6..640П . дои : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 . S2CID 10667847 .

[:2-6] Jump up to: ^а ^б ITU-T P.913: Методы субъективной оценки качества видео, качества звука и аудиовизуального качества интернет-видео и качества распространения телевидения в любой среде , 2014.

[:0-7] Jump up to: ^а ^б ^с ^д ^и ^ж ITU-R BT.500: Методика субъективной оценки качества телевизионного изображения , 2012.

[8] Хоссфельд, Тобиас (15 января 2014 г.). «Лучшие практики краудтестирования QoE: оценка QoE с помощью краудсорсинга». Транзакции IEEE в мультимедиа . 16 (2): 541–558. дои : 10.1109/TMM.2013.2291663 . S2CID 16862362 .

[9] Хоссфельд, Тобиас; Хирт, Матиас; Реди, Джудит; Мацца, Филиппо; Коршунов Павел; Надери, Бабак; Зойферт, Майкл; Гардло, Бруно; Эггер, Себастьян (октябрь 2014 г.). «Лучшие практики и рекомендации по обеспечению качества взаимодействия с помощью краудсорсинга — уроки, извлеченные из опыта рабочей группы Qualinet «Краудсорсинг» » . hal-01078761. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[10] Яновский, Лючан; Пинсон, Маргарет (2015). «Точность испытуемых в качественном эксперименте: теоретическая предметная модель» . Транзакции IEEE в мультимедиа . 17 (12): 2210–2224. дои : 10.1109/tmm.2015.2484963 . ISSN 1520-9210 . S2CID 22343847 .

[11] Ли, Чжи; Бампис, Христос Г. (2017). «Восстановление субъективных показателей качества на основе зашумленных измерений». Конференция по сжатию данных 2017 (DCC) . IEEE. стр. 52–61. arXiv : 1611.01715 . дои : 10.1109/dcc.2017.26 . ISBN 9781509067213 . S2CID 14251604 .

[12] Пинсон, Маргарет и Вольф, Стивен. «Сравнение методологий субъективного тестирования качества видео» . Конференция SPIE по видеокоммуникациям и обработке изображений , Лугано, Швейцария, июль 2003 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]