Верность визуальной информации

Точность визуальной информации ( VIF ) – это полный эталонный индекс оценки качества изображения , основанный на статистике естественной сцены и понятии информации об изображении, извлекаемой зрительной системой человека . ^[1] Он был разработан Хамидом Р. Шейхом и Аланом Бовиком в Лаборатории обработки изображений и видео (LIVE) Техасского университета в Остине в 2006 году. Он развернут в ядре системы мониторинга качества видео Netflix VMAF , которая контролирует изображение. качество всех закодированных видео, транслируемых Netflix.

Обзор модели

Изображения и видео трехмерной визуальной среды принадлежат к одному классу: классу природных сцен. Естественные сцены из крошечного подпространства в пространстве всех возможных сигналов, и исследователи разработали сложные модели, чтобы охарактеризовать эту статистику. Большинство реальных процессов искажения нарушают эти статистические данные и делают изображение или видеосигналы неестественными. Индекс VIF использует статистические модели естественной сцены (NSS) в сочетании с моделью искажений (каналов) для количественной оценки информации, разделяемой между тестовыми и эталонными изображениями. Кроме того, индекс VIF основан на гипотезе о том, что эта общая информация является аспектом точности, который хорошо связан с качеством изображения. В отличие от предшествующих подходов, основанных на чувствительности к ошибкам зрительной системы человека (HVS) и измерении структуры, ^[2] Этот статистический подход, используемый в теоретико-информационных условиях, дает полный эталонный (FR) метод оценки качества (QA), который не полагается на какие-либо параметры HVS или геометрии просмотра, а также на какие-либо константы, требующие оптимизации, и в то же время конкурентоспособен по сравнению с состоянием методы обеспечения качества искусства. ^[3]

В частности, эталонное изображение моделируется как выходной сигнал стохастического «естественного» источника, который проходит через канал HVS и позже обрабатывается мозгом. Информационное содержание опорного изображения количественно определяется как взаимная информация между входом и выходом канала HVS. Это информация, которую мозг в идеале мог бы извлечь из выходных данных HVS. Затем эта же мера количественно оценивается при наличии канала искажения изображения, который искажает выходной сигнал естественного источника до того, как он пройдет через канал HVS, тем самым измеряя информацию, которую мозг в идеале мог бы извлечь из тестового изображения. Графически это показано на рисунке 1. Два информационных показателя затем объединяются для формирования показателя точности визуальной информации, который связывает визуальное качество с относительной информацией изображения.

Модель системы

Исходная модель

Смесь гауссова масштаба (GSM) используется для статистического моделирования вейвлет-коэффициентов управляемого пирамидального разложения изображения. ^[4] Модель описана ниже для данного поддиапазона многомасштабного многоориентационного разложения и может быть аналогичным образом распространена на другие поддиапазоны. Пусть вейвлет-коэффициенты в данном поддиапазоне равны ${\mathcal {C}}=\{{\bar {C}}_{i}:i\in {\mathcal {I}}\}$ где ${\mathcal {I}}$ обозначает набор пространственных индексов в поддиапазоне и каждый ${\bar {C}}_{i}$ это $M$ размерный вектор . Поддиапазон разбивается на непересекающиеся блоки $M$ коэффициенты каждый, где каждый блок соответствует ${\bar {C}}_{i}$ . Согласно модели GSM, ${\mathcal {C}}={\mathcal {S}}\cdot {\mathcal {U}}=\{S_{i}{\bar {U}}_{i}:i\in {\mathcal {I}}\},$ где $S_{i}$ является положительной скалярной величиной и ${\bar {U}}_{i}$ представляет собой гауссов вектор с нулевым средним значением и ковариацией $\mathbf {C} _{U}$ . Далее предполагается, что непересекающиеся блоки независимы друг от друга и что случайное поле ${\mathcal {S}}$ не зависит от ${\mathcal {U}}$ .

Модель искажения

Процесс искажения моделируется с использованием комбинации затухания сигнала и аддитивного шума в вейвлет- области. Математически, если ${\mathcal {D}}=\{{\bar {D}}_{i}:i\in {\mathcal {I}}\}$ обозначает случайное поле из данного поддиапазона искаженного изображения, ${\mathcal {G}}=\{g_{i}:i\in {\mathcal {I}}\}$ является детерминированным скалярным полем и ${\mathcal {V}}=\{{\bar {V}}_{i}:i\in {\mathcal {I}}\}$ , где ${\bar {V}}_{i}$ представляет собой нулевой средний гауссов вектор с ковариацией $\mathbf {C} _{V}=\sigma _{v}^{2}\mathbf {I}$ , затем

{\mathcal {D}}={\mathcal {G}}{\mathcal {C}}+{\mathcal {V}}.

Дальше, ${\mathcal {V}}$ моделируется как независимая от ${\mathcal {S}}$ и ${\mathcal {U}}$ .

Модель HVS

Двойственность моделей HVS и NSS подразумевает, что некоторые аспекты HVS уже учтены в исходной модели. Здесь HVS дополнительно моделируется на основе гипотезы о том, что неопределенность восприятия зрительных сигналов ограничивает объем информации, которую можно извлечь из исходного и искаженного изображения. Этот источник неопределенности можно смоделировать как визуальный шум в модели HVS. В частности, шум HVS в заданном поддиапазоне вейвлет-разложения моделируется как аддитивный белый гауссов шум. Позволять ${\mathcal {N}}=\{{\bar {N}}_{i}:i\in {\mathcal {I}}\}$ и ${\mathcal {N}}'=\{{\bar {N}}_{i}':i\in {\mathcal {I}}\}$ быть случайными полями, где ${\bar {N}}_{i}$ и ${\bar {N}}_{i}'$ являются нулевыми средними гауссовскими векторами с ковариацией $\mathbf {C} _{N}$ и $\mathbf {C} _{N}'$ . Далее, пусть ${\mathcal {E}}$ и ${\mathcal {F}}$ обозначают визуальный сигнал на выходе ГВС. Математически мы имеем ${\mathcal {E}}={\mathcal {C}}+{\mathcal {N}}$ и ${\mathcal {F}}={\mathcal {D}}+{\mathcal {N}}'$ . Обратите внимание, что ${\mathcal {N}}$ и ${\mathcal {N}}'$ являются случайными полями , независимыми от ${\mathcal {S}}$ , ${\mathcal {U}}$ и ${\mathcal {V}}$ .

Индекс ВИФ

Позволять ${\bar {C}}^{N}=({\bar {C}}_{1},{\bar {C}}_{2},\ldots ,{\bar {C}}^{N})$ обозначают вектор всех блоков из данного поддиапазона. Позволять $S^{N},{\bar {D}}^{N},{\bar {E}}^{N}$ и ${\bar {F}}^{N}$ быть определены аналогичным образом. Позволять $s^{N}$ обозначают максимального правдоподобия оценку $S^{N}$ данный $C^{N}$ и $\mathbf {C} _{U}$ . Объем информации, извлеченной из ссылки, получается как

I({\bar {C}}^{N};{\bar {E}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}\left({\frac {|s_{i}^{2}\mathbf {C} _{U}+\sigma _{n}^{2}\mathbf {I} |}{|\sigma _{n}^{2}\mathbf {I} |}}\right),

а количество информации, извлеченной из тестового изображения, определяется как

I({\bar {C}}^{N};{\bar {F}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}\left({\frac {|g_{i}^{2}s_{i}^{2}\mathbf {C} _{U}+(\sigma _{v}^{2}+\sigma _{n}^{2})\mathbf {I} |}{|(\sigma _{v}^{2}+\sigma _{n}^{2})\mathbf {I} |}}\right).

Обозначая $N$ блоки в поддиапазоне $j$ вейвлет-разложения на ${\bar {C}}^{N,j}$ , и аналогично для других переменных индекс VIF определяется как

{\textrm {VIF}}={\frac {\sum _{j\in {\textrm {subbands}}}I({\bar {C}}^{N,j};{\bar {F}}^{N,j}\mid S^{N,j}=s^{N,j})}{\sum _{j\in {\textrm {subbands}}}I({\bar {C}}^{N,j};{\bar {E}}^{N,j}\mid S^{N,j}=s^{N,j})}}.

Производительность

Коэффициент ранговой корреляции Спирмена (SROCC) между оценками индекса VIF искаженных изображений в базе данных оценки качества изображения LIVE и соответствующими оценками человеческого мнения оценивается как 0,96. ^{[ нужна ссылка ]}

Ссылки

^ Шейх Хамид; Бовик, Алан (2006). «Информация об изображении и визуальное качество». Транзакции IEEE при обработке изображений . 15 (2): 430–444. Бибкод : 2006ИТИП...15..430С . дои : 10.1109/tip.2005.859378 . ПМИД 16479813 .
^ Ван, Чжоу; Бовик, Алан; Шейх Хамид; Симончелли, Ээро (2004). «Оценка качества изображения: от видимости ошибок к структурному сходству». Транзакции IEEE при обработке изображений . 13 (4): 600–612. Бибкод : 2004ITIP...13..600W . дои : 10.1109/tip.2003.819861 . ПМИД 15376593 . S2CID 207761262 .
^ Шейх, Хамид Р. «Информация об изображении и визуальное качество» . Техасский университет . Проверено 15 апреля 2024 г.
^ Симончелли, Ээро; Фриман, Уильям (1995). «Управляемая пирамида: гибкая архитектура для многомасштабных вычислений производных». Труды. Международной конференции по обработке изображений . Том. 3. С. 444–447. дои : 10.1109/ICIP.1995.537667 . ISBN 0-7803-3122-2 . S2CID 1099364 .

Внешние ссылки

Лаборатория фото- и видеоинженерии Техасского университета
Реализация индекса VIF
База данных оценки качества изображения LIVE

[1] Шейх Хамид; Бовик, Алан (2006). «Информация об изображении и визуальное качество». Транзакции IEEE при обработке изображений . 15 (2): 430–444. Бибкод : 2006ИТИП...15..430С . дои : 10.1109/tip.2005.859378 . ПМИД 16479813 .

[2] Ван, Чжоу; Бовик, Алан; Шейх Хамид; Симончелли, Ээро (2004). «Оценка качества изображения: от видимости ошибок к структурному сходству». Транзакции IEEE при обработке изображений . 13 (4): 600–612. Бибкод : 2004ITIP...13..600W . дои : 10.1109/tip.2003.819861 . ПМИД 15376593 . S2CID 207761262 .

[3] Шейх, Хамид Р. «Информация об изображении и визуальное качество» . Техасский университет . Проверено 15 апреля 2024 г.

[4] Симончелли, Ээро; Фриман, Уильям (1995). «Управляемая пирамида: гибкая архитектура для многомасштабных вычислений производных». Труды. Международной конференции по обработке изображений . Том. 3. С. 444–447. дои : 10.1109/ICIP.1995.537667 . ISBN 0-7803-3122-2 . S2CID 1099364 .

[1]

[2]

[3]

[4]