Jump to content

Верность визуальной информации

Точность визуальной информации ( VIF ) – это полный эталонный индекс оценки качества изображения , основанный на статистике естественной сцены и понятии информации об изображении, извлекаемой зрительной системой человека . [1] Он был разработан Хамидом Р. Шейхом и Аланом Бовиком в Лаборатории обработки изображений и видео (LIVE) Техасского университета в Остине в 2006 году. Он развернут в ядре системы мониторинга качества видео Netflix VMAF , которая контролирует изображение. качество всех закодированных видео, транслируемых Netflix.

Обзор модели

[ редактировать ]

Изображения и видео трехмерной визуальной среды принадлежат к одному классу: классу природных сцен. Естественные сцены из крошечного подпространства в пространстве всех возможных сигналов, и исследователи разработали сложные модели, чтобы охарактеризовать эту статистику. Большинство реальных процессов искажения нарушают эти статистические данные и делают изображение или видеосигналы неестественными. Индекс VIF использует статистические модели естественной сцены (NSS) в сочетании с моделью искажений (каналов) для количественной оценки информации, разделяемой между тестовыми и эталонными изображениями. Кроме того, индекс VIF основан на гипотезе о том, что эта общая информация является аспектом точности, который хорошо связан с качеством изображения. В отличие от предшествующих подходов, основанных на чувствительности к ошибкам зрительной системы человека (HVS) и измерении структуры, [2] Этот статистический подход, используемый в теоретико-информационных условиях, дает полный эталонный (FR) метод оценки качества (QA), который не полагается на какие-либо параметры HVS или геометрии просмотра, а также на какие-либо константы, требующие оптимизации, и в то же время конкурентоспособен по сравнению с состоянием методы обеспечения качества искусства. [3]

В частности, эталонное изображение моделируется как выходной сигнал стохастического «естественного» источника, который проходит через канал HVS и позже обрабатывается мозгом. Информационное содержание опорного изображения количественно определяется как взаимная информация между входом и выходом канала HVS. Это информация, которую мозг в идеале мог бы извлечь из выходных данных HVS. Затем эта же мера количественно оценивается при наличии канала искажения изображения, который искажает выходной сигнал естественного источника до того, как он пройдет через канал HVS, тем самым измеряя информацию, которую мозг в идеале мог бы извлечь из тестового изображения. Графически это показано на рисунке 1. Два информационных показателя затем объединяются для формирования показателя точности визуальной информации, который связывает визуальное качество с относительной информацией изображения.

Рисунок 1

Модель системы

[ редактировать ]

Исходная модель

[ редактировать ]

Смесь гауссова масштаба (GSM) используется для статистического моделирования вейвлет-коэффициентов управляемого пирамидального разложения изображения. [4] Модель описана ниже для данного поддиапазона многомасштабного многоориентационного разложения и может быть аналогичным образом распространена на другие поддиапазоны. Пусть вейвлет-коэффициенты в данном поддиапазоне равны где обозначает набор пространственных индексов в поддиапазоне и каждый это размерный вектор . Поддиапазон разбивается на непересекающиеся блоки коэффициенты каждый, где каждый блок соответствует . Согласно модели GSM, где является положительной скалярной величиной и представляет собой гауссов вектор с нулевым средним значением и ковариацией . Далее предполагается, что непересекающиеся блоки независимы друг от друга и что случайное поле не зависит от .

Модель искажения

[ редактировать ]

Процесс искажения моделируется с использованием комбинации затухания сигнала и аддитивного шума в вейвлет- области. Математически, если обозначает случайное поле из данного поддиапазона искаженного изображения, является детерминированным скалярным полем и , где представляет собой нулевой средний гауссов вектор с ковариацией , затем

Дальше, моделируется как независимая от и .

Модель HVS

[ редактировать ]

Двойственность моделей HVS и NSS подразумевает, что некоторые аспекты HVS уже учтены в исходной модели. Здесь HVS дополнительно моделируется на основе гипотезы о том, что неопределенность восприятия зрительных сигналов ограничивает объем информации, которую можно извлечь из исходного и искаженного изображения. Этот источник неопределенности можно смоделировать как визуальный шум в модели HVS. В частности, шум HVS в заданном поддиапазоне вейвлет-разложения моделируется как аддитивный белый гауссов шум. Позволять и быть случайными полями, где и являются нулевыми средними гауссовскими векторами с ковариацией и . Далее, пусть и обозначают визуальный сигнал на выходе ГВС. Математически мы имеем и . Обратите внимание, что и являются случайными полями , независимыми от , и .

Индекс ВИФ

[ редактировать ]

Позволять обозначают вектор всех блоков из данного поддиапазона. Позволять и быть определены аналогичным образом. Позволять обозначают максимального правдоподобия оценку данный и . Объем информации, извлеченной из ссылки, получается как

а количество информации, извлеченной из тестового изображения, определяется как

Обозначая блоки в поддиапазоне вейвлет-разложения на , и аналогично для других переменных индекс VIF определяется как

Производительность

[ редактировать ]

Коэффициент ранговой корреляции Спирмена (SROCC) между оценками индекса VIF искаженных изображений в базе данных оценки качества изображения LIVE и соответствующими оценками человеческого мнения оценивается как 0,96. [ нужна ссылка ]

  1. ^ Шейх Хамид; Бовик, Алан (2006). «Информация об изображении и визуальное качество». Транзакции IEEE при обработке изображений . 15 (2): 430–444. Бибкод : 2006ИТИП...15..430С . дои : 10.1109/tip.2005.859378 . ПМИД   16479813 .
  2. ^ Ван, Чжоу; Бовик, Алан; Шейх Хамид; Симончелли, Ээро (2004). «Оценка качества изображения: от видимости ошибок к структурному сходству». Транзакции IEEE при обработке изображений . 13 (4): 600–612. Бибкод : 2004ITIP...13..600W . дои : 10.1109/tip.2003.819861 . ПМИД   15376593 . S2CID   207761262 .
  3. ^ Шейх, Хамид Р. «Информация об изображении и визуальное качество» . Техасский университет . Проверено 15 апреля 2024 г.
  4. ^ Симончелли, Ээро; Фриман, Уильям (1995). «Управляемая пирамида: гибкая архитектура для многомасштабных вычислений производных». Труды. Международной конференции по обработке изображений . Том. 3. С. 444–447. дои : 10.1109/ICIP.1995.537667 . ISBN  0-7803-3122-2 . S2CID   1099364 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ec1dae5b4281ed9657f04fcca6dc9065__1713692340
URL1:https://arc.ask3.ru/arc/aa/ec/65/ec1dae5b4281ed9657f04fcca6dc9065.html
Заголовок, (Title) документа по адресу, URL1:
Visual information fidelity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)