Мера индекса структурного сходства
Показатель структурного сходства индекса ( SSIM ) — это метод прогнозирования воспринимаемого качества цифрового телевидения и кинематографических изображений, а также других видов цифровых изображений и видео. Он также используется для измерения сходства между двумя изображениями. Индекс SSIM является полным эталонным показателем ; другими словами, измерение или прогнозирование качества изображения основано на исходном несжатом изображении или изображении без искажений в качестве эталона.
SSIM — это модель, основанная на восприятии, которая рассматривает деградацию изображения как воспринимаемое изменение структурной информации , а также включает важные явления восприятия, включая термины маскировки яркости и маскировки контраста. Отличие от других методов, таких как MSE или PSNR, заключается в том, что эти подходы оценивают абсолютные ошибки . Структурная информация — это идея о том, что пиксели имеют сильные взаимозависимости, особенно когда они пространственно близки. Эти зависимости несут важную информацию о структуре объектов визуальной сцены. Маскирование яркости — это явление, при котором искажения изображения (в данном контексте) имеют тенденцию быть менее заметными в ярких областях, тогда как маскирование контраста — это явление, при котором искажения становятся менее заметными там, где в изображении присутствует значительная активность или «текстура».
История
[ редактировать ]Предшественником SSIM назывался Универсальный индекс качества (UQI), или Индекс Ванга-Бовика , который был разработан Чжоу Ваном и Аланом Бовиком в 2001 году. Благодаря их сотрудничеству с Хамидом Шейхом и Ээро Симончелли он превратился в текущую версию SSIM. , который был опубликован в апреле 2004 года в журнале IEEE Transactions on Image Processing . [1] Помимо определения индекса качества SSIM, в документе представлен общий контекст для разработки и оценки показателей качества восприятия, включая связь с визуальной нейробиологией и восприятием человека, а также прямая проверка индекса на основе оценок людей.
Базовая модель была разработана в Лаборатории обработки изображений и видео (LIVE) Техасского университета в Остине и далее доработана совместно с Лабораторией вычислительного зрения (LCV) Нью-Йоркского университета . Дальнейшие варианты модели были разработаны в Лаборатории изображений и визуальных вычислений Университета Ватерлоо и поступили на коммерческий рынок.
Впоследствии SSIM нашел широкое распространение в сообществе специалистов по обработке изображений, а также на телевидении и в социальных сетях. , документ SSIM 2004 года цитировался более 50 000 раз По данным Google Scholar . [2] что делает ее одной из самых цитируемых статей в области обработки изображений и видеотехники. Он был отмечен наградой Общества обработки сигналов IEEE за лучшую статью в 2009 году. [3] Он также получил награду Общества обработки сигналов IEEE за устойчивое воздействие в 2016 году, что свидетельствует о том, что статья имела необычайно большое влияние в течение как минимум 10 лет после ее публикации. Благодаря широкому распространению в телевизионной индустрии каждый из авторов оригинальной статьи SSIM был удостоен премии Primetime Engineering Emmy Award в 2015 году от Телевизионной академии .
Алгоритм
[ редактировать ]Индекс SSIM рассчитывается по различным окнам изображения. Расстояние между двумя окнами и обычного размера является: [4]
с:
- выборки пикселей среднее значение ;
- выборки пикселей среднее значение ;
- дисперсия ;
- дисперсия ;
- ковариация и ;
- , две переменные для стабилизации деления со слабым знаменателем;
- динамический диапазон значений пикселей (обычно это );
- и по умолчанию.
Компоненты формулы
[ редактировать ]Формула SSIM основана на трех сравнительных измерениях между выборками и : яркость ( ), контраст ( ) и структура ( ). Отдельные функции сравнения: [4]
с, в дополнение к приведенным выше определениям:
В таком случае SSIM представляет собой взвешенную комбинацию этих сравнительных показателей:
Установка весов до 1, формулу можно привести к виду, показанному выше.
Математические свойства
[ редактировать ]SSIM удовлетворяет тождеству неразличимых величин и свойствам симметрии, но не неравенству треугольника или неотрицательности и, следовательно, не является функцией расстояния . Однако при определенных условиях SSIM может быть преобразован в нормализованную корневую меру MSE, которая является функцией расстояния. [5] Квадрат такой функции не выпуклый, а локально выпуклый и квазивыпуклый . [5] что делает SSIM реальной целью для оптимизации.
Применение формулы
[ редактировать ]Чтобы оценить качество изображения, эта формула обычно применяется только к яркости , хотя ее также можно применять к значениям цвета (например, RGB ) или хроматических (например, YCbCr ) значений. Результирующий индекс SSIM представляет собой десятичное значение от -1 до 1, где 1 указывает на полное сходство, 0 указывает на отсутствие сходства, а -1 указывает на идеальную антикорреляцию. Для изображения оно обычно рассчитывается с использованием скользящего гауссовского окна размером 11x11 или блочного окна размером 8x8. Окно можно перемещать попиксельно на изображении, чтобы создать карту качества изображения SSIM. В случае оценки качества видео, [6] авторы предлагают использовать только подгруппу возможных окон для уменьшения сложности расчета.
Варианты
[ редактировать ]Многомасштабный SSIM
[ редактировать ]Более продвинутая форма SSIM, называемая Multiscale SSIM (MS-SSIM). [4] проводится в нескольких масштабах посредством процесса, состоящего из нескольких этапов подвыборки, напоминающего многомасштабную обработку в системе раннего зрения. Было показано, что он работает одинаково хорошо или лучше, чем SSIM, на различных базах данных субъективных изображений и видео. [4] [7] [8]
Многокомпонентный SSIM
[ редактировать ]Трехкомпонентный SSIM (3-SSIM) — это форма SSIM, которая учитывает тот факт, что человеческий глаз может более точно видеть различия на текстурированных или краевых областях, чем на гладких областях. [9] Результирующая метрика рассчитывается как средневзвешенное значение SSIM для трех категорий регионов: краев, текстур и гладких регионов. Предлагаемый вес составляет 0,5 для краев, 0,25 для текстурированных и гладких областей. Авторы отмечают, что взвешивание 1/0/0 (игнорируя все, кроме краевых искажений) приводит к результатам, которые ближе к субъективным оценкам. Это говорит о том, что краевые области играют доминирующую роль в восприятии качества изображения.
Авторы 3-SSIM также расширили модель до четырехкомпонентный SSIM (4-SSIM). Типы кромок далее подразделяются на сохранившиеся и измененные кромки в зависимости от степени их искажения. Предлагаемый весовой коэффициент составляет 0,25 для всех четырех компонентов. [10]
Структурное несходство
[ редактировать ]Структурное несходство (DSSIM) может быть получено из SSIM, хотя оно не представляет собой функцию расстояния, поскольку неравенство треугольника не обязательно выполняется.
Показатели качества видео и временные варианты
[ редактировать ]Стоит отметить, что первоначальная версия SSIM была разработана для измерения качества неподвижных изображений. Он не содержит каких-либо параметров, напрямую связанных с временными эффектами человеческого восприятия и человеческого суждения. [7] Обычной практикой является вычисление среднего значения SSIM по всем кадрам видеопоследовательности. Однако было разработано несколько временных вариантов SSIM. [11] [6] [12]
Комплексный вейвлет SSIM
[ редактировать ]Вариант сложного вейвлет-преобразования SSIM (CW-SSIM) предназначен для решения проблем масштабирования, перевода и вращения изображения. Вместо того, чтобы давать низкие оценки изображениям в таких условиях, CW-SSIM использует комплексное вейвлет-преобразование и, следовательно, дает более высокие оценки указанным изображениям. CW-SSIM определяется следующим образом:
Где это комплексное вейвлет-преобразование сигнала и это комплексное вейвлет-преобразование для сигнала . Кроме того, — небольшое положительное число, используемое для обеспечения стабильности функции. В идеале оно должно быть равно нулю. Как и SSIM, CW-SSIM имеет максимальное значение 1. Максимальное значение 1 указывает на то, что два сигнала совершенно структурно схожи, а значение 0 указывает на отсутствие структурного сходства. [13]
ПРОСТОЙ
[ редактировать ]Индекс SSIMPLUS основан на SSIM и является коммерчески доступным инструментом. [14] Он расширяет возможности SSIM, в основном для видеоприложений. Он предоставляет оценки в диапазоне 0–100, линейно соответствующие субъективным оценкам человека. Это также позволяет адаптировать оценки к предполагаемому устройству просмотра, сравнивая видео в разных разрешениях и контенте.
По словам авторов, SSIMPLUS обеспечивает более высокую точность и скорость, чем другие показатели качества изображения и видео. Однако независимая оценка SSIMPLUS не проводилась, поскольку сам алгоритм не является общедоступным.
CSSIM
[ редактировать ]Для дальнейшего исследования стандартного дискретного SSIM с теоретической точки зрения, непрерывный SSIM (cSSIM) [15] был введен и изучен в контексте интерполяции радиальной базисной функции .
СИМУЛАКРА
[ редактировать ]SSIMULACRA и SSIMULACRA2 — это варианты SSIM, разработанные Cloudinary с целью адаптации к данным субъективного мнения. Варианты работают в цветовом пространстве XYB и сочетают MS-SSIM с двумя типами асимметричных карт ошибок для блочности/звона и сглаживания/размытия, распространенных артефактов сжатия. SSIMULACRA2 является частью libjxl, эталонной реализации JPEG XL . [16] [17]
Другие простые модификации
[ редактировать ]Метрика взаимной корреляции r* основана на метриках дисперсии SSIM. Это определяется как r *( x , y ) = σ xy / σ x σ y когда σ x σ y ≠ 0 , 1 , когда оба стандартных отклонения равны нулю, и 0 , когда только одно равно нулю. Он нашел применение при анализе реакции человека на фантомы с контрастными деталями. [18]
SSIM также использовался для градиента изображений, что дало ему название «G-SSIM». G-SSIM особенно полезен при работе с размытыми изображениями. [19]
Вышеуказанные модификации можно комбинировать. Например, 4-Gr* представляет собой комбинацию 4-SSIM, G-SSIM и r*. Он способен гораздо лучше отражать предпочтения рентгенологов в отношении изображений, чем другие протестированные варианты SSIM. [20]
Приложение
[ редактировать ]SSIM имеет применение для решения самых разных задач. Некоторые примеры:
- Сжатие изображений. При сжатии изображений с потерями информация намеренно отбрасывается, чтобы уменьшить объем памяти для изображений и видео. MSE обычно используется в таких схемах сжатия. По мнению авторов, предлагается использовать SSIM вместо MSE для получения лучших результатов для распакованных изображений. [13]
- Восстановление изображения. Восстановление изображения направлено на решение проблемы. где это размытое изображение, которое следует восстановить, это ядро размытия, аддитивный шум и — исходное изображение, которое мы хотим восстановить. Традиционным фильтром, который используется для решения этой проблемы, является фильтр Винера. Однако конструкция фильтра Винера основана на MSE. По словам авторов алгоритма, использование варианта SSIM, в частности Stat-SSIM, дает лучшие визуальные результаты. [13]
- Распознавание образов. Поскольку SSIM имитирует аспекты человеческого восприятия, его можно использовать для распознавания образов. Столкнувшись с такими проблемами, как масштабирование, перемещение и поворот изображения, авторы алгоритма утверждают, что лучше использовать CW-SSIM. [21] который нечувствителен к этим изменениям и может применяться напрямую путем сопоставления шаблонов без использования какой-либо обучающей выборки. Поскольку подходы к распознаванию образов на основе данных могут обеспечить более высокую производительность, когда для обучения доступен большой объем данных, авторы предлагают использовать CW-SSIM в подходах, основанных на данных. [21]
Сравнение производительности
[ редактировать ]Из-за своей популярности SSIM часто сравнивают с другими показателями, включая более простые показатели, такие как MSE и PSNR, а также другие показатели воспринимаемого качества изображения и видео . Неоднократно было показано, что SSIM значительно превосходит MSE и его производные по точности, включая исследования его собственных авторов и других. [7] [22] [23] [24] [25] [26]
В статье Доссельмана и Янга утверждается, что производительность SSIM «намного ближе к производительности MSE», чем обычно предполагается. Хотя они не оспаривают преимущество SSIM перед MSE, они констатируют аналитическую и функциональную зависимость между двумя показателями. [8] Согласно их исследованиям, было обнаружено, что SSIM, как и методы на основе MSE, коррелирует с субъективными базами данных, отличными от баз данных создателей SSIM. В качестве примера они приводят Рейбмана и Пула, которые обнаружили, что MSE превосходит SSIM в базе данных, содержащей видео с потерей пакетов. [27] В другой статье была выявлена аналитическая связь между PSNR и SSIM. [28]
См. также
[ редактировать ]- Среднеквадратическая ошибка
- Пиковое соотношение сигнал/шум
- Видео Многометодная оценка (VMAF)
- Качество видео
Ссылки
[ редактировать ]- ^ Ван, Чжоу; Бовик, АС; Шейх, HR; Симончелли, EP (1 апреля 2004 г.). «Оценка качества изображения: от видимости ошибок к структурному сходству». Транзакции IEEE при обработке изображений . 13 (4): 600–612. Бибкод : 2004ITIP...13..600W . CiteSeerX 10.1.1.2.5689 . дои : 10.1109/TIP.2003.819861 . ISSN 1057-7149 . ПМИД 15376593 . S2CID 207761262 .
- ^ «Гугл Академика» . ученый.google.com . Проверено 4 июля 2019 г.
- ^ «Общество обработки сигналов IEEE, награда за лучшую статью» (PDF) .
- ^ Jump up to: а б с д Ван, З.; Симончелли, EP; Бовик, AC (01 ноября 2003 г.). «Многомасштабное структурное сходство для оценки качества изображения». Тридцать седьмая Асиломарская конференция по сигналам, системам и компьютерам, 2003 г. Том. 2. С. 1398–1402 Том 2. CiteSeerX 10.1.1.58.1939 . дои : 10.1109/ACSSC.2003.1292216 . ISBN 978-0-7803-8104-9 . S2CID 60600316 .
- ^ Jump up to: а б Брюне, Д.; Васс, Дж.; Врскай, скорая помощь; Ван, З. (апрель 2012 г.). «О математических свойствах индекса структурного подобия» (PDF) . Транзакции IEEE при обработке изображений . 21 (4): 2324–2328. Бибкод : 2012ITIP...21.1488B . дои : 10.1109/TIP.2011.2173206 . ПМИД 22042163 . S2CID 13739220 .
- ^ Jump up to: а б Ван, З.; Лу, Л.; Бовик, AC (февраль 2004 г.). «Оценка качества видео на основе измерения структурных искажений» . Обработка сигналов: передача изображений . 19 (2): 121–132. CiteSeerX 10.1.1.2.6330 . дои : 10.1016/S0923-5965(03)00076-6 .
- ^ Jump up to: а б с Согаард, Джейкоб; Красула, Лукаш; Шахид, Мухаммед; Темель, Доганкан; Бруннстрем, Кьель; Разаак, Мансур (14 февраля 2016 г.). «Применимость существующих объективных показателей качества восприятия для адаптивного потокового видео» (PDF) . Электронная визуализация . 2016 (13): 1–7. doi : 10.2352/issn.2470-1173.2016.13.iqsp-206 . S2CID 26253431 .
- ^ Jump up to: а б Доссельманн, Ричард; Ян, Сюэ Донг (6 ноября 2009 г.). «Комплексная оценка индекса структурного сходства». Обработка сигналов, изображений и видео . 5 (1): 81–91. дои : 10.1007/s11760-009-0144-1 . ISSN 1863-1703 . S2CID 30046880 .
- ^ Ли, Чаофэн; Бовик, Алан Конрад (1 января 2010 г.). «Оценка качества видео по содержанию с использованием трехкомпонентной модели изображения». Журнал электронных изображений . 19 (1): 011003–011003–9. Бибкод : 2010JEI....19a1003L . дои : 10.1117/1.3267087 . ISSN 1017-9909 .
- ^ Ли, Чаофэн; Бовик, Алан К. (август 2010 г.). «Индекс структурного сходства с разделением контента для оценки качества изображения». Обработка сигналов: передача изображений . 25 (7): 517–526. дои : 10.1016/j.image.2010.03.004 .
- ^ «Перенаправление страницы» . www.compression.ru .
- ^ Ван, З.; Ли, К. (декабрь 2007 г.). «Оценка качества видео с использованием статистической модели зрительного восприятия скорости человека» (PDF) . Журнал Оптического общества Америки А. 24 (12): В61–В69. Бибкод : 2007JOSAA..24...61W . CiteSeerX 10.1.1.113.4177 . дои : 10.1364/JOSAA.24.000B61 . ПМИД 18059915 .
- ^ Jump up to: а б с Чжоу Ван; Бовик, AC (январь 2009 г.). «Среднеквадратическая ошибка: нравится это или нет? Новый взгляд на меры точности сигнала». Журнал обработки сигналов IEEE . 26 (1): 98–117. Бибкод : 2009ISPM...26...98W . дои : 10.1109/msp.2008.930649 . ISSN 1053-5888 . S2CID 2492436 .
- ^ Рехман, А.; Цзэн, К.; Ван, Чжоу (февраль 2015 г.). Роговитц, Бернис Э; Паппас, Трасивулос Н; Де Риддер, Хуиб (ред.). «Оценка качества видео, адаптированная к устройству отображения» (PDF) . IS&T-SPIE Электронная визуализация, человеческое зрение и электронная визуализация XX . Человеческое зрение и электронная визуализация XX. 9394 : 939406. Бибкод : 2015SPIE.9394E..06R . дои : 10.1117/12.2077917 . S2CID 1466973 .
- ^ Маркетти, Ф. (январь 2021 г.). «Степень сходимости с точки зрения непрерывного индекса SSIM (cSSIM) в интерполяции RBF» (PDF) . Долом. Рез. Примечания 14 : 27–32.
- ^ «SSIMULACRA 2 — Структурное сходство, раскрывающее локальные артефакты и артефакты, связанные со сжатием» . Облачно. 12 июля 2023 г.
- ^ «Обнаружение психовизуального воздействия артефактов, связанных со сжатием, с помощью SSIMULACRA» . Облачный блог . 14 июня 2017 г.
- ^ Прието, Габриэль; Гибелальде, Эдуардо; Шевалье, Маргарита; Турреро, Агустин (21 июля 2011 г.). «Использование компонента взаимной корреляции многомасштабной метрики структурного сходства (метрики R*) для оценки медицинских изображений: метрика R* для оценки медицинских изображений». Медицинская физика . 38 (8): 4512–4517. дои : 10.1118/1.3605634 . ПМИД 21928621 .
- ^ Чен, Гуань-хао; Ян, Чун-лин; Се, Шэн-ли (октябрь 2006 г.). «Структурное сходство на основе градиента для оценки качества изображения». 2006 Международная конференция по обработке изображений . стр. 2929–2932. дои : 10.1109/ICIP.2006.313132 . ISBN 1-4244-0480-0 . S2CID 15809337 .
- ^ РЭниеблас, Габриэль Прието; Ногес, Агустин Турреро; Гонсалес, Альберто Муньос; Гомес-Леон, Ньевес; дель Кастильо, Эдуардо Гибелальде (26 июля 2017 г.). «Семейство индексов структурного сходства для оценки качества изображений на радиологических изображениях» . Журнал медицинской визуализации . 4 (3): 035501. doi : 10.1117/1.JMI.4.3.035501 . ПМЦ 5527267 . ПМИД 28924574 .
- ^ Jump up to: а б Гао, Ю.; Рехман, А.; Ван, З. (сентябрь 2011 г.). Классификация изображений на основе CW-SSIM (PDF) . Международная конференция IEEE по обработке изображений (ICIP11).
- ^ Чжан, Линь; Чжан, Лей; Моу, Х.; Чжан Д. (сентябрь 2012 г.). «Комплексная оценка алгоритмов оценки качества полных эталонных изображений». 2012 19-я Международная конференция IEEE по обработке изображений . стр. 1477–1480. CiteSeerX 10.1.1.476.2566 . дои : 10.1109/icip.2012.6467150 . ISBN 978-1-4673-2533-2 . S2CID 10716320 .
- ^ Чжоу Ван; Ван, Чжоу; Ли, Цян (май 2011 г.). «Взвешивание информационного контента для перцептивной оценки качества изображения». Транзакции IEEE при обработке изображений . 20 (5): 1185–1198. Бибкод : 2011ITIP...20.1185W . дои : 10.1109/tip.2010.2092435 . ПМИД 21078577 . S2CID 106021 .
- ^ Чаннаппайя, СС; Бовик, АС; Караманис, К.; Хит, RW (март 2008 г.). «SSIM-оптимальное восстановление линейного изображения». 2008 Международная конференция IEEE по акустике, речи и обработке сигналов . стр. 765–768. CiteSeerX 10.1.1.152.7952 . дои : 10.1109/icassp.2008.4517722 . ISBN 978-1-4244-1483-3 . S2CID 14830268 .
- ^ Гор, Акшай; Гупта, Савита (01 февраля 2015 г.). «Полные эталонные показатели качества изображений для изображений, сжатых в формате JPEG». АЕУ — Международный журнал электроники и коммуникаций . 69 (2): 604–608. дои : 10.1016/j.aeue.2014.09.002 .
- ^ Ван, З.; Симончелли, EP (сентябрь 2008 г.). «Конкурс максимальной дифференциации (MAD): методология сравнения вычислительных моделей перцептивных величин» (PDF) . Журнал видения . 8 (12): 8.1–13. дои : 10.1167/8.12.8 . ПМЦ 4143340 . ПМИД 18831621 .
- ^ Рейбман, Арканзас; Пул, Д. (сентябрь 2007 г.). «Характеристика нарушений потери пакетов в сжатом видео». 2007 Международная конференция IEEE по обработке изображений . Том. 5. С. V – 77 – V – 80. CiteSeerX 10.1.1.159.5710 . дои : 10.1109/icip.2007.4379769 . ISBN 978-1-4244-1436-9 . S2CID 1685021 .
- ^ Хор, А.; Зиу, Д. (август 2010 г.). «Показатели качества изображения: PSNR против SSIM». 2010 20-я Международная конференция по распознаванию образов . стр. 2366–2369. дои : 10.1109/icpr.2010.579 . ISBN 978-1-4244-7542-1 . S2CID 9506273 .