ЗПЭГ

ЗПЭГ
Разработано	ЗПЭГ, Инк.
Первоначальный выпуск	2017
Веб-сайт	зпег .с

ZPEG — это технология движущегося видео, которая применяет модель остроты зрения человека к декоррелированному пространству области преобразования, тем самым оптимально уменьшая избыточность в движущемся видео за счет удаления субъективно незаметного. Эта технология применима для широкого спектра задач обработки видео, таких как оптимизация видео в реальном времени , сжатие движущегося видео , мониторинг субъективного качества и преобразование формата.

Компания ZPEG выпускает модифицированные версии x264 , x265 , AV1 и FFmpeg под названием ZPEG Engine (см. § Оптимизация видео ).

Декоррелированное пространство преобразования

Распределение пикселей хорошо моделируется как стохастический процесс , а преобразование к их идеальному декоррелированному представлению осуществляется с помощью преобразования Карунена-Лоэва (KLT), определенного теоремой Карунена-Лоэва . Дискретное косинусное преобразование (DCT) часто используется как эффективное в вычислительном отношении преобразование, которое близко аппроксимирует преобразование Карунена-Лоэва для видеоданных из-за сильной корреляции в пространстве пикселей , типичной для видеокадров. ^[1] Поскольку корреляция во временном направлении столь же высока, как и в пространственных направлениях, трехмерное ДКП может использоваться для декорреляции движущегося видео. ^[2]

Визуальная модель человека

Визуальная модель человека может быть сформулирована на основе контрастной чувствительности системы зрительного восприятия . ^[3] Может быть задана изменяющаяся во времени модель контрастной чувствительности, которая применима к трехмерному дискретному косинусному преобразованию (DCT). ^[4] Трехмерная модель контрастной чувствительности используется для создания квантователей для каждого из трехмерных базисных векторов, что приводит к почти оптимальному удалению незаметных артефактов движущегося видео без визуальных потерь. ^[5]

Сила восприятия в visiBels

Сила восприятия процесса генерации квантователя визуальной модели человека калибруется в visiBels (vB), логарифмической шкале, примерно соответствующей восприятию, измеряемому в высоте экрана. По мере удаления глаза от экрана он теряет способность воспринимать детали изображения. Модель ZPEG также включает временной компонент и, следовательно, не полностью описывается расстоянием просмотра. Что касается расстояния просмотра, сила visiBel увеличивается в шесть раз при уменьшении расстояния до экрана вдвое. Стандартное расстояние просмотра для телевидения стандартной четкости (около 7 высот экрана) определяется как 0vB. Нормальное расстояние просмотра видео высокой четкости (видео HD), составляющее около 4 высот экрана, будет определяться примерно как -6 ВБ (3,5 высоты экрана).

Оптимизация видео

Препроцессор ZPEG оптимизирует последовательности движущегося видео для сжатия с помощью существующих видеокомпрессоров на основе оценки движения, таких как Advanced Video Coding (AVC) (H.264) и High Efficiency Video Coding (HEVC) (H.265). Модель остроты зрения человека преобразуется в квантователи для непосредственного применения к трехмерному преобразованному блоку видеопоследовательности движения с последующим этапом обратного квантования (обработки сигнала) с помощью тех же квантователей. Видеопоследовательность движения, полученная в результате этого процесса, затем используется в качестве входных данных для существующего компрессора.

Сила повышения сжатия

Применение квантователей, генерируемых системой Human Visual System, для блочного дискретного косинусного преобразования приводит к повышению сжимаемости видеопотока за счет удаления незаметного контента из потока. Результатом является курируемый поток, в котором удалены подробные пространственные и временные детали, которые в противном случае пришлось бы воспроизводить компрессору. Поток также обеспечивает более точное соответствие алгоритмам оценки движения . Квантизаторы создаются так, чтобы быть незаметными на указанном расстоянии просмотра, указанном в visiBels. Типичные условия просмотра перед обработкой в обычном использовании:

Видео стандартной четкости (SD) обрабатывается со скоростью −6 ВБ.
Видео высокой четкости (HD) обрабатывается со скоростью −12 ВБ.
Видео сверхвысокой четкости (UHD, 4K) обрабатывается со скоростью −12 ВБ.
Иммерсивное видео сверхвысокой четкости (виртуальная реальность) обрабатывается со скоростью −18 ВБ.

Средняя экономия при сжатии HD-видео со скоростью 6 Мбит/с с использованием кодека x.264 при обработке со скоростью −12 ВБ составляет 21,88%. Средняя экономия при сжатии видео тестового набора Netflix 4K со скоростью 16 Мбит/с с использованием кодека x.264, обработанного со скоростью −12 ВБ, составляет 29,81%. Тот же набор тестов Netflix при сжатии для захватывающего просмотра (-18 ВБ) дает экономию 25,72%. Эти результаты воспроизводимы при использовании общедоступного испытательного стенда. ^[6]

Разблокировка

Хотя эффекты предварительной обработки ZPEG незаметны для обычного зрителя на указанном расстоянии просмотра, краевые эффекты, возникающие при блочной обработке преобразования, по-прежнему влияют на преимущество в производительности процесса оптимизации видео. Хотя для улучшения этой производительности можно применять существующие фильтры удаления блочности , оптимальные результаты достигаются за счет использования многоплоскостного алгоритма удаления блочности. Каждая плоскость смещена на половину размера блока в каждом из четырех направлений, так что смещение плоскости равно одному из (0,0), (0,4), (4, 0) и (4,4). ) в случае блоков 8х8 ^[7] и четыре самолета. Значения пикселей затем выбираются в соответствии с их расстоянием до края блока, при этом значения внутренних пикселей предпочтительнее значений граничных пикселей . Полученное в результате деблокированное видео обеспечивает существенно лучшую оптимизацию в широком диапазоне возможностей предварительной обработки.

Сжатие видео в реальном времени

Традиционные решения по сжатию движения основаны на оценки движения . технологии ^[8] в области преобразования Хотя существуют некоторые технологии видеокодеков , ZPEG основан на трехмерном дискретном косинусном преобразовании (DCT). ^[9] где тремя измерениями являются пиксель внутри строки, строка внутри кадра и временная последовательность кадров. Извлечение избыточных визуальных данных выполняется с помощью эффективного в вычислительном отношении процесса квантования представления видео в области преобразования, а не гораздо более затратного в вычислительном отношении процесса поиска совпадений объектов между блоками. Значения квантователя получаются путем применения визуальной модели человека к базисному набору коэффициентов DCT при заранее определенной мощности обработки восприятия. Таким образом, вся воспринимаемая избыточная информация удаляется из представления видео в области преобразования. Затем сжатие выполняется посредством процесса удаления энтропии . ^[10]

Квантование

После выбора условий просмотра, при которых будет просматриваться сжатый контент, визуальная модель человека генерирует квантователи для применения к трехмерному дискретному косинусному преобразованию (DCT). ^[11] Эти квантователи настроены на удаление всего незаметного контента из потока движущегося видео, что значительно снижает энтропию представления. Условия просмотра, выраженные в visiBels, и корреляция пикселей перед преобразованием генерируются для справки с помощью энтропийного кодирования .

Контекстно-ориентированное энтропийное кодирование

Хотя квантованные коэффициенты ДКП традиционно моделируются как распределения Лапласа , ^[12] более поздние работы показали, что распределение Коши лучше моделирует распределения квантованных коэффициентов. ^[13] Энтропийный кодер ZPEG кодирует квантованные трехмерные значения DCT в соответствии с распределением, которое полностью характеризуется матрицей квантования и корреляциями пикселей . Эта информация боковой полосы, передаваемая в сжатом потоке, позволяет декодеру синхронизировать свое внутреннее состояние с кодером. ^[14]

Разложение на поддиапазоны

Каждый диапазон DCT отдельно энтропийно кодируется для всех остальных диапазонов. Эти коэффициенты передаются по полосам, начиная с составляющей постоянного тока, за которой следуют последующие полосы в порядке от низкого разрешения до высокого, аналогично вейвлет-пакетному разложению . ^[15] Следование этому соглашению гарантирует, что приемник всегда будет получать максимально возможное разрешение для любого полосового канала, что позволяет использовать протокол передачи без буферизации.

Субъективные показатели качества

Золотая мера воспринимаемой разницы в качестве между эталонным видео и его ухудшенным представлением определена в рекомендации ITU-R BT-500. ^[16] Метод непрерывной шкалы качества с двойным стимулом (DSCQS) оценивает воспринимаемую разницу между эталонным и искаженным видео, чтобы создать общую оценку разницы, полученную на основе индивидуальных оценок в диапазоне от -3 до 3:

-3: испорченное видео намного хуже.
-2: искаженное видео хуже.
-1: искаженное видео немного хуже.
0: Видео одинаковые.
1: искаженное видео немного лучше.
2: искаженное видео лучше.
3: искаженное видео намного лучше.

По аналогии с нормализованной метрикой непрерывной шкалы качества для одного стимула (SSCQS) Mean Opinion Score (MOS), ^[17] общая оценка DSCQS нормализуется до диапазона (-100, 100) и называется дифференциальной средней оценкой мнения (DMOS), мерой субъективного качества видео .Идеальная объективная мера будет сильно коррелировать с показателем DMOS при применении к паре эталонного/испорченного видео. Обзор существующих методов и их общих достоинств можно найти в блоге Netflix . ^[18] ZPEG расширяет список доступных методов, предоставляя показатель субъективного качества, полученный путем сравнения показателя среднеквадратической ошибки разницы между эталонным и искаженным видео после предварительной обработки при различных уровнях восприятия (в visiBels). Эффективное расстояние просмотра, на котором разница в ухудшении больше не заметна, указывается как показатель ухудшения.

Преобразование формата

Статистически идеальное преобразование формата осуществляется путем интерполяции видеоконтента в дискретного косинусного преобразования . пространстве ^[19] Процесс преобразования, особенно в случае повышающей дискретизации, должен учитывать артефакты звона , которые возникают, когда в последовательности пикселей, подвергающихся повторной выборке, происходят резкие разрывы. Полученный алгоритм может понижать или повышать дискретизацию видеоформатов, изменяя размеры кадра, пикселей соотношение сторон и частоту кадров .

Ссылки

^ Рао, Камисетти; Йип, П. (1990). Дискретное косинусное преобразование: алгоритмы, преимущества, приложения . Академическая пресса. ISBN 0080925340 .
^ Вестуотер, Раймонд; Фурт, Борко (1997). Сжатие видео в реальном времени – методы и алгоритмы . Спрингер. ISBN 978-0-585-32313-8 .
^ Гленн, Уильям (1993). Сжатие цифрового изображения на основе визуального восприятия . МТИ Пресс. стр. 63–71. ISBN 0-262-23171-9 .
^ Бартен, Питер (1999). Контрактная чувствительность человеческого глаза и ее влияние на качество изображения . СПАЙ Пресс. ISBN 0-8194-3496-5 .
^ Уотсон, AB (1993). «Методика визуальной оптимизации матриц квантования DCT для отдельных изображений». Дайджест технических статей Общества информационного дисплея . XXIV : 946–949.
^ «Демонстрационная страница ZPEG» . ЗПЭГ . Проверено 13 апреля 2024 г.
^ «Почему был выбран размер DCT 8x8?» . эксперты123 . Проверено 27 января 2017 г.
^ Фурт, Борко; Гринберг, Джеффри; Вестуотер, Раймонд (1997). Алгоритмы оценки движения для сжатия видео . Спрингер. ISBN 978-1-4613-7863-1 .
^ Хатим, Анас; Белкоуч, Саид; Хасани, Моха (май 2014 г.). «Быстрое преобразование 8x8x8 RCF 3D_DCT/IDCT для сжатия видео в реальном времени и его реализация на FPGA» . Международный журнал достижений в области техники и технологий . Проверено 27 января 2017 г.
^ Вестуотер, Рэймонд. «Кодирование видео на основе преобразований – мотивация использования трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.
^ Вестуотер, Рэймонд. «Кодирование видео на основе преобразования — вычисление квантователей для трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.
^ Смут, Стивен; Роу, Лоуренс А. (1996). «Исследование распределений коэффициентов DCT» . Материалы симпозиума SPIE по электронной визуализации . 2657 . Проверено 27 января 2017 г.
^ Камачи, Неджат; Гассан, Аль-Реджиб (февраль 2012 г.). Сказал, Амир; Гулерюз, Онур Г; Стивенсон, Роберт Л. (ред.). «Влияние параметров видео на распределение коэффициента DCT для видеокодеров, подобных H.264» (PDF) . Труды SPIE . Обработка визуальной информации и коммуникация III. 8305 (3): 830505. Бибкод : 2012SPIE.8305E..05K . дои : 10.1117/12.908719 . S2CID 8968685 . Проверено 27 января 2017 г.
^ Вестуотер, Рэймонд. «Кодирование видео на основе преобразования – сжатие на основе корреляции с использованием трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.
^ Гу, Цзюньфэн; Цзян, Имин; Барас, Джон. «Видеокодек на основе 3D-вейвлетов с моделью человеческого восприятия» . Патент США 7006568 . Патентное ведомство США . Проверено 27 января 2017 г.
^ «Методика субъективной оценки качества телевизионного изображения» (PDF) . itu.int . МСЭ-Р . Проверено 27 января 2017 г.
^ «Терминология среднего балла мнения (MOS)» . itu.int . МСЭ-Т . Проверено 27 января 2017 г.
^ Ли, Чжи; Аарон, Энн; Кацавунидис, Иоаннис; Мурти, Ануш; Манохара, Мегха. «На пути к практическому измерению воспринимаемого качества видео» . Технический блок Netflix . Проверено 27 января 2017 г.
^ Вестуотер, Рэймонд. «Метод преобразования разрешения и частоты кадров видеоданных с использованием дискретного косинусного преобразования» . uspto.gov .

[1] Рао, Камисетти; Йип, П. (1990). Дискретное косинусное преобразование: алгоритмы, преимущества, приложения . Академическая пресса. ISBN 0080925340 .

[2] Вестуотер, Раймонд; Фурт, Борко (1997). Сжатие видео в реальном времени – методы и алгоритмы . Спрингер. ISBN 978-0-585-32313-8 .

[3] Гленн, Уильям (1993). Сжатие цифрового изображения на основе визуального восприятия . МТИ Пресс. стр. 63–71. ISBN 0-262-23171-9 .

[4] Бартен, Питер (1999). Контрактная чувствительность человеческого глаза и ее влияние на качество изображения . СПАЙ Пресс. ISBN 0-8194-3496-5 .

[5] Уотсон, AB (1993). «Методика визуальной оптимизации матриц квантования DCT для отдельных изображений». Дайджест технических статей Общества информационного дисплея . XXIV : 946–949.

[6] «Демонстрационная страница ZPEG» . ЗПЭГ . Проверено 13 апреля 2024 г.

[7] «Почему был выбран размер DCT 8x8?» . эксперты123 . Проверено 27 января 2017 г.

[8] Фурт, Борко; Гринберг, Джеффри; Вестуотер, Раймонд (1997). Алгоритмы оценки движения для сжатия видео . Спрингер. ISBN 978-1-4613-7863-1 .

[9] Хатим, Анас; Белкоуч, Саид; Хасани, Моха (май 2014 г.). «Быстрое преобразование 8x8x8 RCF 3D_DCT/IDCT для сжатия видео в реальном времени и его реализация на FPGA» . Международный журнал достижений в области техники и технологий . Проверено 27 января 2017 г.

[10] Вестуотер, Рэймонд. «Кодирование видео на основе преобразований – мотивация использования трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.

[11] Вестуотер, Рэймонд. «Кодирование видео на основе преобразования — вычисление квантователей для трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.

[12] Смут, Стивен; Роу, Лоуренс А. (1996). «Исследование распределений коэффициентов DCT» . Материалы симпозиума SPIE по электронной визуализации . 2657 . Проверено 27 января 2017 г.

[13] Камачи, Неджат; Гассан, Аль-Реджиб (февраль 2012 г.). Сказал, Амир; Гулерюз, Онур Г; Стивенсон, Роберт Л. (ред.). «Влияние параметров видео на распределение коэффициента DCT для видеокодеров, подобных H.264» (PDF) . Труды SPIE . Обработка визуальной информации и коммуникация III. 8305 (3): 830505. Бибкод : 2012SPIE.8305E..05K . дои : 10.1117/12.908719 . S2CID 8968685 . Проверено 27 января 2017 г.

[14] Вестуотер, Рэймонд. «Кодирование видео на основе преобразования – сжатие на основе корреляции с использованием трехмерного дискретного косинусного преобразования» . www.researchgate.net . Проверено 27 января 2017 г.

[15] Гу, Цзюньфэн; Цзян, Имин; Барас, Джон. «Видеокодек на основе 3D-вейвлетов с моделью человеческого восприятия» . Патент США 7006568 . Патентное ведомство США . Проверено 27 января 2017 г.

[16] «Методика субъективной оценки качества телевизионного изображения» (PDF) . itu.int . МСЭ-Р . Проверено 27 января 2017 г.

[17] «Терминология среднего балла мнения (MOS)» . itu.int . МСЭ-Т . Проверено 27 января 2017 г.

[18] Ли, Чжи; Аарон, Энн; Кацавунидис, Иоаннис; Мурти, Ануш; Манохара, Мегха. «На пути к практическому измерению воспринимаемого качества видео» . Технический блок Netflix . Проверено 27 января 2017 г.

[19] Вестуотер, Рэймонд. «Метод преобразования разрешения и частоты кадров видеоданных с использованием дискретного косинусного преобразования» . uspto.gov .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]