Jump to content

Дискретное косинусное преобразование

(Перенаправлено с IDCT )

Дискретное косинусное преобразование ( ДКП ) выражает конечную последовательность точек данных в виде суммы косинусных функций, колеблющихся на разных частотах . DCT, впервые предложенный Насиром Ахмедом в 1972 году, представляет собой широко используемый метод преобразования при обработке сигналов и сжатии данных . Он используется в большинстве цифровых носителей , включая цифровые изображения (например, JPEG и HEIF ), цифровое видео (например, MPEG и H.26x ), цифровое аудио (например, Dolby Digital , MP3 и AAC ), цифровое телевидение (например, SDTV). , HDTV и VOD ), цифровое радио (например, AAC+ и DAB+ ) и кодирование речи (например, AAC-LD , Siren и Opus ). ДКП также важны для многих других приложений в науке и технике , таких как цифровая обработка сигналов , телекоммуникационные устройства, сокращение использования полосы пропускания сети и спектральные методы численного решения уравнений в частных производных .

ДКП — это преобразование Фурье, аналогичное дискретному преобразованию Фурье (ДПФ), но использующее только действительные числа . ДКП обычно связаны с коэффициентами ряда Фурье периодически и симметрично расширенной последовательности, тогда как ДПФ связаны с коэффициентами ряда Фурье только периодически расширенной последовательности. ДКП эквивалентны ДПФ примерно вдвое большей длины, работающие с реальными данными с четной симметрией (поскольку преобразование Фурье действительной и четной функции является действительным и четным), тогда как в некоторых вариантах входные или выходные данные сдвигаются на половину выборки. .

Существует восемь стандартных вариантов DCT, из которых четыре являются распространенными.Наиболее распространенным вариантом дискретного косинусного преобразования является ДКП типа II, который часто называют просто ДКП . Это был первоначальный DCT, впервые предложенный Ахмедом. Его обратное, ДКП типа III, соответственно, часто называют просто обратным ДКП или IDCT . Двумя связанными преобразованиями являются дискретное синусоидальное преобразование (ДСТ), которое эквивалентно ДПФ действительных и нечетных функций , и модифицированное дискретное косинусное преобразование (МДКП), основанное на ДКП перекрывающихся данных. Многомерные DCT (MD DCT) разработаны для расширения концепции DCT на многомерные сигналы. Для снижения вычислительной сложности реализации DCT было разработано множество быстрых алгоритмов. Одним из них является целочисленное ДКП (IntDCT), [1] целочисленное , приближение стандартного ДКП [2] : ix, xiii, 1, 141–304. используется в нескольких ISO/IEC и ITU-T . международных стандартах [1] [2]

Сжатие DCT, также известное как блочное сжатие, сжимает данные в наборы дискретных блоков DCT. [3] Размеры блоков DCT, включая 8x8 пикселей для стандартного DCT, и различные размеры целочисленных DCT от 4x4 до 32x32 пикселей. [1] [4] DCT обладает сильным свойством уплотнения энергии , [5] [6] способен достигать высокого качества при высоких коэффициентах сжатия данных . [7] [8] Однако артефакты блочного сжатия при применении сильного сжатия DCT могут появиться .

DCT был впервые разработан Насиром Ахмедом , Т. Натараджаном и К. Р. Рао во время работы в Университете штата Канзас . Концепция была предложена Национальному научному фонду в 1972 году. Изначально DCT предназначался для сжатия изображений . [9] [1] Ахмед разработал практический алгоритм DCT вместе со своими аспирантами Т. Раджем Натараджаном, Уиллсом Дитрихом и Джереми Фрисом, а также своим другом доктором К. Р. Рао в Техасском университете в Арлингтоне в 1973 году. [9] Они представили свои результаты в статье в январе 1974 года под названием «Дискретное косинусное преобразование» . [5] [6] [10] В нем описывалось то, что сейчас называется DCT типа II (DCT-II), [2] :  51 а также обратное ДКП типа III (IDCT). [5]

С момента его появления в 1974 году были проведены значительные исследования DCT. [10] В 1977 году Вэнь-Сюн Чен вместе с К. Харрисоном Смитом и Стэнли К. Фраликом опубликовал статью, в которой представил быстрый алгоритм ДКП. [11] [10] Дальнейшие разработки включают статью М. Дж. Нарасимхи и А. М. Петерсона 1978 года и статью Б. Г. Ли 1984 года. [10] Эти исследовательские работы, а также оригинальная статья Ахмеда 1974 года и статья Чена 1977 года были процитированы Объединенной группой экспертов по фотографии в качестве основы для JPEG в 1992 году. алгоритма сжатия изображений с потерями [10] [12]

Дискретное синусоидальное преобразование (ДСТ) было получено на основе ДКП путем замены условия Неймана при x=0 на условие Дирихле . [2] :  35-36 DST было описано в статье DCT 1974 года Ахмедом, Натараджаном и Рао. [5] DST типа I (DST-I) позже был описан Анилом К. Джайном в 1976 году, а DST типа II (DST-II) был затем описан Х. Б. Кекрой и Дж. К. Соланкой в ​​1978 году. [13]

В 1975 году Джон А. Роуз и Гунер С. Робинсон адаптировали DCT для межкадрового с компенсацией движения видеокодирования . Они экспериментировали с DCT и быстрым преобразованием Фурье (FFT), разрабатывая межкадровые гибридные кодеры для обоих, и обнаружили, что DCT является наиболее эффективным из-за его меньшей сложности, способного сжимать данные изображения до 0,25 бит на пиксель. для сцены видеотелефона с качеством изображения, сравнимым с внутрикадровым кодером, требующим 2 бита на пиксель. [14] [15] В 1979 году Анил К. Джайн и Джасвант Р. Джайн продолжили разработку сжатия видео DCT с компенсацией движения. [16] [17] также называется компенсацией движения блока. [17] Это привело к тому, что в 1981 году Чен разработал практический алгоритм сжатия видео, названный DCT с компенсацией движения или адаптивным кодированием сцены. [17] DCT с компенсацией движения позже стал стандартным методом кодирования для сжатия видео, начиная с конца 1980-х годов. [18] [19]

Вариант DCT, модифицированное дискретное косинусное преобразование (MDCT), был разработан Джоном П. Принсеном, А.В. Джонсоном и Аланом Б. Брэдли в Университете Суррея в 1987 году. [20] после более ранней работы Принсена и Брэдли в 1986 году. [21] MDCT используется в большинстве современных форматов сжатия звука , таких как Dolby Digital (AC-3), [22] [23] MP3 (использующий гибридный алгоритм DCT- FFT ), [24] Расширенное кодирование звука (AAC), [25] и Ворбис ( Огг ). [26]

Насир Ахмед также разработал алгоритм DCT без потерь вместе с Гиридхаром Мандьямом и Нираджем Маготрой из Университета Нью-Мексико в 1995 году. Это позволяет использовать метод DCT для сжатия изображений без потерь. Это модификация исходного алгоритма DCT, включающая элементы обратного DCT и дельта-модуляции . Это более эффективный алгоритм сжатия без потерь, чем энтропийное кодирование . [27] DCT без потерь также известен как LDCT. [28]

Приложения

[ редактировать ]

DCT — наиболее широко используемый метод преобразования при обработке сигналов . [29] и, безусловно, наиболее широко используемое линейное преобразование при сжатии данных . [30] Несжатые цифровые носители , а также сжатие без потерь предъявляют высокие требования к памяти и пропускной способности , что значительно снижается за счет метода сжатия с потерями DCT . [7] [8] возможность достижения степени сжатия данных от 8:1 до 14:1 для качества, близкого к студийному, [7] до 100:1 для контента приемлемого качества. [8] Стандарты сжатия DCT используются в цифровых медиа-технологиях, таких как цифровые изображения , цифровые фотографии , [31] [32] цифровое видео , [18] [33] потоковое мультимедиа , [34] цифровое телевидение , потоковое телевидение , видео по запросу (VOD), [8] цифровое кино , [22] видео высокой четкости (HD-видео) и телевидение высокой четкости (HDTV). [7] [35]

DCT, и в частности DCT-II, часто используется при обработке сигналов и изображений, особенно для сжатия с потерями, поскольку он обладает сильным свойством сжатия энергии . [5] [6] В типичных приложениях большая часть информации о сигнале имеет тенденцию концентрироваться в нескольких низкочастотных компонентах DCT. Для сильно коррелированных марковских процессов ДКП может приближаться к эффективности уплотнения преобразования Карунена-Лоэва (которая является оптимальной в смысле декорреляции). Как поясняется ниже, это связано с граничными условиями, заложенными в косинусных функциях.

ДКП широко используются при решении уравнений в частных производных , спектральными методами где различные варианты ДКП соответствуют немного отличающимся четным и нечетным граничным условиям на двух концах массива.

ДКП тесно связаны с полиномами Чебышева , а быстрые алгоритмы ДКП (ниже) используются в аппроксимации Чебышева произвольных функций рядами полиномов Чебышева, например, в квадратуре Кленшоу – Кертиса .

Общие приложения

[ редактировать ]

DCT широко используется во многих приложениях, включая следующие.

Стандарты визуальных медиа

[ редактировать ]

DCT-II — важный метод сжатия изображений. Он используется в стандартах сжатия изображений, таких как JPEG , и стандартах сжатия видео , таких как H.26x , MJPEG , MPEG , DV , Theora и Daala . Там двумерный DCT-II блоки вычисляются, а результаты квантоваются и энтропийно кодируются . В этом случае, обычно равен 8, и формула DCT-II применяется к каждой строке и столбцу блока. Результатом является массив коэффициентов преобразования 8 × 8, в котором элемент (вверху слева) представляет собой компонент постоянного тока (нулевая частота), а записи с возрастающими значениями вертикального и горизонтального индекса представляют более высокие вертикальные и горизонтальные пространственные частоты.

Целочисленное ДКП, целочисленное приближение ДКП, [2] [1] используется в расширенном кодировании видео (AVC), [52] [1] представленный в 2003 году, и высокоэффективное кодирование видео (HEVC), [4] [1] представлено в 2013 году. Целочисленное DCT также используется в формате высокоэффективного изображения (HEIF), который использует подмножество формата кодирования видео HEVC для кодирования неподвижных изображений. [4] AVC использует блоки 4 x 4 и 8 x 8. HEVC и HEIF используют блоки разных размеров от 4 x 4 до 32 x 32 пикселей . [4] [1] По состоянию на 2019 год , AVC на сегодняшний день является наиболее часто используемым форматом для записи, сжатия и распространения видеоконтента, его используют 91% разработчиков видео, за ним следует HEVC, который используют 43% разработчиков. [43]

Форматы изображений

[ редактировать ]
Стандарт сжатия изображений Год Общие приложения
JPEG [1] 1992 Наиболее широко используемый стандарт сжатия изображений. [53] [54] и формат цифрового изображения . [46]
JPEG-XR 2009 Спецификация документа Open XML
ВебП 2010 Графический формат, поддерживающий сжатие цифровых изображений с потерями. Разработано Google .
Высокоэффективный формат изображения (HEIF) 2013 Формат файла изображения , основанный на сжатии HEVC. Он улучшает сжатие по сравнению с JPEG, [4] и поддерживает анимацию с гораздо более эффективным сжатием, чем анимированный формат GIF . [55]
ВВП 2014 На основе сжатия HEVC.
JPEG XL [56] 2020 Бесплатный формат файлов растровой графики, поддерживающий сжатие как с потерями, так и без потерь.

Видео форматы

[ редактировать ]
Стандарт кодирования видео Год Общие приложения
H.261 [57] [58] 1988 Первый из семейства стандартов кодирования видео . Используется в основном в старых продуктах для видеоконференций и видеотелефонов .
Движущийся JPEG (MJPEG) [59] 1992 QuickTime , монтаж видео , нелинейный монтаж , цифровые камеры
MPEG-1 Видео [60] 1993 цифрового видео Распространение на компакт-диске или Интернет-видео.
Видео MPEG-2 ( H.262 ) [60] 1995 Хранение и обработка цифровых изображений в приложениях вещания, цифровом телевидении , HDTV , кабельном, спутниковом, высокоскоростном Интернете , распространении DVD- видео.
ДВ 1995 Видеокамеры , цифровые кассеты
H.263 ( MPEG-4, часть 2 ) [57] 1996 Видеотелефония по коммутируемой телефонной сети общего пользования (PSTN), H.320 , цифровая сеть с интеграцией услуг (ISDN) [61] [62]
Расширенное кодирование видео (AVC, H.264 , MPEG-4 ) [1] [52] 2003 Популярный HD-видео формат записи, сжатия и распространения , интернет-видео , YouTube , диски Blu-ray , HDTV трансляции , веб-браузеры , потоковое телевидение , мобильные устройства , потребительские устройства, Netflix , [42] видеотелефония , FaceTime [41]
Теория 2004 Интернет-видео, веб-браузеры
ВК-1 2006 Windows Media, диски Blu-ray
Apple ProRes 2007 Профессиональная видеосъемка. [50]
ВП9 2010 Видеокодек, разработанный Google , используемый в формате контейнера WebM с HTML5 .
Высокоэффективное кодирование видео (HEVC, H.265 ) [1] [4] 2013 Преемник стандарта H.264 , имеющий существенно улучшенные возможности сжатия.
Daala 2013 Формат исследовательского видео от Xiph.org
АВ1 [63] 2018 Формат с открытым исходным кодом, основанный на VP10 ( , внутреннем преемнике VP9) Daala и Thor ; используется поставщиками контента, такими как YouTube [64] [65] и Нетфликс . [66] [67]

Аудиостандарты MDCT

[ редактировать ]

Общий звук

[ редактировать ]
Стандарт сжатия звука Год Общие приложения
Долби Цифровой (AC-3) [22] [23] 1991 Кино , цифровое кино , DVD , Blu-ray , потоковое мультимедиа , видеоигры
Акустическое кодирование с адаптивным преобразованием (ATRAC) [22] 1992 МиниДиск
MP3 [24] [1] 1993 цифрового аудио Распространение , MP3-плееры , портативные медиаплееры , потоковое мультимедиа
Перцепционный аудиокодер (PAC) [22] 1996 Служба цифрового аудиорадио (DARS)
Расширенное кодирование звука (аудио AAC/ MP4 ) [25] [22] 1997 цифрового звука Распространение , портативные медиаплееры , потоковое мультимедиа , игровые консоли , мобильные устройства , iOS , iTunes , Android , BlackBerry
Высокоэффективное усовершенствованное кодирование звука (AAC+) [68] [38] :  478 1997 Цифровое радио , цифровое аудиовещание (DAB+), [38] Digital Radio Mondiale (DRM)
Кодек Кука 1998 RealAudio
Windows Media Аудио (WMA) [22] 1999 Windows Медиа
Ворбис [26] [22] 2000 цифрового звука Распространение , радиостанции , потоковое мультимедиа , видеоигры , Spotify , Wikipedia
Кодирование высокой четкости (HDC) [39] 2002 Цифровое радио, HD-радио
Адаптация динамического разрешения (DRA) [22] 2008 Китайский национальный аудиостандарт, Китайское мультимедийное мобильное вещание , DVB-H
Опус [69] 2012 VoIP, [70] мобильная связь, WhatsApp , [71] [72] [73] PlayStation 4 [74]
Долби AC-4 [75] 2015 ATSC 3.0 , телевидение сверхвысокой четкости (UHD TV)
MPEG-H 3D Audio [76]

Кодирование речи

[ редактировать ]
кодирования речи Стандарт Год Общие приложения
ААС-ЛД (LD-MDCT) [77] 1999 Мобильная телефония , передача голоса по IP (VoIP), iOS , FaceTime [41]
Сирена [40] 1999 VoIP , широкополосное аудио , G.722.1
G.722.1 [78] 1999 VoIP, широкополосное аудио, G.722
G.729.1 [79] 2006 G.729 , VoIP, широкополосное аудио, [79] мобильная телефония
ЕВРК-ВБ [38] :  31 , 478]  2007 Широкополосный звук
Г.718 [80] 2008 VoIP, широкополосное аудио, мобильная телефония
Г.719 [38] 2008 Телеконференции , видеоконференции , голосовая почта
КЕЛЬТ [81] 2011 VoIP, [82] [83] мобильная телефония
Расширенные голосовые услуги (EVS) [84] 2014 Мобильная телефония, VoIP, широкополосное аудио

Многомерное ДКП

[ редактировать ]

Многомерные DCT (MD DCT) имеют несколько применений, в основном 3-D DCT, такие как 3-D DCT-II, который имеет несколько новых приложений, таких как системы кодирования гиперспектральных изображений, [85] 3-D DCT-кодирование переменной временной длины, [86] кодирования видео , алгоритмы [87] адаптивное кодирование видео [88] и 3-D сжатие. [89] В связи с усовершенствованием аппаратного и программного обеспечения и внедрением нескольких быстрых алгоритмов необходимость использования MD DCT быстро возрастает. DCT-IV приобрел популярность благодаря своим приложениям для быстрого внедрения реальных банков многофазной фильтрации. [90] перекрывающееся ортогональное преобразование [91] [92] и косинус-модулированные вейвлет-базы. [93]

Цифровая обработка сигналов

[ редактировать ]

DCT играет важную роль в цифровой обработке сигналов, особенно в сжатии данных . DCT широко реализован в процессорах цифровых сигналов (DSP), а также в программном обеспечении цифровой обработки сигналов. Многие компании разработали DSP на основе технологии DCT. DCT широко используются для таких приложений, как кодирование , декодирование видео, аудио, мультиплексирование , сигналы управления, передача сигналов и аналого-цифровое преобразование . DCT также широко используются в кодеров/декодеров телевидения высокой четкости (HDTV) чипах . [1]

Артефакты сжатия

[ редактировать ]

Распространенной проблемой сжатия DCT в цифровых носителях являются артефакты блочного сжатия . [94] вызванные блоками DCT. [3] Алгоритм DCT может вызывать блочные артефакты при применении сильного сжатия. Поскольку DCT используется в большинстве стандартов кодирования цифровых изображений и видео (таких как форматы JPEG , H.26x и MPEG ), артефакты блочного сжатия на основе DCT широко распространены в цифровых носителях . В алгоритме DCT изображение (или кадр в последовательности изображений) разбивается на квадратные блоки, которые обрабатываются независимо друг от друга, затем берется DCT этих блоков и квантоваются полученные коэффициенты DCT . Этот процесс может вызвать артефакты блокировки, в первую очередь при высоких коэффициентах сжатия данных . [94] Это также может вызвать эффект « москитного шума », обычно встречающийся в цифровом видео (например, в форматах MPEG). [95]

Блоки DCT часто используются в глитч-арте . [3] Художница Роза Менкман использует артефакты сжатия на основе DCT в своих глитч-артах. [96] особенно блоки DCT, присутствующие в большинстве цифровых медиаформатов , таких как цифровые изображения JPEG и MP3 цифровой звук . [3] Другой пример — Jpegs немецкого фотографа Томаса Раффа , который намеренно использует артефакты JPEG в качестве основы стиля изображения. [97] [98]

Неофициальный обзор

[ редактировать ]

Как и любое преобразование Фурье, дискретное косинусное преобразование (ДКП) выражает функцию или сигнал в виде суммы синусоид с разными частотами и амплитудами . Подобно дискретному преобразованию Фурье (ДПФ), ДКП работает с функцией в конечном числе дискретных точек данных. Очевидным различием между ДКП и ДПФ является то, что первый использует только косинусные функции, а второй использует как косинусы, так и синусы (в форме комплексных экспонент ). Однако это видимое различие является всего лишь следствием более глубокого различия: ДКП подразумевает отличные граничные условия от ДПФ или других связанных преобразований.

Преобразования, связанные с Фурье, которые работают с функцией в конечной области , такие как ДПФ, ДКП или ряд Фурье , можно рассматривать как неявно определяющие расширение этой функции за пределами области. То есть, как только вы напишете функцию как сумму синусоид, вы можете вычислить эту сумму в любой момент , даже для где оригинал не было указано. ДПФ, как и ряд Фурье, подразумевает периодическое расширение исходной функции. ДКП, как и косинусное преобразование , подразумевает четное расширение исходной функции.

Иллюстрация неявного четного/нечетного расширения входных данных DCT для N = 11 точек данных (красные точки) для четырех наиболее распространенных типов DCT (типы I–IV). Обратите внимание на тонкие различия в интерфейсах между данными и расширениями: в DCT-II и DCT-IV обе конечные точки реплицируются в расширениях, но не в DCT-I или DCT-III (и нулевая точка вставляется в расширение смены знака в DCT-III).

Однако, поскольку ДКП работают с конечными последовательностями, возникают две проблемы , дискретными которые не применимы к непрерывному косинусному преобразованию. Во-первых, необходимо указать, является ли функция четной или нечетной как на левой, так и на правой границах области (т. е. на границах min -n и max- n в определениях ниже соответственно). Во-вторых, необходимо указать, в какой точке функция будет четной или нечетной. В частности, рассмотрим последовательность abcd из четырех равноотстоящих друг от друга точек данных и скажем, что мы указываем четную левую границу. Есть две разумные возможности: либо данные четны о выборке a , и в этом случае четное расширение равно dcbabcd , либо данные четны о точке на полпути между a и предыдущей точкой, и в этом случае четное расширение равно dcbaabcd ( а повторяется).

Этот выбор приводит ко всем стандартным вариантам DCT, а также к дискретному синусоидальному преобразованию (DST). Каждая граница может быть четной или нечетной (2 варианта на границу) и может быть симметричной относительно точки данных или точки на полпути между двумя точками данных (2 варианта на границу), всего 2 × 2 × 2 × 2 = 16. возможности. Половина этих возможностей, те, у которых левая граница четная, соответствуют 8 типам ДКП; другая половина — это 8 типов летнего времени.

Эти различные граничные условия сильно влияют на применение преобразования и приводят к уникальным полезным свойствам для различных типов ДКП. Наиболее непосредственно, при использовании преобразований Фурье для решения уравнений в частных производных спектральными методами граничные условия задаются непосредственно как часть решаемой задачи. Или, для MDCT (основанного на DCT типа IV), граничные условия тесно связаны с критически важным свойством MDCT по устранению наложения временных интервалов. Более тонким образом граничные условия отвечают за свойства «энергетической компактификации», которые делают ДКП полезными для сжатия изображений и звука, поскольку границы влияют на скорость сходимости любого ряда Фурье.

В частности, хорошо известно, что любые разрывы функции снижают скорость сходимости ряда Фурье, поэтому для представления функции с заданной точностью требуется больше синусоид. Тот же принцип определяет полезность ДПФ и других преобразований для сжатия сигнала; чем более гладкая функция, тем меньше членов в ее ДПФ или ДКП требуется для ее точного представления и тем больше ее можно сжать. (Здесь мы думаем о ДПФ или ДКП как о приближениях ряда Фурье или косинусного ряда функции соответственно, чтобы говорить о ее «гладкости».) Однако неявная периодичность ДПФ означает, что разрывы обычно возникают при границы: любой случайный сегмент сигнала вряд ли будет иметь одинаковое значение как на левой, так и на правой границах. (Аналогичная проблема возникает для DST, в котором нечетное левое граничное условие подразумевает разрыв для любой функции, которая не равна нулю на этой границе.) Напротив, ДКП, где обе границы ровны, всегда дает непрерывное расширение на границах (хотя наклон обычно прерывистый). Вот почему DCT и, в частности, DCT типов I, II, V и VI (типы, которые имеют две четные границы), обычно лучше подходят для сжатия сигнала, чем DFT и DST. На практике для таких приложений обычно предпочтительнее ДКП типа II, отчасти из соображений удобства вычислений.

Формальное определение

[ редактировать ]

Формально дискретное косинусное преобразование представляет собой линейную обратимую функцию. (где обозначает набор действительных чисел ) или, что эквивалентно, обратимую N × N. матрицу размера квадратную Существует несколько вариантов DCT со слегка измененными определениями. N действительных чисел преобразуются в N действительных чисел по одной из формул:

Некоторые авторы еще больше умножают и условия по и соответственно умножить и условия по что делает матрицу DCT-I ортогональной , если ее дополнительно умножить на общий масштабный коэффициент но нарушает прямое соответствие с действительно-четным ДПФ .

DCT-I в точности эквивалентен (до общего масштабного коэффициента 2 ДПФ ) действительные числа с четной симметрией. Например, DCT-I действительные числа в точности эквивалентно ДПФ восьми действительных чисел (даже симметрия), разделенная на два. (Напротив, типы ДКП II-IV включают сдвиг на половину выборки в эквивалентном ДПФ.)

Однако обратите внимание, что DCT-I не определен для меньше 2, тогда как все остальные типы ДКП определены для любого положительного

Таким образом, ДКП-I соответствует граничным условиям: даже рядом и даже вокруг ; аналогично для

DCT-II, вероятно, является наиболее часто используемой формой, и ее часто называют просто «DCT». [5] [6]

Это преобразование в точности эквивалентно (до общего масштабного коэффициента 2 ДПФ ) реальные входные данные четной симметрии, где элементы с четным индексом равны нулю. То есть это ДПФ половина входы где для и для Преобразование DCT-II также возможно с использованием сигнала 2 N с последующим умножением на половину сдвига. Это демонстрирует Махул .

Некоторые авторы еще больше умножают срок по и умножьте остальную часть матрицы на общий масштабный коэффициент (соответствующее изменение в DCT-III см. ниже). Это делает матрицу DCT-II ортогональной , но нарушает прямое соответствие с действительно-четным ДПФ полусдвинутого входного сигнала. Это нормализация, которую использует Matlab , например, см. [99] Во многих приложениях, таких как JPEG , масштабирование является произвольным, поскольку масштабные коэффициенты могут комбинироваться с последующим вычислительным шагом (например, шагом квантования в JPEG). [100] ), и можно выбрать масштабирование, позволяющее вычислять ДКП с меньшим количеством умножений. [101] [102]

DCT-II подразумевает граничные условия: даже рядом и даже вокруг даже рядом и странно вокруг

Поскольку это инверсия DCT-II с точностью до масштабного коэффициента (см. ниже), эту форму иногда называют просто «инверсным DCT» («IDCT»). [6]

Некоторые авторы разделяют срок по вместо 2 (что приводит к общему значению термин) и умножить полученную матрицу на общий масштабный коэффициент (соответствующее изменение в DCT-II см. выше), так что DCT-II и DCT-III являются транспонированными друг друга. Это делает матрицу DCT-III ортогональной , но нарушает прямое соответствие с действительно-четным ДПФ полусмещенного выходного сигнала.

DCT-III подразумевает граничные условия: даже рядом и странно вокруг даже рядом и даже вокруг

Матрица DCT-IV становится ортогональной (и, таким образом, будучи явно симметричной, является собственной обратной), если ее дополнительно умножить на общий масштабный коэффициент

Вариант DCT-IV, в котором данные разных преобразований перекрываются , называется модифицированным дискретным косинусным преобразованием (MDCT). [103]

DCT-IV подразумевает граничные условия: даже рядом и странно вокруг аналогично для

ДКП типов I–IV рассматривают обе границы последовательно с точки зрения точки симметрии: они являются четными/нечетными либо вокруг точки данных для обеих границ, либо на полпути между двумя точками данных для обеих границ. Напротив, ДКП типов V-VIII подразумевают границы, которые являются четными/нечетными вокруг точки данных для одной границы и на полпути между двумя точками данных для другой границы.

Другими словами, ДКП типов I–IV эквивалентны вещественно-четному ДПФ четного порядка (независимо от того, является ли четно или нечетно), поскольку соответствующее ДПФ имеет длину (для DCT-I) или (для DCT-II и III) или (для DCT-IV). Четыре дополнительных типа дискретного косинусного преобразования [104] по существу соответствуют вещественно-четным ДПФ логически нечетного порядка, которые имеют коэффициенты в знаменателях косинусных аргументов.

Однако эти варианты, похоже, редко используются на практике. Одна из причин, возможно, заключается в том, что алгоритмы БПФ для ДПФ нечетной длины обычно более сложны, чем алгоритмы БПФ для ДПФ четной длины (например, самые простые алгоритмы счисления 2 предназначены только для четных длин), и эта повышенная сложность переносится и на ДПФ. как описано ниже.

(Тривиальный действительно-четный массив, ДПФ длины один (нечетная длина) одного числа a , соответствует DCT-V длины )

Обратные преобразования

[ редактировать ]

Используя приведенные выше соглашения о нормализации, обратным DCT-I является DCT-I, умноженный на 2/( N - 1). Обратным DCT-IV является DCT-IV, умноженный на 2/ N . Обратное значение DCT-II — это DCT-III, умноженное на 2/ N , и наоборот. [6]

Как и в случае с ДПФ , коэффициент нормализации перед этими определениями преобразования является просто соглашением и различается в зависимости от обработки. Например, некоторые авторы умножают преобразования на так что обратное не требует какого-либо дополнительного мультипликативного множителя. В сочетании с соответствующими коэффициентами 2 (см. выше) это можно использовать для того, чтобы сделать матрицу преобразования ортогональной .

Многомерные ДКП

[ редактировать ]

Многомерные варианты различных типов ДКП непосредственно следуют из одномерных определений: они просто представляют собой отделимый продукт (эквивалентно композицию) ДКП по каждому измерению.

Например, двумерный DCT-II изображения или матрицы — это просто одномерный DCT-II сверху, выполняемый по строкам, а затем по столбцам (или наоборот). То есть 2D DCT-II задается формулой (без учета нормализации и других масштабных коэффициентов, как указано выше):

Обратное многомерное ДКП - это просто разделяемое произведение обратных значений соответствующих одномерных ДКП (см. Выше), например, одномерные обратные, применяемые по одному измерению за раз в алгоритме строка-столбец.

3 -D DCT-II является лишь расширением 2-D DCT-II в трехмерном пространстве и математически может быть рассчитан по формуле

Обратной 3-D DCT-II является 3-D DCT-III , и ее можно вычислить по формуле:

Технически вычисление двух-, трех- (или многомерного) ДКП с помощью последовательностей одномерных ДКП вдоль каждого измерения известно как алгоритм строки-столбца . Однако, как и в случае с многомерными алгоритмами БПФ , существуют другие методы вычисления того же самого, выполняя вычисления в другом порядке (т.е. чередование/комбинирование алгоритмов для разных измерений). В связи с быстрым ростом приложений, основанных на 3-D DCT, разработано несколько быстрых алгоритмов для расчета 3-D DCT-II. Алгоритмы Vector-Radix применяются для вычисления MD DCT для уменьшения вычислительной сложности и увеличения скорости вычислений. Для эффективного расчета 3-D DCT-II был разработан быстрый алгоритм векторно-радиксного децимации по частоте (VR DIF).

3-D DCT-II VR DIF

[ редактировать ]

Для применения алгоритма VR DIF входные данные необходимо сформулировать и переупорядочить следующим образом. [105] [106] размер преобразования N × N × N Предполагается, что равен 2.

Четыре основных этапа расчета 3-D DCT-II с использованием алгоритма VR DIF.
где

На рисунке рядом показаны четыре этапа, которые участвуют в расчете 3-D DCT-II с использованием алгоритма VR DIF. Первый этап — это трехмерное переупорядочение с использованием индексного отображения, иллюстрируемого приведенными выше уравнениями. Второй этап – расчет бабочки. Каждая бабочка вычисляет вместе восемь точек, как показано на рисунке чуть ниже, где .

Исходный 3-D DCT-II теперь можно записать как

где

Если четная и нечетная части и и рассматриваются, общая формула для расчета 3-D DCT-II может быть выражена как

Этап одиночной бабочки алгоритма VR DIF.

где

Арифметическая сложность
[ редактировать ]

Весь расчет 3-D DCT требует этапы, и каждый этап включает в себя бабочки. Весь 3-D DCT требует бабочки, подлежащие вычислению. Для каждой бабочки требуется семь действительных умножений (включая тривиальные умножения) и 24 действительных сложения (включая тривиальные сложения). Следовательно, общее количество действительных умножений, необходимых для этого этапа, равно и общее количество реальных сложений, т.е. включая пост-сложения (рекурсивные сложения), которые могут быть рассчитаны непосредственно после этапа «бабочка» или после этапа реверса битов, определяются выражением [106]

Традиционный метод расчета MD-DCT-II использует подход «строка-столбец-кадр» (RCF), который является вычислительно сложным и менее производительным на большинстве современных аппаратных платформ. Количество умножений, необходимых для вычисления алгоритма VR DIF по сравнению с алгоритмом RCF, довольно велико. Количество умножений и сложений, задействованных в подходе RCF, определяется выражением и соответственно. Из таблицы 1 видно, что общее количество

ТАБЛИЦА 1Сравнение алгоритмов VR DIF и RCF для расчета 3D-DCT-II
Преобразовать размер 3D VR Mults RCF мульты 3D VR добавляет RCF добавляет
8 × 8 × 8 2.625 4.5 10.875 10.875
16 × 16 × 16 3.5 6 15.188 15.188
32 × 32 × 32 4.375 7.5 19.594 19.594
64 × 64 × 64 5.25 9 24.047 24.047

умножений, связанных с алгоритмом 3-D DCT VR, меньше, чем с использованием подхода RCF, более чем на 40%. Кроме того, подход RCF включает в себя транспонирование матрицы и большее количество индексации и обмена данными, чем новый алгоритм VR. Это делает алгоритм 3-D DCT VR более эффективным и лучше подходит для 3-D приложений, в которых используется 3-D DCT-II, таких как сжатие видео и другие приложения обработки трехмерных изображений.

Основным соображением при выборе быстрого алгоритма является избежание вычислительных и структурных сложностей. По мере развития технологий компьютеров и DSP время выполнения арифметических операций (умножения и сложения) становится очень быстрым, и наиболее важным фактором становится регулярная вычислительная структура. [107] Следовательно, хотя предложенный выше алгоритм 3D VR не достигает теоретической нижней границы количества умножений, [108] он имеет более простую вычислительную структуру по сравнению с другими алгоритмами 3-D DCT. Его можно реализовать на месте с использованием одной бабочки, и он обладает свойствами алгоритма БПФ Кули – Тьюки в 3D. Следовательно, 3-D VR представляет собой хороший выбор для сокращения арифметических операций при расчете 3-D DCT-II, сохраняя при этом простую структуру, которая характеризует алгоритмы БПФ Кули-Тьюки типа «бабочка» .

Двумерные частоты DCT из JPEG DCT

Изображение справа показывает комбинацию горизонтальных и вертикальных частот для монитора 8 × 8. двумерное ДКП. Каждый шаг слева направо и сверху вниз — это увеличение частоты на 1/2 цикла.Например, перемещение вправо от верхнего левого квадрата приводит к увеличению горизонтальной частоты на полпериода. Еще одно движение вправо дает два полупериода. Движение вниз дает два полупериода по горизонтали и полупериод по вертикали. Исходные данные (8×8) преобразуются в линейную комбинацию этих 64 частотных квадратов.

MD DCT-IV — это просто расширение 1-D DCT-IV на М- мерную область. 2D DCT-IV матрицы или изображения определяется выражением

для и

Мы можем вычислить MD DCT-IV, используя обычный метод строк-столбцов, или мы можем использовать метод полиномиального преобразования. [109] для быстрых и эффективных вычислений. Основная идея этого алгоритма состоит в том, чтобы использовать полиномиальное преобразование для прямого преобразования многомерного ДКП в серию одномерных ДКП. MD DCT-IV также имеет несколько применений в различных областях.

Вычисление

[ редактировать ]

Хотя прямое применение этих формул потребовало бы операций, то же самое можно вычислить, используя только сложность за счет факторизации вычислений аналогично быстрому преобразованию Фурье (БПФ). Можно также вычислить ДКП с помощью БПФ в сочетании с этапы предварительной и последующей обработки. В общем, методы вычисления DCT известны как алгоритмы быстрого косинусного преобразования (FCT).

В принципе, наиболее эффективными алгоритмами обычно являются те, которые специализируются непосредственно на ДКП, а не на использовании обычного БПФ плюс дополнительные операции (исключение см. ниже). Однако даже «специализированные» алгоритмы ДКП (включая все те, которые достигают наименьшего известного арифметического счета, по крайней мере, для размеров степени двойки ) обычно тесно связаны с алгоритмами БПФ, поскольку ДКП по сути представляют собой ДПФ вещественно-четных данных. можно разработать быстрый алгоритм ДКП, приняв БПФ и исключив избыточные операции из-за этой симметрии. Это можно сделать даже автоматически ( Frigo & Johnson 2005 ). Наиболее распространены алгоритмы, основанные на алгоритме БПФ Кули-Тьюки , но применим и любой другой алгоритм БПФ. Например, алгоритм БПФ Винограда приводит к алгоритмам минимального умножения для ДПФ, хотя, как правило, за счет большего количества сложений, и аналогичный алгоритм был предложен ( Фейг и Виноград 1992а ) для ДКП. Поскольку алгоритмы ДПФ, ДКП и подобных преобразований очень тесно связаны, любое улучшение алгоритмов одного преобразования теоретически приведет к немедленным улучшениям и для других преобразований ( Дюамель и Веттерли 1990 ).

Хотя алгоритмы ДКП, использующие немодифицированное БПФ, часто имеют некоторые теоретические накладные расходы по сравнению с лучшими специализированными алгоритмами ДКП, у первых также есть явное преимущество: широко доступны высокооптимизированные программы БПФ. Таким образом, на практике часто легче получить высокую производительность для общих длин N с помощью алгоритмов на основе БПФ. [а] С другой стороны, специализированные алгоритмы DCT широко используются для преобразований небольших фиксированных размеров, таких как DCT-II 8 × 8 , используемый при сжатии JPEG , или небольшие DCT (или MDCT), обычно используемые при сжатии звука. (Уменьшенный размер кода также может быть причиной использования специализированного DCT для приложений встроенных устройств.)

Фактически, даже алгоритмы ДКП, использующие обычное БПФ, иногда эквивалентны сокращению избыточных операций из более крупного БПФ вещественно-симметричных данных, и они даже могут быть оптимальными с точки зрения арифметических вычислений. Например, ДКП типа II эквивалентно ДПФ размером с вещественно-четной симметрией, чьи четные элементы равны нулю. Один из наиболее распространенных методов вычисления этого значения с помощью БПФ (например, метод, используемый в FFTPACK и FFTW ) был описан Нарасимхой и Петерсоном (1978) и Махоулом (1980) , и этот метод, оглядываясь назад, можно рассматривать как один шаг Алгоритм Кули – Тьюки с прореживанием во времени по основанию 4, примененный к «логическому» действительно-четному ДПФ, соответствующему DCT-II. [б] Поскольку элементы с четным индексом равны нулю, этот шаг по основанию 4 точно такой же, как шаг разделения системы счисления. Если последующий размер БПФ реальных данных также выполняется с помощью алгоритма разделения системы счисления реальных данных (как в Соренсене и др. (1987) ), тогда результирующий алгоритм фактически соответствует тому, что долгое время было наименьшим опубликованным арифметическим счетчиком для ДКП степени двойки. -II ( вещественные арифметические операции [с] ).

Недавнее сокращение количества операций до также использует БПФ реальных данных. [110] Таким образом, с арифметической точки зрения нет ничего плохого в вычислении ДКП с помощью БПФ – иногда это просто вопрос того, является ли соответствующий алгоритм БПФ оптимальным. (На практике накладные расходы на вызов функций при вызове отдельной процедуры БПФ могут быть значительными для небольших но это скорее реализация, чем алгоритмический вопрос, поскольку его можно решить путем развертывания или встраивания.)

Пример IDCT

[ редактировать ]
Пример, показывающий восемь различных фильтров, примененных к тестовому изображению (вверху слева) путем умножения его спектра DCT (вверху справа) на каждый фильтр.

Рассмотрим это изображение заглавной буквы А размером 8x8 в оттенках серого.

Исходный размер, масштаб в 10 раз (ближайший сосед), масштаб в 10 раз (билинейный).
Базисные функции дискретного косинусного преобразования с соответствующими коэффициентами (специфичными для нашего изображения).
ДКП изображения = .

Каждая базисная функция умножается на свой коэффициент, а затем это произведение добавляется к окончательному изображению.

Слева финальное изображение. В середине находится взвешенная функция (умноженная на коэффициент), которая добавляется к окончательному изображению. Справа — текущая функция и соответствующий коэффициент. Изображения масштабируются (с использованием билинейной интерполяции) в 10 раз.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Алгоритмическая производительность на современном оборудовании обычно не определяется простыми арифметическими вычислениями, и оптимизация требует значительных инженерных усилий, чтобы наилучшим образом использовать, в пределах ее внутренних ограничений, доступные встроенные аппаратные средства оптимизации.
  2. ^ Шаг по основанию 4 уменьшает размер ДПФ до четырех размеров ДПФ реальных данных, два из которых равны нулю, а два равны друг другу по четной симметрии. Следовательно, давая единый размер БПФ реальных данных плюс бабочки , как только тривиальные и/или повторяющиеся части будут удалены и/или объединены.
  3. ^ Точное количество действительных арифметических операций и, в частности, количество действительных умножений в некоторой степени зависит от масштабирования определения преобразования. count относится к показанному здесь определению DCT-II; два умножения можно сохранить, если преобразование масштабируется в целом фактор. Дополнительные умножения можно сохранить, если разрешить индивидуальное масштабирование результатов преобразования, как было показано Араи, Агуи и Накадзимой (1988) для случая размера 8, используемого в JPEG.
  1. ^ Перейти обратно: а б с д и ж г час я дж к л м н тот п д р с т в v В х и С аа Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в DCT: интервью с К.Р. Рао» (PDF) . Отпечатки первых дней информационных наук . 60 . Международный центр обработки сигналов Тампере. ISBN  978-9521528187 . ISSN   1456-2774 . Архивировано (PDF) из оригинала 30 декабря 2021 года . Проверено 30 декабря 2021 г. - через ETHW .
  2. ^ Перейти обратно: а б с д и Британак, Владимир; Да, Патрик С.; Рао, КР (6 ноября 2006 г.). Дискретные косинусные и синусоидальные преобразования: общие свойства, быстрые алгоритмы и целочисленные аппроксимации . Академическая пресса . ISBN  978-0123736246 . LCCN   2006931102 . OCLC   220853454 . ОЛ   18495589М . S2CID   118873224 .
  3. ^ Перейти обратно: а б с д Алихани, Дарья (1 апреля 2015 г.). «За пределами разрешения: глюк-арт Розы Менкман» . POSTматерия . Архивировано из оригинала 19 октября 2019 года . Проверено 19 октября 2019 г.
  4. ^ Перейти обратно: а б с д и ж Томсон, Гэвин; Шах, Атар (2017). «Представляем HEIF и HEVC» (PDF) . Apple Inc. Проверено 5 августа 2019 г.
  5. ^ Перейти обратно: а б с д и ж Ахмед, Насир ; Натараджан, Т. Радж; Рао, КР (1 января 1974 г.). «Дискретное косинусное преобразование». Транзакции IEEE на компьютерах . С-23 (1). Компьютерное общество IEEE: 90–93. дои : 10.1109/TC.1974.223784 . eISSN   1557-9956 . ISSN   0018-9340 . LCCN   75642478 . OCLC   1799331 . S2CID   206619973 .
  6. ^ Перейти обратно: а б с д и ж Рао, К. Рамамохан ; Йип, Патрик К. (11 сентября 1990 г.). Дискретное косинусное преобразование: алгоритмы, преимущества, приложения . Обработка сигналов, изображений и речи. Академическая пресса . arXiv : 1109.0337 . дои : 10.1016/c2009-0-22279-3 . ISBN  978-0125802031 . LCCN   89029800 . OCLC   1008648293 . ОЛ   2207570М . S2CID   12270940 .
  7. ^ Перейти обратно: а б с д и ж г Барберо, М.; Хофманн, Х.; Уэллс, Северная Дакота (14 ноября 1991 г.). «Исходное кодирование DCT и текущие реализации для HDTV» . Технический обзор EBU (251). Европейский вещательный союз : 22–33 . Проверено 4 ноября 2019 г.
  8. ^ Перейти обратно: а б с д и Леа, Уильям (1994). «Видео по запросу: Исследовательская работа 94/68» . Библиотека Палаты общин . Проверено 20 сентября 2019 г.
  9. ^ Перейти обратно: а б Ахмед, Насир (январь 1991 г.). «Как я придумал дискретное косинусное преобразование» (PDF) . Цифровая обработка сигналов . 1 (1): 4–5. Бибкод : 1991DSP.....1....4A . дои : 10.1016/1051-2004(91)90086-Z .
  10. ^ Перейти обратно: а б с д и «T.81 – Цифровое сжатие и кодирование неподвижных изображений с непрерывным тоном – Требования и рекомендации» (PDF) . ССИТТ . Сентябрь 1992 года . Проверено 12 июля 2019 г.
  11. ^ Чен, Вэнь-Сюн; Смит, Швейцария; Фралик, Южная Каролина (сентябрь 1977 г.). «Быстрый вычислительный алгоритм дискретного косинусного преобразования». Транзакции IEEE в области коммуникаций . 25 (9): 1004–1009. дои : 10.1109/TCOM.1977.1093941 .
  12. ^ Смит, К.; Фралик, С. (1977). «Быстрый вычислительный алгоритм дискретного косинусного преобразования». Транзакции IEEE в области коммуникаций . 25 (9): 1004–1009. дои : 10.1109/TCOM.1977.1093941 . ISSN   0090-6778 .
  13. ^ Дхамиджа, Свати; Джайн, Приянка (сентябрь 2011 г.). «Сравнительный анализ дискретного синусоидального преобразования как подходящего метода оценки шума» . Международный журнал компьютерных наук IJCSI . 8 (5, № 3): 162–164 (162) . Проверено 4 ноября 2019 г.
  14. ^ Хуанг, ТС (1981). Анализ последовательности изображений . Springer Science & Business Media . п. 29. ISBN  9783642870378 .
  15. ^ Роуз, Джон А.; Робинсон, Гунер С. (30 октября 1975 г.). Тешер, Эндрю Г. (ред.). «Комбинированное пространственное и временное кодирование последовательностей цифровых изображений». Эффективная передача графической информации . 0066 . Международное общество оптики и фотоники: 172–181. Бибкод : 1975SPIE...66..172R . дои : 10.1117/12.965361 . S2CID   62725808 .
  16. ^ Чианчи, Филип Дж. (2014). Телевидение высокой четкости: создание, развитие и внедрение технологии HDTV . МакФарланд. п. 63. ИСБН  9780786487974 .
  17. ^ Перейти обратно: а б с «История сжатия видео» . МСЭ-Т . Объединенная группа по видео (JVT) ISO/IEC MPEG и ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 и ITU-T SG16 Q.6). Июль 2002. стр. 11, 24–9, 33, 40–1, 53–6 . Проверено 3 ноября 2019 г.
  18. ^ Перейти обратно: а б с Ганбари, Мохаммед (2003). Стандартные кодеки: от сжатия изображения до расширенного кодирования видео . Институт техники и технологий . стр. 1–2. ISBN  9780852967102 .
  19. ^ Ли, Цзянь Пин (2006). Материалы Международной компьютерной конференции 2006 г. по вейвлетным активным медиа-технологиям и обработке информации: Чунцин, Китай, 29–31 августа 2006 г. Всемирная научная . п. 847. ИСБН  9789812709998 .
  20. ^ Принсен, Джон П.; Джонсон, AW; Брэдли, Алан Б. (1987). «Кодирование поддиапазонов/преобразований с использованием конструкции банка фильтров на основе отмены псевдонимов во временной области». ИКАССП '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 12. С. 2161–2164. дои : 10.1109/ICASSP.1987.1169405 . S2CID   58446992 .
  21. ^ Принсен, Дж.; Брэдли, А. (1986). «Разработка банка фильтров анализа/синтеза на основе отмены псевдонимов во временной области». Транзакции IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. дои : 10.1109/ТАССП.1986.1164954 .
  22. ^ Перейти обратно: а б с д и ж г час я дж к Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ИСБН  9780387782638 .
  23. ^ Перейти обратно: а б Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID   897622 .
  24. ^ Перейти обратно: а б Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 г.
  25. ^ Перейти обратно: а б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
  26. ^ Перейти обратно: а б Фонд Xiph.Org (2 июня 2009 г.). «Спецификация Vorbis I – 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 г.
  27. ^ Мандьям, Гиридхар Д .; Ахмед, Насир; Маготра, Нирадж (17 апреля 1995 г.). Родригес, Артуро А.; Сафранек, Роберт Дж.; Дельп, Эдвард Дж. (ред.). «Схема сжатия изображений без потерь на основе DCT». Сжатие цифрового видео: алгоритмы и технологии 1995 . 2419 . Международное общество оптики и фотоники: 474–478. Бибкод : 1995SPIE.2419..474M . дои : 10.1117/12.206386 . S2CID   13894279 .
  28. ^ Комацу, К.; Сезаки, Каору (1998). «Обратимое дискретное косинусное преобразование» . Материалы Международной конференции IEEE по акустике, речи и обработке сигналов 1998 г., ICASSP '98 (Кат. № 98CH36181) . Том. 3. С. 1769–1772 т.3. дои : 10.1109/ICASSP.1998.681802 . ISBN  0-7803-4428-6 . S2CID   17045923 .
  29. ^ Мухахари, Д.; Мондал, Эй Джей; Пармар, РС; Бора, AD; Маджумдер, А. (2015). «Упрощенный подход к проектированию для эффективного расчета DCT». 2015 Пятая Международная конференция по системам связи и сетевым технологиям . стр. 483–487. дои : 10.1109/CSNT.2015.134 . ISBN  978-1-4799-1797-6 . S2CID   16411333 .
  30. ^ Чен, Вай Кай (2004). Справочник по электротехнике . Эльзевир . п. 906. ИСБН  9780080477480 .
  31. ^ Перейти обратно: а б с «Что такое JPEG? Невидимый объект, который вы видите каждый день» . Атлантика . 24 сентября 2013 года . Проверено 13 сентября 2019 г.
  32. ^ Перейти обратно: а б с Пессина, Лора-Анн (12 декабря 2014 г.). «JPEG изменил наш мир» . Новости ЭПФЛ . Федеральная политехническая школа Лозанны . Проверено 13 сентября 2019 г.
  33. ^ Перейти обратно: а б Ли, Руби Бей-Ло; Бек, Джон П.; Лэмб, Джоэл; Северсон, Кеннет Э. (апрель 1995 г.). «Программный декодер видео MPEG в реальном времени на процессорах PA 7100LC с расширенными мультимедийными возможностями» (PDF) . Журнал Hewlett-Packard . 46 (2). ISSN   0018-1153 .
  34. ^ Перейти обратно: а б с Ли, Джек (2005). Масштабируемые системы непрерывной потоковой передачи мультимедиа: архитектура, проектирование, анализ и реализация . Джон Уайли и сыновья . п. 25. ISBN  9780470857649 .
  35. ^ Перейти обратно: а б с Сишикуи, Ёсиаки; Наканиси, Хироши; Имаидзуми, Хироюки (26–28 октября 1993 г.). «Схема кодирования HDTV с использованием DCT адаптивного измерения» . Обработка сигналов HDTV . Эльзевир . стр. 611–618. дои : 10.1016/B978-0-444-81844-7.50072-3 . ISBN  9781483298511 .
  36. ^ Перейти обратно: а б Очоа-Домингес, Умберто; Рао, КР (2019). Дискретное косинусное преобразование, второе издание . ЦРК Пресс . стр. 1–3, 129. ISBN.  9781351396486 .
  37. ^ Перейти обратно: а б с д и ж г час я дж к л м н тот п д р с т в v В х и С аа аб и объявление но Очоа-Домингес, Умберто; Рао, КР (2019). Дискретное косинусное преобразование, второе издание . ЦРК Пресс . стр. 1–3. ISBN  9781351396486 .
  38. ^ Перейти обратно: а б с д и Британак, Владимир; Рао, КР (2017). Наборы косинусно-/синусоидальных фильтров: общие свойства, быстрые алгоритмы и целочисленные аппроксимации . Спрингер. п. 478. ИСБН  9783319610801 .
  39. ^ Перейти обратно: а б Джонс, Грэм А.; Слой, Дэвид Х.; Осенковский, Томас Г. (2013). Инженерный справочник Национальной ассоциации вещателей: Инженерный справочник NAB . Тейлор и Фрэнсис . стр. 558–9. ISBN  978-1-136-03410-7 .
  40. ^ Перейти обратно: а б с Херсент, Оливье; Пети, Жан-Пьер; Гурле, Дэвид (2005). За пределами протоколов VoIP: понимание голосовых технологий и сетевых технологий для IP-телефонии . Джон Уайли и сыновья . п. 55. ИСБН  9780470023631 .
  41. ^ Перейти обратно: а б с д и Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 г.
  42. ^ Перейти обратно: а б с д Блог Netflix Technology (19 апреля 2017 г.). «Более эффективное мобильное кодирование для загрузок Netflix» . Medium.com . Нетфликс . Проверено 20 октября 2019 г.
  43. ^ Перейти обратно: а б «Отчет разработчиков видео за 2019 год» (PDF) . Битмовин . 2019 . Проверено 5 ноября 2019 г.
  44. ^ Очоа-Домингес, Умберто; Рао, КР (2019). Дискретное косинусное преобразование, второе издание . ЦРК Пресс. п. 186. ИСБН  9781351396486 .
  45. ^ Перейти обратно: а б с д МакКернан, Брайан (2005). Цифровое кино: революция в кинематографе, постпродакшн, прокат . МакГроу-Хилл . п. 58. ИСБН  978-0-07-142963-4 . DCT используется в большинстве систем сжатия, стандартизированных Группой экспертов по движущимся изображениям (MPEG), и является доминирующей технологией сжатия изображений. В частности, это базовая технология MPEG-2, системы, используемой для DVD, цифрового телевизионного вещания, которая использовалась во многих испытаниях цифрового кино.
  46. ^ Перейти обратно: а б Баранюк, Крис (15 октября 2015 г.). «Защита от копирования может появиться в JPegs» . Новости Би-би-си . Би-би-си . Проверено 13 сентября 2019 г.
  47. ^ Ашер, Стивен; Пинкус, Эдвард (2012). Справочник кинорежиссера: Комплексное руководство для эпохи цифровых технологий: пятое издание . Пингвин. стр. 246–7. ISBN  978-1-101-61380-1 .
  48. ^ Бертальмио, Марсело (2014). Обработка изображений для кино . ЦРК Пресс . п. 95. ИСБН  978-1-4398-9928-1 .
  49. ^ Чжан, Хунцзян (1998). «Просмотр и извлечение видео на основе контента» . В Фюрхте, Борко (ред.). Справочник по Интернету, мультимедийным системам и приложениям . ЦРК Пресс . стр. 83–108 (89) . ISBN  9780849318580 .
  50. ^ Перейти обратно: а б «Семейство кодеков Apple ProRes 422» . Библиотека Конгресса . 17 ноября 2014 года . Проверено 13 октября 2019 г.
  51. ^ Потлури, США; Маданаяке, А.; Синтра, Р.Дж.; Байер, FM; Раджапакша, Н. (17 октября 2012 г.). «Аппроксимации ДКП без множителей для радиочастотной многолучевой цифровой апертурной космической визуализации и направленного зондирования». Измерительная наука и технология . 23 (11): 114003. doi : 10.1088/0957-0233/23/11/114003 . ISSN   0957-0233 . S2CID   119888170 .
  52. ^ Перейти обратно: а б Ван, Ханли; Квонг, С.; Кок, К. (2006). «Эффективный алгоритм прогнозирования целочисленных коэффициентов DCT для оптимизации H.264 /AVC». Транзакции IEEE по схемам и системам видеотехнологий . 16 (4): 547–552. дои : 10.1109/TCSVT.2006.871390 . S2CID   2060937 .
  53. ^ Хадсон, Грэм; Леже, Ален; Нисс, Биргер; Себастьен, Иштван; Ваабен, Йорген (31 августа 2018 г.). «Стандарту JPEG-1 25 лет: причины успеха прошлого, настоящего и будущего» . Журнал электронных изображений . 27 (4): 1. doi : 10.1117/1.JEI.27.4.040901 .
  54. ^ «Описание формата изображения JPEG» . BT.com . Группа БТ . 31 мая 2018 года . Проверено 5 августа 2019 г.
  55. ^ «Сравнение HEIF — высокоэффективный формат файла изображения» . Нокиа Технологии . Проверено 5 августа 2019 г.
  56. ^ Алакуйала, Юрки; Снейерс, Джон; Версари, Лука; Вассенберг, январь (22 января 2021 г.). «Информационный документ JPEG XL» (PDF) . JPEG орг . Архивировано (PDF) из оригинала 2 мая 2021 года . Проверено 14 января 2022 г. DCT переменного размера (квадратный или прямоугольный от 2x2 до 256x256) служит быстрой аппроксимацией оптимального декорреляционного преобразования.
  57. ^ Перейти обратно: а б Ван, Яо (2006). «Стандарты видеокодирования: Часть I» (PDF) . Архивировано из оригинала (PDF) 23 января 2013 г.
  58. ^ Ван, Яо (2006). «Стандарты видеокодирования: Часть II» (PDF) . Архивировано из оригинала (PDF) 23 января 2013 г.
  59. ^ Хоффман, Рой (2012). Сжатие данных в цифровых системах . Springer Science & Business Media . п. 255. ИСБН  9781461560319 .
  60. ^ Перейти обратно: а б Рао, КР ; Хван, Джей-Джей (18 июля 1996 г.). Методы и стандарты кодирования изображений, видео и аудио . Прентис Холл. JPEG: Глава 8; H.261 : Глава 9; MPEG-1: Глава 10; MPEG-2: Глава 11. ISBN  978-0133099072 . LCCN   96015550 . OCLC   34617596 . ОЛ   978319М . S2CID   56983045 .
  61. ^ Дэвис, Эндрю (13 июня 1997 г.). «Обзор рекомендаций H.320» . ЭЭ Таймс . Проверено 7 ноября 2019 г.
  62. ^ IEEE WESCANEX 97: связь, энергетика и вычисления: материалы конференции . Университет Манитобы, Виннипег, Манитоба, Канада: Институт инженеров по электротехнике и электронике . 22–23 мая 1997 г. с. 30. ISBN  9780780341470 . H.263 похож на H.261 , но более сложен . В настоящее время это наиболее широко используемый международный стандарт сжатия видео для видеотелефонии на телефонных линиях ISDN (цифровая сеть с интеграцией услуг).
  63. ^ Питер де Риваз; Джек Хотон (2018). «Спецификация битового потока и процесса декодирования AV1» (PDF) . Альянс открытых СМИ . Проверено 14 января 2022 г.
  64. ^ Разработчики YouTube (15 сентября 2018 г.). «Плейлист для запуска бета-версии AV1» . Ютуб . Проверено 14 января 2022 г. Первые видео, получившие транскодирование YouTube AV1.
  65. ^ Бринкманн, Мартин (13 сентября 2018 г.). «Как включить поддержку AV1 на YouTube» . Проверено 14 января 2022 г.
  66. ^ Блог Netflix Technology (5 февраля 2020 г.). «Netflix теперь транслирует AV1 на Android» . Проверено 14 января 2022 г.
  67. ^ Блог Netflix Technology (9 ноября 2021 г.). «Потоковое вещание AV1 на телевизорах участников Netflix» . Проверено 14 января 2022 г.
  68. ^ Эрре, Дж.; Дитц, М. (2008). «Высокоэффективное кодирование AAC MPEG-4 [Коротко о стандартах]». Журнал обработки сигналов IEEE . 25 (3): 137–142. Бибкод : 2008ISPM...25..137H . дои : 10.1109/MSP.2008.918684 .
  69. ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
  70. ^ «Опус Кодек» . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.
  71. ^ Лейден, Джон (27 октября 2015 г.). «WhatsApp раскрыт: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.
  72. ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармол, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24 . ISBN  9789811068980 .
  73. ^ Шривастава, Саурабх Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, практические примеры и профилактика» . В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12 . ISBN  9781119488057 . S2CID   214034702 .
  74. ^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation 4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г.
  75. ^ «Dolby AC-4: доставка звука для развлекательных услуг следующего поколения» (PDF) . Лаборатории Долби . Июнь 2015 г. Архивировано из оригинала (PDF) 30 мая 2019 г. . Проверено 11 ноября 2019 г.
  76. ^ Блейдт, РЛ; Отправлять.; Нидермайер, А.; Челхан, Б.; Фуг, С.; и др. (2017). «Разработка телевизионной аудиосистемы MPEG-H для ATSC 3.0» (PDF) . Транзакции IEEE в области вещания . 63 (1): 202–236. дои : 10.1109/TBC.2017.2661258 . S2CID   30821673 .
  77. ^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.
  78. ^ Луцки, Манфред; Шуллер, Джеральд; Гейер, Марк; Кремер, Ульрих; Вабник, Стефан (май 2004 г.). Рекомендации по задержке аудиокодека (PDF) . 116-я конференция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 24 октября 2019 г.
  79. ^ Перейти обратно: а б Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Уайли и сыновья . п. 69. ИСБН  9780470377864 .
  80. ^ «Программа работы МСЭ-Т» . МСЭ .
  81. ^ Терриберри, Тимоти Б. Презентация кодека CELT . Событие происходит на 65 минуте. Архивировано из оригинала 7 августа 2011 г. Проверено 19 октября 2019 г. , также «Слайды презентации кодека CELT» (PDF) .
  82. ^ «Доступна Экига 3.1.0» . Архивировано из оригинала 30 сентября 2011 г. Проверено 19 октября 2019 г.
  83. ^ «☏ FreeSWITCH» . Сигнальный провод .
  84. ^ «Кодек расширенных голосовых служб (EVS)» (PDF) . Фраунгофера ИИС . Март 2017 года . Проверено 19 октября 2019 г.
  85. ^ Абуслеман, врач общей практики; Марселлин, Миссури; Хант, Б.Р. (январь 1995 г.), «Сжатие гиперспектральных изображений с использованием 3-D DCT и гибридного DPCM/DCT», IEEE Trans. Геосци. Дистанционный датчик , 33 (1): 26–34, Bibcode : 1995ITGRS..33...26A , doi : 10.1109/36.368225
  86. ^ Чан, Ю.; Сиу, В. (май 1997 г.), «Трёхмерное дискретное косинусное преобразование с переменной временной длиной» (PDF) , IEEE Trans. Процесс изображения. , 6 (5): 758–763, Bibcode : 1997ITIP....6..758C , CiteSeerX   10.1.1.516.2824 , doi : 10.1109/83.568933 , hdl : 10397/1928 , PMID   18282969
  87. ^ Сонг, Дж.; Сюн, З.; Лю, X.; Лю, Ю., «Алгоритм многоуровневого кодирования и передачи видео», Учеб. Четвертый межд. Конф./Вып. Высокопроизводительный компьютер. Азиатско-Тихоокеанский регион , 2 : 700–703
  88. ^ Тай, Южная Каролина; Ги, Ю.; Лин, К.-В. (сентябрь 2000 г.), «Адаптивный трехмерный кодер дискретного косинусного преобразования для сжатия медицинских изображений», IEEE Trans. Инф. Технол. Биомед. , 4 (3): 259–263, doi : 10.1109/4233.870036 , PMID   11026596 , S2CID   18016215
  89. ^ Йео, Б.; Лю, Б. (май 1995 г.), «Объемный рендеринг сжатых 3D-скалярных данных на основе DCT», IEEE Transactions on Visualization and Computer Graphics , 1 : 29–43, doi : 10.1109/2945.468390
  90. ^ Чан, Южная Каролина; Лю, В.; Хо, КИ (2000). «Идеальная реконструкция модулированных блоков фильтров с суммой коэффициентов степеней двойки». 2000 Международный симпозиум IEEE по схемам и системам. Новые технологии XXI века. Протоколы (IEEE Cat No.00CH36353) . Том. 2. С. 73–76. дои : 10.1109/ISCAS.2000.856261 . hdl : 10722/46174 . ISBN  0-7803-5482-6 . S2CID   1757438 .
  91. ^ Кейруш, РЛ; Нгуен, TQ (1996). «Перекрывающиеся преобразования для эффективного кодирования преобразования/поддиапазона». IEEE Транс. Сигнальный процесс . 44 (5): 497–507.
  92. ^ Мальвар 1992 .
  93. ^ Чан, Южная Каролина; Луо, Л.; Хо, КЛ (1998). «M-Channel с компактной поддержкой биортогональных базисов вейвлетов с косинусной модуляцией». IEEE Транс. Сигнальный процесс . 46 (2): 1142–1151. Бибкод : 1998ITSP...46.1142C . дои : 10.1109/78.668566 . hdl : 10722/42775 .
  94. ^ Перейти обратно: а б Кацагелос, Аггелос К.; Бабакан, С. Дерин; Чун-Джен, Цай (2009). «Глава 15. Итеративное восстановление изображений». Основное руководство по обработке изображений . Академическая пресса . стр. 349–383. ISBN  9780123744579 .
  95. ^ «Комариный шум» . Журнал ПК . Проверено 19 октября 2019 г.
  96. ^ Менкман, Роза (октябрь 2011 г.). Момент сбоя (гм) (PDF) . Институт сетевых культур. ISBN  978-90-816021-6-7 . Проверено 19 октября 2019 г.
  97. ^ Рафф, Томас (31 мая 2009 г.). «Джпегс». Диафрагма . Диафрагма. п. 132. ИСБН  9781597110938 .
  98. ^ Кольберг, Йорг (17 апреля 2009 г.). «Обзор: JPEG Томаса Раффа» .
  99. ^ «Дискретное косинусное преобразование — MATLAB dct» . www.mathworks.com . Проверено 11 июля 2019 г.
  100. ^ Пеннебейкер, Уильям Б.; Митчелл, Джоан Л. (31 декабря 1992 г.). JPEG: стандарт сжатия данных неподвижных изображений . Спрингер. ISBN  9780442012724 .
  101. ^ Арай, Ю.; Аги, Т.; Накадзима, М. (1988). «Быстрая схема DCT-SQ для изображений» . IEICE-транзакции . 71 (11): 1095–1097.
  102. ^ Шао, Сюаньчэн; Джонсон, Стивен Г. (2008). «Алгоритмы DCT/DST типа II/III с уменьшенным количеством арифметических операций». Обработка сигналов . 88 (6): 1553–1564. arXiv : cs/0703150 . Бибкод : 2008SigPr..88.1553S . дои : 10.1016/j.sigpro.2008.01.004 . S2CID   986733 .
  103. ^ Мальвар 1992 г.
  104. ^ Мартуччи 1994
  105. ^ Чан, Южная Каролина; Хо, КЛ (1990). «Прямые методы вычисления дискретных синусоидальных преобразований». Труды IEE F-радар и обработка сигналов . 137 (6): 433. doi : 10.1049/ip-f-2.1990.0063 .
  106. ^ Перейти обратно: а б Алшибами, О.; Буссакта, С. (июль 2001 г.). «Трехмерный алгоритм для 3-D DCT-III». Учеб. Шестой межд. Симп. Сообщение, Теоретические приложения : 104–107.
  107. ^ Гоань Би; Ган Ли; Кай-Куанг Ма; Тан, ТК (2000). «О расчете двумерного ДКП». Транзакции IEEE по обработке сигналов . 48 (4): 1171–1183. Бибкод : 2000ITSP...48.1171B . дои : 10.1109/78.827550 .
  108. ^ Фиг, Э.; Виноград, С. (июль 1992а). «О мультипликативной сложности дискретных косинусных преобразований». Транзакции IEEE по теории информации . 38 (4): 1387–1391. дои : 10.1109/18.144722 .
  109. ^ Нуссбаумер, HJ (1981). Алгоритмы быстрого преобразования Фурье и свертки (1-е изд.). Нью-Йорк: Springer-Verlag.
  110. ^ Шао, Сюаньчэн; Джонсон, Стивен Г. (2008). «Алгоритмы DCT/DST типа II/III с уменьшенным количеством арифметических операций». Обработка сигналов . 88 (6): 1553–1564. arXiv : cs/0703150 . Бибкод : 2008SigPr..88.1553S . дои : 10.1016/j.sigpro.2008.01.004 . S2CID   986733 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e15786cf950b5258f83603a6f41b9d8c__1722178980
URL1:https://arc.ask3.ru/arc/aa/e1/8c/e15786cf950b5258f83603a6f41b9d8c.html
Заголовок, (Title) документа по адресу, URL1:
Discrete cosine transform - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)