Пирамида (обработка изображений)
Обнаружение функций |
---|
Обнаружение края |
Обнаружение угла |
Обнаружение больших двоичных объектов |
Обнаружение гребня |
Преобразование Хафа |
Тензор структуры |
Обнаружение аффинных инвариантных функций |
Описание функции |
Масштабировать пространство |

Пирамида , или пирамидальное представление , — это тип многомасштабного сигнала представления , разработанный сообществами компьютерного зрения , обработки изображений и обработки сигналов , в котором сигнал или изображение подвергается многократному сглаживанию и субдискретизации . Пирамидальное представление является предшественником представления в масштабном пространстве и анализа с несколькими разрешениями .
Генерация пирамид [ править ]
Существует два основных типа пирамид: низкочастотные и полосовые.
Пирамида нижних частот создается путем сглаживания изображения с помощью соответствующего сглаживающего фильтра, а затем субдискретизации сглаженного изображения, обычно с коэффициентом 2 по каждому направлению координат. Полученное изображение затем подвергается той же процедуре, и цикл повторяется несколько раз. Каждый цикл этого процесса приводит к уменьшению изображения с повышенным сглаживанием, но с уменьшенной пространственной плотностью выборки (то есть с уменьшенным разрешением изображения). Если проиллюстрировать графически, все многомасштабное представление будет выглядеть как пирамида с исходным изображением внизу, а полученное меньшее изображение каждого цикла будет наложено одно на другое.
Пирамида полосы пропускания создается путем формирования разницы между изображениями на соседних уровнях пирамиды и выполнения интерполяции изображений между соседними уровнями разрешения, чтобы обеспечить вычисление попиксельных различий. [1]
Ядра генерации пирамид [ править ]
множество различных ядер сглаживания. Для построения пирамид было предложено [2] [3] [4] [5] [6] [7] Среди высказанных предложений биномиальные ядра, возникающие из биномиальных коэффициентов, выделяются как особенно полезный и теоретически обоснованный класс. [3] [8] [9] [10] [11] [12] Таким образом, к двумерному изображению мы можем применить (нормализованный) биномиальный фильтр (1/4, 1/2, 1/4), обычно дважды или более вдоль каждого пространственного измерения, а затем выполнить субдискретизацию изображения в два раза. Затем эта операция может выполняться столько раз, сколько необходимо, что приводит к компактному и эффективному многомасштабному представлению. Если это обусловлено конкретными требованиями, также могут быть созданы промежуточные уровни масштаба, где этап подвыборки иногда не учитывается, что приводит к избыточной выборке или гибридной пирамиде . [11] С ростом вычислительной эффективности доступных сегодня процессоров в некоторых ситуациях также возможно использовать более широко поддерживаемые фильтры Гаусса в качестве ядер сглаживания на этапах построения пирамиды.
Пирамида Гаусса [ править ]
В пирамиде Гаусса последующие изображения утяжеляются с использованием среднего по Гауссу ( размытие по Гауссу ) и уменьшаются. Каждый пиксель, содержащий локальное среднее значение, соответствует пикселю окрестности на более низком уровне пирамиды. Этот метод особенно используется при синтезе текстур .
Пирамида Лапласа [ править ]
Пирамида Лапласа очень похожа на пирамиду Гаусса, но сохраняет разностное изображение размытых версий между каждым уровнем. Только наименьший уровень не является разностным изображением, чтобы обеспечить возможность реконструкции изображения с высоким разрешением с использованием разностных изображений на более высоких уровнях. Этот метод можно использовать при сжатии изображений . [13]
Управляемая пирамида [ править ]
Управляемая пирамида, разработанная Симончелли и другими, представляет собой реализацию многомасштабного, многоориентированного банка полосовых фильтров, используемого для таких приложений, как сжатие изображений , синтез текстур и распознавание объектов . Его можно рассматривать как селективную по ориентации версию пирамиды Лапласа, в которой набор управляемых фильтров на каждом уровне пирамиды используется вместо одного фильтра Лапласа или Гаусса . [14] [15] [16]
Применение пирамид [ править ]
Альтернативное представление [ править ]
На заре компьютерного зрения пирамиды использовались в качестве основного типа многомасштабного представления для вычисления характеристик многомасштабных изображений на основе данных реальных изображений. Более поздние методы включают представление в масштабном пространстве , которое было популярно среди некоторых исследователей из-за его теоретической основы, возможности отделить этап подвыборки от многомасштабного представления, более мощные инструменты для теоретического анализа, а также способность вычислять представление в любом желаемом масштабе, что позволяет избежать алгоритмических проблем, связанных с сопоставлением представлений изображений с разным разрешением. Тем не менее, пирамиды по-прежнему часто используются для выражения вычислительно эффективных приближений к представлению в масштабном пространстве . [11] [17] [18]
Детальная манипуляция [ править ]
Уровни пирамиды Лапласа можно добавлять к исходному изображению или удалять из него, чтобы усилить или уменьшить детализацию в разных масштабах. Однако известно, что детальное манипулирование этой формой во многих случаях приводит к появлению артефактов ореола, что приводит к разработке альтернатив, таких как двусторонний фильтр .
Некоторые форматы файлов сжатия изображений используют алгоритм Adam7 или какой-либо другой метод чересстрочной развертки .Их можно рассматривать как своего рода пирамиду изображений.Поскольку в этом формате файла сначала сохраняются «крупномасштабные» функции, а затем в файле — более мелкие детали,конкретный зритель, отображающий небольшую «миниатюру» или на маленьком экране, может быстро загрузить ровно столько изображения, чтобы отобразить его в доступных пикселях, поэтому один файл может поддерживать множество разрешений просмотра, вместо того, чтобы хранить или создавать другой файл для каждое разрешение.
См. также [ править ]
- MIP-карта
- Масштабирование пространственной реализации
- Уровень детализации
- JPEG 2000#Представление с несколькими разрешениями
Ссылки [ править ]
- ^ Э. Х. Андельсон, Ч. Андерсон, Дж. Р. Берген, П. Дж. Берт и Дж. М. Огден. «Пирамидные методы обработки изображений» .1984.
- ^ Берт, П.Дж. (май 1981 г.). «Быстрое преобразование фильтра для обработки изображений». Компьютерная графика и обработка изображений . 16 :20–51. дои : 10.1016/0146-664X(81)90092-7 .
- ↑ Перейти обратно: Перейти обратно: а б Кроули, Джеймс Л. (ноябрь 1981 г.). «Представление визуальной информации» . Университет Карнеги-Меллон, Институт робототехники. тех. отчет CMU-RI-TR-82-07.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Берт, Питер; Адельсон, Тед (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . Транзакции IEEE в области коммуникаций . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . дои : 10.1109/TCOM.1983.1095851 . S2CID 8018433 .
- ^ Кроули, Дж.Л.; Паркер, AC (март 1984 г.). «Представление формы, основанное на пиках и выступах разницы низкочастотного преобразования». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . дои : 10.1109/TPAMI.1984.4767500 . ПМИД 21869180 . S2CID 14348919 .
- ^ Кроули, Дж.Л.; Сандерсон, AC (1987). «Представление в множественном разрешении и вероятностное сопоставление двумерной формы в оттенках серого» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . дои : 10.1109/tpami.1987.4767876 . ПМИД 21869381 . S2CID 14999508 .
- ^ Меер, П.; Баугер, Э.С.; Розенфельд, А. (1987). «Анализ частотной области и синтез ядер генерации изображений». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 9 (4): 512–522. дои : 10.1109/tpami.1987.4767939 . ПМИД 21869409 . S2CID 5978760 .
- ^ Линдеберг, Тони, « Масштабное пространство для дискретных сигналов », PAMI (12), № 3, март 1990 г., стр. 234–254.
- ^ Хаддад, РА; Акансу, АН (март 1991 г.). «Класс быстрых гауссовских биномиальных фильтров для обработки речи и изображений» (PDF) . Транзакции IEEE по обработке сигналов . 39 (3): 723–727. Бибкод : 1991ITSP...39..723H . дои : 10.1109/78.80892 .
- ^ Линдеберг, Тони. Теория масштаба-пространства в компьютерном зрении , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см., в частности, главу 2 для обзора гауссовых и лапласовых пирамид изображений и главу 3 для теории обобщенных биномиальных ядер и дискретных гауссовских ядер)
- ↑ Перейти обратно: Перейти обратно: а б с Линдеберг Т. и Бретцнер Л. Выбор масштаба в реальном времени в гибридных многомасштабных представлениях , Proc. Scale-Space'03, остров Скай, Шотландия, Конспекты лекций Springer по информатике, том 2695, страницы 148–163, 2003 г.
- ^ см. в статье о многомасштабных подходах. Очень краткое теоретическое изложение
- ^ Берт, Питер Дж.; Адельсон, Эдвард Х. (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . Транзакции IEEE в области коммуникаций . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . дои : 10.1109/TCOM.1983.1095851 . S2CID 8018433 .
- ^ Симончелли, Ээро. «Управляемая пирамида» . cns.nyu.edu.
- ^ Мандучи, Роберто; Перона, Пьетро; Застенчивый, Дуг (1997). «Эффективные наборы деформируемых фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
Также в Мандучи, Р.; Перона, П.; Шай, Д. (1998). «Эффективные деформируемые блоки фильтров». Транзакции IEEE по обработке сигналов . 46 (4): 1168–1173. Бибкод : 1998ITSP...46.1168M . CiteSeerX 10.1.1.5.3102 . дои : 10.1109/78.668570 . - ^ Кляйн, Стэнли А.; Карни, Том; Баргут-Стайн, Лорен; Тайлер, Кристофер В. (1997). «Семь моделей маскировки». В Роговитце, Бернис Э.; Паппас, Трасивулос Н. (ред.). Человеческое зрение и электронная визуализация II . Том. 3016. С. 13–24. дои : 10.1117/12.274510 . S2CID 8366504 .
- ^ Кроули, Дж., Рифф О. Быстрое вычисление нормализованных по масштабу гауссовских рецептивных полей , Proc. Scale-Space'03, остров Скай, Шотландия, Конспекты лекций Springer по информатике , том 2695, 2003 г.
- ^ Лоу, генеральный директор (2004). «Отличительные особенности изображения по масштабно-инвариантным ключевым точкам» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . дои : 10.1023/B:VISI.0000029664.99615.94 . S2CID 221242327 .
Внешние ссылки [ править ]
- Кодирование изображения пирамиды Гаусса-Лапласа — иллюстрирует методы понижающей дискретизации , повышающей дискретизации и гауссовой свертки.
- Пирамида Гаусса - дает краткое введение в процедуру и цитирует несколько источников.
- Пирамида Лапласа с неправильным графом . На рисунке 1 на этой странице показан пример пирамиды Гаусса.
- Пирамида Лапласа как компактный код изображения при отправке электронной книги