Jump to content

Разрезы графов в компьютерном зрении

Применительно к компьютерному зрению оптимизация разреза графа может использоваться для эффективного решения широкого спектра задач компьютерного зрения низкого уровня ( раннее зрение) . [1] ), такие как сглаживание изображения , проблема стереосоответствия , сегментация изображения , совместная сегментация объектов и многие другие задачи компьютерного зрения, которые можно сформулировать в терминах минимизации энергии . Многие из этих задач минимизации энергии можно аппроксимировать, решив задачу максимального потока в виде графа. [2] (и, таким образом, по теореме о максимальном потоке и минимальном разрезе определите минимальный разрез графа). В большинстве формулировок таких задач компьютерного зрения решение с минимальной энергией соответствует максимальной апостериорной оценке решения. Хотя многие алгоритмы компьютерного зрения включают разрезание графа (например, нормализованные разрезы), термин «разрезы графа» применяется специально к тем моделям, которые используют оптимизацию максимального потока/минимального разреза (другие алгоритмы разрезания графа можно рассматривать как разбиение графа). алгоритмы).

«Двоичные» проблемы (например, шумоподавление ) двоичного изображения можно решить именно с помощью этого подхода; Проблемы, когда пиксели могут быть помечены более чем двумя разными метками (например, стереосоответствие или шумоподавление изображения в оттенках серого ), не могут быть решены точно, но получаемые решения обычно близки к глобальному оптимуму.

История [ править ]

Теория разрезов графа , используемая в качестве метода оптимизации, была впервые применена в компьютерном зрении в основополагающей статье Грейга, Портеуса и Сехолта. [3] Даремского университета . Аллан Сехулт и Брюс Портеус были членами прославленной группы статистики Дарема того времени, возглавляемой Джулианом Бесагом и Питером Грином , а эксперт по оптимизации Маргарет Грейг была известна как первая женщина-сотрудник факультета математических наук Дарема.

В байесовском статистическом контексте сглаживания зашумленных (или поврежденных) изображений они показали, как максимальная апостериорная оценка бинарного изображения может быть получена именно путем максимизации потока через связанную сеть изображений, включая введение источника и приемника . Таким образом, было показано, что проблема эффективно разрешима. До этого результата применялись приближенные методы, такие как имитация отжига (предложенная братьями Геман ), [4] или итерированные условные режимы (тип жадного алгоритма, предложенный Джулианом Бесагом ) [5] использовались для решения таких проблем сглаживания изображений.

Хотя общий - проблема цвета остается нерешенной подход Грейга, Портеуса и Сехолта [3] оказалось [6] [7] иметь широкое применение в общих задачах компьютерного зрения. Подходы Грейга, Портеуса и Сехолта часто применяются итеративно к последовательности бинарных задач, обычно давая решения, близкие к оптимальным.

В 2011 году C. Couprie et al . [8] с действительным знаком предложил общую структуру сегментации изображений, названную «Power Watershed», которая минимизирует индикаторную функцию от [0,1] на графике, ограниченную пользовательскими начальными числами (или унарными терминами), установленными на 0 или 1, в которой минимизация индикаторной функции на графике оптимизирована по показателю степени . Когда , Power Watershed оптимизируется путем разрезания графика, когда Power Watershed оптимизирован кратчайшими путями, оптимизируется алгоритмом случайного блуждания и оптимизируется алгоритмом водораздела . Таким образом, Power Watershed можно рассматривать как обобщение разрезов графа, которое обеспечивает прямую связь с другими алгоритмами сегментации/кластеризации оптимизации энергопотребления.

Бинарная сегментация изображений [ править ]

Обозначения [ править ]

  • Изображение:
  • Результат: сегментация (также называемая непрозрачностью) (мягкая сегментация). Для жесткой сегментации
  • Энергетическая функция : где C — параметр цвета, а λ — параметр когерентности.
  • Оптимизация: сегментацию можно оценить как глобальный минимум по S:

Существующие методы [ править ]

  • Стандартные сокращения графика: оптимизация энергетической функции при сегментации (неизвестное значение S).
  • Итерированные сокращения графа:
  1. На первом этапе выполняется оптимизация параметров цвета с использованием K-средних.
  2. На втором этапе выполняется обычный алгоритм разрезания графа.
Эти два шага повторяются рекурсивно до сходимости.
  • Динамические сокращения графика:
    Позволяет гораздо быстрее перезапустить алгоритм после изменения проблемы (например, после того, как пользователь добавил новые начальные числа).

Энергетическая функция [ править ]

где энергия состоит из двух разных моделей ( и ):

Вероятность/Цветовая модель/Региональный термин [ править ]

— унарный термин, описывающий вероятность каждого цвета.

  • Этот термин можно смоделировать с использованием различных локальных (например, тексонов) или глобальных (например, гистограмм, GMM, вероятности Adaboost) подходов, которые описаны ниже.
Гистограмма [ править ]
  • Мы используем интенсивности пикселей, помеченных как начальные, чтобы получить гистограммы для распределения интенсивности объекта (переднего плана) и фона: P(I|O) и P(I|B).
  • Затем мы используем эти гистограммы, чтобы установить региональные штрафы как отрицательные логарифмические вероятности.
GMM (модель смеси Гаусса) [ править ]
  • Обычно мы используем два распределения: одно для моделирования фона, а другое — для пикселей переднего плана.
  • Используйте модель гауссовой смеси (с 5–8 компонентами), чтобы смоделировать эти два распределения.
  • Цель: попытаться разделить эти два дистрибутива.
Тексон [ править ]
  • Тексон (или текстон) — это набор пикселей, обладающий определенными характеристиками и повторяющийся в изображении.
  • Шаги:
  1. Определите хороший естественный масштаб для элементов текстуры.
  2. Вычислите непараметрическую статистику внутренних тексонов модели либо по интенсивности, либо по откликам фильтра Габора.

Априор / Модель когерентности / Граничный термин [ править ]

— двоичный термин, описывающий согласованность между соседними пикселями.

  • На практике пиксели определяются как соседи, если они соседствуют по горизонтали, вертикали или диагонали (4-сторонняя связь или 8-сторонняя связь для 2D-изображений).
  • Затраты могут быть основаны на локальном градиенте интенсивности, лапласовском пересечении нуля, направлении градиента, модели смешения цветов и т. д.
  • Определены различные энергетические функции:
    • Стандартное марковское случайное поле : назначьте штраф за несогласованные пиксели путем оценки разницы между их метками сегментации (грубая мера длины границ). См. Бойков и Колмогоров ICCV 2003.
    • Условное случайное поле : если цвет сильно отличается, возможно, это хорошее место для установки границы. См. Лафферти и др. 2001 г.; Кумар и Хеберт 2003 г.

Критика [ править ]

Методы разрезов графа стали популярной альтернативой подходам, основанным на наборе уровней, для оптимизации местоположения контура (см. [9] для подробного сравнения). Однако подходы к разрезанию графа подвергались критике в литературе по нескольким вопросам:

  • Артефакты метрики. Когда изображение представлено 4-связной решеткой, методы разреза графа могут демонстрировать нежелательные артефакты «блочности». Для решения этой проблемы были предложены различные методы, например, использование дополнительных ребер. [10] или сформулировав задачу о максимальном потоке в непрерывном пространстве. [11]
  • Сокращение смещения: поскольку при разрезах графа обнаруживается минимальный разрез, алгоритм может быть смещен в сторону создания небольшого контура. [12] Например, алгоритм не очень подходит для сегментации тонких объектов, таких как кровеносные сосуды (см. [13] предлагаемое исправление).
  • Множественные метки: разрезы графа позволяют найти глобальный оптимум только для задач двоичной разметки (т. е. двух меток), таких как сегментация изображения переднего и заднего планов. Были предложены расширения, которые могут находить приближенные решения для проблем разрезания графа с несколькими метками. [7]
  • Память: использование памяти для разрезов графа быстро увеличивается по мере увеличения размера изображения. В качестве иллюстрации алгоритм максимального потока Бойкова-Колмогорова v2.2 выделяет байты ( и — соответственно количество узлов и ребер в графе). Тем не менее, в последнее время в этом направлении была проделана некоторая работа по сокращению графиков перед вычислением максимального потока. [14] [15] [16]

Алгоритм [ править ]

  • Минимизация выполняется с использованием стандартного алгоритма минимального сокращения.
  • Благодаря теореме о максимальном потоке и минимальном сокращении мы можем решить проблему минимизации энергии за счет максимизации потока в сети. Задача о максимальном потоке состоит из ориентированного графа с ребрами, помеченными пропускными способностями, и имеет два отдельных узла: источник и сток. Интуитивно легко увидеть, что максимальный расход определяется узким местом.

Реализация (точная) [ править ]

Алгоритм Бойкова-Колмогорова [17] — это эффективный способ вычисления максимального потока для графов, связанных с компьютерным зрением.

Реализация (приближение) [ править ]

Алгоритм Sim Cut [18] аппроксимирует минимальный разрез графа. Алгоритм реализует решение путем моделирования электрической сети. Это подход, предложенный теоремой Седербаума о максимальном потоке . [19] [20] Ускорение работы алгоритма возможно за счет параллельных вычислений .

Программное обеспечение [ править ]

  • http://pub.ist.ac.at/~vnk/software.html — реализация алгоритма maxflow, описанная в книге Владимира Колмогорова «Экспериментальное сравнение алгоритмов Min-Cut/Max-Flow для минимизации энергии в компьютерном зрении».
  • http://vision.csd.uwo.ca/code/ — некоторые библиотеки вырезания графов и оболочки MATLAB.
  • http://gridcut.com/ — быстрый многоядерный решатель max-flow/min-cut, оптимизированный для графиков в виде сетки.
  • http://virtualscalpel.com/ — реализация Sim Cut ; алгоритм для вычисления приближенного решения минимального разреза с массовым параллелизмом.

Ссылки [ править ]

  1. ^ Адельсон, Эдвард Х. и Джеймс Р. Берген (1991), « Пленоптическая функция и элементы раннего зрения », Вычислительные модели визуальной обработки 1.2 (1991).
  2. ^ Бойков Ю., Векслер О. и Забих Р. (2001), « Быстрая приближенная минимизация энергии посредством разрезов графа », Транзакции IEEE по анализу шаблонов и машинному интеллекту, 23 (11): 1222-1239.
  3. ^ Jump up to: Перейти обратно: а б Д.М. Грейг, Б.Т. Портеус и А.Х. Сехолт (1989), Точная максимальная апостериорная оценка для бинарных изображений , Журнал Королевского статистического общества, Серия B, 51 , 271–279.
  4. ^ Д. Геман и С. Геман (1984), Стохастическая релаксация, распределения Гиббса и байесовское восстановление изображений , IEEE Trans. Паттерн Анал. Мах. Интел., 6 , 721–741.
  5. ^ Дж. Э. Бесаг (1986), О статистическом анализе грязных фотографий (с обсуждением) , Журнал Королевского статистического общества, серия B, 48 , 259–302.
  6. ^ Ю. Бойков, О. Векслер и Р. Забих (1998), « Марковские случайные поля с эффективными аппроксимациями », Международная конференция по компьютерному зрению и распознаванию образов (CVPR) .
  7. ^ Jump up to: Перейти обратно: а б Ю. Бойков, О. Векслер и Р. Забих (2001), « Быстрая приближенная минимизация энергии посредством разрезов графа », Транзакции IEEE по анализу шаблонов и машинному интеллекту , 29 , 1222–1239.
  8. ^ Камилла Купри, Лео Грейди, Лоран Наджман и Хью Талбот, « Водоразделы власти: унифицированная структура оптимизации на основе графов », Транзакции IEEE по анализу шаблонов и машинному интеллекту, том 33, № 7, стр. 1384-1399, июль 2011 год
  9. ^ Лео Грейди и Кристофер Альвино (2009), « Кусочно-гладкий функционал Мамфорда-Шаха на произвольном графе », IEEE Trans. по обработке изображений, стр. 2547–2561.
  10. ^ Юрий Бойков и Владимир Колмогоров (2003), « Вычисление геодезических и минимальных поверхностей с помощью разрезов графа », Proc. ICCV
  11. ^ Бен Эпплтон и Хьюг Талбот (2006), « Глобально минимальные поверхности с помощью непрерывных максимальных потоков », Транзакции IEEE по анализу закономерностей и машинному интеллекту, стр. 106–118
  12. ^ Али Кемаль Синоп и Лео Грейди, « Среда сегментации затравленных изображений, объединяющая разрезы графа и случайное перемещение, что дает новый алгоритм », Proc. ICCV, 2007 г.
  13. ^ Владимир Колмогоров и Юрий Бойков (2005), « Какие показатели могут быть аппроксимированы с помощью географических разрезов или глобальная оптимизация длины / площади и потока », Proc. ICCV, стр. 564–571.
  14. ^ Николя Лерме, Франсуа Малгуир и Лукас Летокар (2010), « Сокращение графиков при сегментации разреза графа. Архивировано 27 марта 2012 г. в Wayback Machine », Proc. ICIP, стр. 3045–3048.
  15. ^ Эрве Ломберт, Июн Сунь, Лео Грейди, Чэньян Сюй (2005), « Метод многоуровневых полосовых графических разрезов для быстрой сегментации изображений », Proc. ICCV, стр. 259–265.
  16. ^ Инь Ли, Цзянь Сан, Чи-Кын Тан и Хын-Юнг Шум (2004), « Ленивая привязка », Транзакции ACM в графике, стр. 303–308
  17. ^ Юрий Бойков, Владимир Колмогоров: Экспериментальное сравнение алгоритмов минимального/максимального потока для минимизации энергии в зрении . IEEE Транс. Паттерн Анал. Мах. Интел. 26 (9): 1124–1137 (2004).
  18. ^ Пи Джей Йим: « Метод и система сегментации изображений », патент США US8929636, 6 января 2016 г.
  19. ^ Седербаум, И. (1 августа 1962 г.). «Об оптимальной эксплуатации сетей связи». Журнал Института Франклина . 274 (2): 130–141. дои : 10.1016/0016-0032(62)90401-5 . ISSN   0016-0032 .
  20. ^ IT Фриш, «Об электрических аналогах проточных сетей», Труды IEEE, 57:2, стр. 209–210, 1969.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9226e3a2be7205f73baf3eed9e782d29__1692212220
URL1:https://arc.ask3.ru/arc/aa/92/29/9226e3a2be7205f73baf3eed9e782d29.html
Заголовок, (Title) документа по адресу, URL1:
Graph cuts in computer vision - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)