Jump to content

Совместная сегментация объектов

Примеры видеокадров и их аннотации совместной сегментации объектов (основные данные) в Noisy-ViDiSeg [1] набор данных. Сегменты объекта обозначаются красным краем.

В компьютерном зрении совместная сегментация объектов — это особый случай сегментации изображений , который определяется как совместная сегментация семантически схожих объектов в нескольких изображениях или видеокадрах. [2] [3]

Проблемы [ править ]

Часто бывает сложно извлечь маски сегментации цели/объекта из зашумленной коллекции изображений или видеокадров, что предполагает обнаружение объекта в сочетании с сегментацией . Коллекция с шумом подразумевает, что объект/цель спорадически присутствует в наборе изображений или объект/цель периодически исчезает на протяжении всего интересующего видео. Ранние методы [4] [5] обычно включают в себя представления среднего уровня, такие как предложения объектов .

сетей Маркова основе динамических на Методы

Процесс вывода двух связанных динамических сетей Маркова для совместного обнаружения и сегментации видеообъектов. [1]
Совместная платформа обнаружения и совместной сегментации объектов, основанная на связанных динамических сетях Маркова. [1] .

метод совместного обнаружения и совместной сегментации объектов, основанный на связанных динамических сетях Маркова . Недавно был предложен [1] который заявляет о значительном улучшении устойчивости к нерелевантным/зашумленным видеокадрам.

В отличие от предыдущих попыток, которые удобно предполагают постоянное присутствие целевых объектов во входном видео, этот связанный алгоритм на основе двойной динамической сети Маркова одновременно выполняет задачи обнаружения и сегментации с двумя соответствующими сетями Маркова, совместно обновляемыми посредством распространения доверия.

В частности, марковская сеть, отвечающая за сегментацию, инициализируется суперпикселями и предоставляет информацию своему марковскому аналогу, отвечающему за задачу обнаружения объектов. И наоборот, сеть Маркова, отвечающая за обнаружение, строит граф предложения объектов с входными данными, включая трубки пространственно-временной сегментации.

Методы разрезания графа [ править ]

Оптимизация разреза графа — популярный инструмент в компьютерном зрении, особенно в более ранних сегментации изображений приложениях . В качестве расширения обычных разрезов графа предлагается многоуровневый разрез гиперграфа. [6] для учета более сложных соответствий высокого порядка между видеогруппами, помимо типичных парных корреляций.

Благодаря такому расширению гиперграфа в вычисление гиперграни можно легко включить несколько модальностей соответствий, включая внешний вид низкого уровня, заметность, когерентное движение и функции высокого уровня, такие как области объекта. Кроме того, в качестве основного преимущества перед подходом, основанным на совместном вхождении , гиперграф неявно сохраняет более сложные соответствия между своими вершинами, при этом веса гиперребер удобно вычисляются путем разложения по собственным значениям матриц Лапласа .

Методы на основе CNN/LSTM [ править ]

Обзор грубой и мелкой локализации временного действия в. [7] (а) Грубая локализация. Учитывая необрезанное видео, мы сначала создаем видеоклипы с учетом значимости с помощью скользящих окон переменной длины. Сеть предложений решает, содержит ли видеоклип какие-либо действия (поэтому клип добавляется в набор кандидатов) или чистый фон (поэтому клип напрямую отбрасывается). Последующая сеть классификации прогнозирует конкретный класс действий для каждого клипа-кандидата и выводит оценки классификации и метки действий. (б) Тонкая локализация. С помощью оценок классификации и меток действий из предварительной грубой локализации выполняется дальнейшее предсказание категории видео и получаются ее начальные и конечные кадры.
Блок-схема сегмента-трубки детектора локализации пространственно-временного действия. [7] В качестве входных данных необрезанное видео содержит несколько кадров действий ( например , все действия в видео парного фигурного катания), причем только часть этих кадров принадлежит соответствующей категории ( например , DeathSpirals). Обычно имеются нерелевантные предшествующие и последующие действия (фон). Детектор Segment-tube итеративно чередует оптимизацию временной локализации и пространственной сегментации. Конечным результатом является последовательность масок сегментации для каждого кадра с точными начальными и конечными кадрами, обозначенными красным фрагментом внизу, а фон отмечен зеленым фрагментом внизу.

В локализации действий приложениях совместная сегментация объектов также реализуется в виде сегментной трубки . пространственно-временного детектора [7] Вдохновленные недавними попытками пространственно-временной локализации действия с помощью трубочек (последовательностей ограничивающих прямоугольников), Le et al. представляют новый детектор локализации пространственно-временного действия Segment-tube, который состоит из последовательностей масок покадровой сегментации. Этот детектор сегментной трубки может временно определять начальный/конечный кадр каждой категории действий при наличии предшествующих/последующих мешающих действий в необрезанных видео. В то же время детектор Segment-tube создает маски сегментации для каждого кадра вместо ограничивающих рамок, обеспечивая превосходную пространственную точность для трубок. Это достигается путем поочередной итеративной оптимизации между временной локализацией действия и пространственной сегментацией действия.

Предлагаемый детектор с сегментной трубкой показан на блок-схеме справа. Пример входных данных представляет собой необрезанное видео, содержащее все кадры видео парного фигурного катания, причем только часть этих кадров принадлежит соответствующей категории (например, DeathSpirals). Инициализированный сегментацией изображения на основе значимости на отдельных кадрах, этот метод сначала выполняет этап временной локализации действия с помощью каскадных 3D CNN и LSTM и точно определяет начальный и конечный кадр целевого действия с помощью стратегии от грубого до точного. Впоследствии детектор сегментной трубки уточняет покадровую пространственную сегментацию с разрезом графа , фокусируясь на соответствующих кадрах, идентифицированных на этапе временной локализации действия. Оптимизация чередуется между временной локализацией действия и пространственной сегментацией действия итеративным образом. При практической конвергенции конечные результаты пространственно-временной локализации действия получаются в формате последовательности масок покадровой сегментации (нижний ряд на блок-схеме) с точными начальными и конечными кадрами.

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L . дои : 10.1109/tip.2018.2859622 . ISSN   1057-7149 . ПМИД   30059300 . S2CID   51867241 .
  2. ^ Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). «Косегментация объектов». ЦВПР 2011 . IEEE. стр. 2217–2224. дои : 10.1109/cvpr.2011.5995530 . ISBN  978-1-4577-0394-2 .
  3. ^ Чен, Дин-Цзе; Чен, Хванн-Цонг; Чанг, Лун-Вэнь (2012). «Косегментация видеообъектов». Материалы 20-й международной конференции ACM по мультимедиа-ММ'12 . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 805. дои : 10.1145/2393347.2396317 . ISBN  978-1-4503-1089-5 .
  4. ^ Ли, Ён Джэ; Ким, Джечоль; Грауман, Кристен (2011). «Ключевые сегменты для сегментации видеообъектов». 2011 Международная конференция по компьютерному зрению . IEEE. стр. 1995–2002 гг. CiteSeerX   10.1.1.269.2727 . дои : 10.1109/iccv.2011.6126471 . ISBN  978-1-4577-1102-2 .
  5. ^ Ма, Тяньян; Латецкий, Лонгин Ян (2012). Клики максимального веса с ограничениями мьютексов для сегментации видеообъектов . IEEE CVPR 2012 . стр. 670–677. дои : 10.1109/CVPR.2012.6247735 . ISBN  978-1-4673-1228-8 .
  6. ^ Ван, Ле; Льв, Синь; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, Банда (2020). «Косегментация объектов в зашумленных видео с помощью многоуровневого гиперграфа» (PDF) . Транзакции IEEE в мультимедиа . 23 . IEEE: 1. doi : 10.1109/tmm.2020.2995266 . ISSN   1520-9210 . S2CID   219410031 .
  7. ^ Jump up to: Перейти обратно: а б с Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5). MDPI AG: 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN   1424-8220 . ПМЦ   5982167 . ПМИД   29789447 . Материал был скопирован из этого источника, который доступен по международной лицензии Creative Commons Attribution 4.0 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 38998c6f3c4ea95b617b1a3d5d8b746d__1710257400
URL1:https://arc.ask3.ru/arc/aa/38/6d/38998c6f3c4ea95b617b1a3d5d8b746d.html
Заголовок, (Title) документа по адресу, URL1:
Object co-segmentation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)