Совместная сегментация объектов

В компьютерном зрении совместная сегментация объектов — это особый случай сегментации изображений , который определяется как совместная сегментация семантически схожих объектов в нескольких изображениях или видеокадрах. ^[2]^[3]

Проблемы [ править ]

Часто бывает сложно извлечь маски сегментации цели/объекта из зашумленной коллекции изображений или видеокадров, что предполагает обнаружение объекта в сочетании с сегментацией . Коллекция с шумом подразумевает, что объект/цель спорадически присутствует в наборе изображений или объект/цель периодически исчезает на протяжении всего интересующего видео. Ранние методы ^[4]^[5] обычно включают в себя представления среднего уровня, такие как предложения объектов .

сетей Маркова основе динамических на Методы

метод совместного обнаружения и совместной сегментации объектов, основанный на связанных динамических сетях Маркова . Недавно был предложен ^[1] который заявляет о значительном улучшении устойчивости к нерелевантным/зашумленным видеокадрам.

В отличие от предыдущих попыток, которые удобно предполагают постоянное присутствие целевых объектов во входном видео, этот связанный алгоритм на основе двойной динамической сети Маркова одновременно выполняет задачи обнаружения и сегментации с двумя соответствующими сетями Маркова, совместно обновляемыми посредством распространения доверия.

В частности, марковская сеть, отвечающая за сегментацию, инициализируется суперпикселями и предоставляет информацию своему марковскому аналогу, отвечающему за задачу обнаружения объектов. И наоборот, сеть Маркова, отвечающая за обнаружение, строит граф предложения объектов с входными данными, включая трубки пространственно-временной сегментации.

Методы разрезания графа [ править ]

Оптимизация разреза графа — популярный инструмент в компьютерном зрении, особенно в более ранних сегментации изображений приложениях . В качестве расширения обычных разрезов графа предлагается многоуровневый разрез гиперграфа. ^[6] для учета более сложных соответствий высокого порядка между видеогруппами, помимо типичных парных корреляций.

Благодаря такому расширению гиперграфа в вычисление гиперграни можно легко включить несколько модальностей соответствий, включая внешний вид низкого уровня, заметность, когерентное движение и функции высокого уровня, такие как области объекта. Кроме того, в качестве основного преимущества перед подходом, основанным на совместном вхождении , гиперграф неявно сохраняет более сложные соответствия между своими вершинами, при этом веса гиперребер удобно вычисляются путем разложения по собственным значениям матриц Лапласа .

Методы на основе CNN/LSTM [ править ]

В локализации действий приложениях совместная сегментация объектов также реализуется в виде сегментной трубки . пространственно-временного детектора ^[7] Вдохновленные недавними попытками пространственно-временной локализации действия с помощью трубочек (последовательностей ограничивающих прямоугольников), Le et al. представляют новый детектор локализации пространственно-временного действия Segment-tube, который состоит из последовательностей масок покадровой сегментации. Этот детектор сегментной трубки может временно определять начальный/конечный кадр каждой категории действий при наличии предшествующих/последующих мешающих действий в необрезанных видео. В то же время детектор Segment-tube создает маски сегментации для каждого кадра вместо ограничивающих рамок, обеспечивая превосходную пространственную точность для трубок. Это достигается путем поочередной итеративной оптимизации между временной локализацией действия и пространственной сегментацией действия.

Предлагаемый детектор с сегментной трубкой показан на блок-схеме справа. Пример входных данных представляет собой необрезанное видео, содержащее все кадры видео парного фигурного катания, причем только часть этих кадров принадлежит соответствующей категории (например, DeathSpirals). Инициализированный сегментацией изображения на основе значимости на отдельных кадрах, этот метод сначала выполняет этап временной локализации действия с помощью каскадных 3D CNN и LSTM и точно определяет начальный и конечный кадр целевого действия с помощью стратегии от грубого до точного. Впоследствии детектор сегментной трубки уточняет покадровую пространственную сегментацию с разрезом графа , фокусируясь на соответствующих кадрах, идентифицированных на этапе временной локализации действия. Оптимизация чередуется между временной локализацией действия и пространственной сегментацией действия итеративным образом. При практической конвергенции конечные результаты пространственно-временной локализации действия получаются в формате последовательности масок покадровой сегментации (нижний ряд на блок-схеме) с точными начальными и конечными кадрами.

См. также [ править ]

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L . дои : 10.1109/tip.2018.2859622 . ISSN 1057-7149 . ПМИД 30059300 . S2CID 51867241 .
^ Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). «Косегментация объектов». ЦВПР 2011 . IEEE. стр. 2217–2224. дои : 10.1109/cvpr.2011.5995530 . ISBN 978-1-4577-0394-2 .
^ Чен, Дин-Цзе; Чен, Хванн-Цонг; Чанг, Лун-Вэнь (2012). «Косегментация видеообъектов». Материалы 20-й международной конференции ACM по мультимедиа-ММ'12 . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 805. дои : 10.1145/2393347.2396317 . ISBN 978-1-4503-1089-5 .
^ Ли, Ён Джэ; Ким, Джечоль; Грауман, Кристен (2011). «Ключевые сегменты для сегментации видеообъектов». 2011 Международная конференция по компьютерному зрению . IEEE. стр. 1995–2002 гг. CiteSeerX 10.1.1.269.2727 . дои : 10.1109/iccv.2011.6126471 . ISBN 978-1-4577-1102-2 .
^ Ма, Тяньян; Латецкий, Лонгин Ян (2012). Клики максимального веса с ограничениями мьютексов для сегментации видеообъектов . IEEE CVPR 2012 . стр. 670–677. дои : 10.1109/CVPR.2012.6247735 . ISBN 978-1-4673-1228-8 .
^ Ван, Ле; Льв, Синь; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, Банда (2020). «Косегментация объектов в зашумленных видео с помощью многоуровневого гиперграфа» (PDF) . Транзакции IEEE в мультимедиа . 23 . IEEE: 1. doi : 10.1109/tmm.2020.2995266 . ISSN 1520-9210 . S2CID 219410031 .
^ Jump up to: Перейти обратно: ^а ^б ^с Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5). MDPI AG: 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 . Материал был скопирован из этого источника, который доступен по международной лицензии Creative Commons Attribution 4.0 .

[Liu_Wang_Hua_Zhang_2018_pp._5840–5853-1] Jump up to: Перейти обратно: ^а ^б ^с ^д Лю, Цзыи; Ван, Ле; Хуа, Банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических сетей Маркова» (PDF) . Транзакции IEEE при обработке изображений . 27 (12): 5840–5853. Бибкод : 2018ITIP...27.5840L . дои : 10.1109/tip.2018.2859622 . ISSN 1057-7149 . ПМИД 30059300 . S2CID 51867241 .

[Vicente_Rother_Kolmogorov_2011_p.-2] Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). «Косегментация объектов». ЦВПР 2011 . IEEE. стр. 2217–2224. дои : 10.1109/cvpr.2011.5995530 . ISBN 978-1-4577-0394-2 .

[Chen_Chen_Chang_2012_p.-3] Чен, Дин-Цзе; Чен, Хванн-Цонг; Чанг, Лун-Вэнь (2012). «Косегментация видеообъектов». Материалы 20-й международной конференции ACM по мультимедиа-ММ'12 . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 805. дои : 10.1145/2393347.2396317 . ISBN 978-1-4503-1089-5 .

[lee2011key-4] Ли, Ён Джэ; Ким, Джечоль; Грауман, Кристен (2011). «Ключевые сегменты для сегментации видеообъектов». 2011 Международная конференция по компьютерному зрению . IEEE. стр. 1995–2002 гг. CiteSeerX 10.1.1.269.2727 . дои : 10.1109/iccv.2011.6126471 . ISBN 978-1-4577-1102-2 .

[ma2012maximum-5] Ма, Тяньян; Латецкий, Лонгин Ян (2012). Клики максимального веса с ограничениями мьютексов для сегментации видеообъектов . IEEE CVPR 2012 . стр. 670–677. дои : 10.1109/CVPR.2012.6247735 . ISBN 978-1-4673-1228-8 .

[Wang_Lv_Zhang_Niu_2020-6] Ван, Ле; Льв, Синь; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, Банда (2020). «Косегментация объектов в зашумленных видео с помощью многоуровневого гиперграфа» (PDF) . Транзакции IEEE в мультимедиа . 23 . IEEE: 1. doi : 10.1109/tmm.2020.2995266 . ISSN 1520-9210 . S2CID 219410031 .

[Wang_Duan_Zhang_Niu_p=1657-7] Jump up to: Перейти обратно: ^а ^б ^с Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5). MDPI AG: 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 . Материал был скопирован из этого источника, который доступен по международной лицензии Creative Commons Attribution 4.0 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]