Обнаружение перехода кадра
Обнаружение перехода кадров (или просто обнаружение кадров ), также называемое обнаружением обрезки, является областью исследования обработки видео . Его предметом является автоматическое обнаружение переходов между кадрами в цифровом видео с целью временной сегментации видеороликов. [1]
Использовать
[ редактировать ]Обнаружение перехода кадров используется для разделения фильма на основные временные единицы, называемые кадрами ; Кадр — это серия взаимосвязанных последовательных снимков , снятых подряд одной камерой и представляющих собой непрерывное действие во времени и пространстве. [2]
Эта операция очень полезна в программном обеспечении для постобработки видео. Это также фундаментальный шаг в приложениях автоматического индексирования и поиска или обобщения видео на основе контента, которые обеспечивают эффективный доступ к огромным видеоархивам, например, приложение может выбрать репрезентативное изображение из каждой сцены, чтобы создать визуальный обзор всего фильма и, обрабатывая такие индексы, поисковая система может обрабатывать такие элементы поиска, как «покажите мне все фильмы, в которых есть сцена со львом».
Обнаружение обрезки не может сделать ничего такого, что человек-редактор не мог бы сделать вручную, однако это выгодно, поскольку экономит время. Кроме того, из-за увеличения использования цифрового видео и, следовательно, важности вышеупомянутых приложений индексирования, автоматическое обнаружение обрезки в настоящее время очень важно.
Основные технические термины
[ редактировать ]

Проще говоря, обнаружение обрезки — это поиск позиций в видео, в которых одна сцена заменяется другой с другим визуальным содержанием. С технической точки зрения используются следующие термины:
Цифровое видео состоит из кадров , которые представляются зрителю в быстрой последовательности, чтобы создать впечатление движения. «Цифровой» в этом контексте означает, что один кадр состоит из пикселей , а данные представлены в виде двоичных данных , поэтому их можно обрабатывать с помощью компьютера. Каждый кадр цифрового видео можно однозначно идентифицировать по индексу кадра — серийному номеру.
Кадр . — это последовательность кадров, непрерывно снятых одной камерой При монтаже фильмов обычно используется несколько переходов фильма для сопоставления соседних кадров; В контексте обнаружения перехода выстрела их обычно разделяют на два типа: [3]
- Резкие переходы – это резкий переход от одного кадра к другому, т.е. один кадр принадлежит первому кадру, следующий – второму кадру. Они также известны как жесткие порезы или просто порезы.
- Постепенные переходы . В этом виде переходов два кадра объединяются с использованием хроматических, пространственных или пространственно-хроматических эффектов, которые постепенно заменяют один кадр другим. Их также часто называют мягкими переходами, и они могут быть разных типов, например, вытеснение , растворение , затухание ...
«Обнаружение разреза» означает, что определено положение разреза; точнее, жесткий монтаж получается как «жесткий переход между кадром i и кадром i+1», мягкий монтаж — как «мягкий переход от кадра i к кадру j».
Переход, который обнаружен правильно, называется попаданием , разрез, который существует, но не был обнаружен, называется пропущенным попаданием , а позиция, в которой программное обеспечение предполагает разрез, но где на самом деле разреза нет, называется ложным попаданием .
Введение в монтаж фильма и исчерпывающий список техник перехода кадров можно найти на странице монтажа фильма .
Масштабность проблемы
[ редактировать ]Хотя обнаружение порезов кажется простой задачей для человека, для компьютеров это нетривиальная задача. Обнаружение обрезки было бы тривиальной проблемой, если бы каждый кадр видео был дополнен дополнительной информацией о том, когда и какой камерой он был снят. Вероятно, ни один алгоритм обнаружения разрезов никогда не сможет с уверенностью обнаружить все разрезы, если он не будет снабжен мощным искусственным интеллектом. [ нужна ссылка ]
Хотя большинство алгоритмов достигают хороших результатов при жестком разрезе, многие не справляются с распознаванием мягкого разреза. Жесткие сокращения обычно сопровождаются внезапными и обширными изменениями визуального контента, тогда как мягкие изменения сопровождаются медленными и постепенными изменениями. Недостаток визуального разнообразия человек может компенсировать пониманием смысла сцены. В то время как компьютер считает черную линию, стирающую кадр, «просто еще одним обычным объектом, медленно движущимся по текущей сцене», человек понимает, что сцена заканчивается и сменяется черным экраном.
Методы
[ редактировать ]Каждый метод обнаружения порезов работает по двухфазному принципу:
- Оценка — каждой паре последовательных кадров цифрового видео присваивается определенная оценка, которая отражает сходство/несходство между ними.
- Решение . Все рассчитанные ранее баллы оцениваются, и если балл считается высоким, определяется сокращение.
Этот принцип подвержен ошибкам. Во-первых, поскольку даже незначительное превышение порогового значения приводит к попаданию, необходимо гарантировать, что на первом этапе значения широко разбросаны, чтобы максимизировать среднюю разницу между оценками «срезание» и «без сокращения». Во-вторых, порог следует выбирать осторожно; обычно полезные значения можно получить с помощью статистических методов.

Подсчет очков
[ редактировать ]Существует множество возможных оценок, используемых для оценки различий в визуальном контенте; некоторые из наиболее распространенных:
- Сумма абсолютных разностей (SAD). Это одновременно самый очевидный и самый простой алгоритм из всех: два последовательных кадра сравниваются попиксельно , суммируя абсолютные значения разностей каждых двух соответствующих пикселей. Результатом является положительное число, которое используется в качестве оценки. SAD очень чутко реагирует даже на незначительные изменения внутри сцены: быстрые движения камеры, взрывы или простое включение света в ранее темной сцене приводят к ложным попаданиям. С другой стороны, SAD вообще почти не реагирует на мягкие сокращения. Тем не менее, SAD часто используется для создания базового набора «возможных совпадений», поскольку он с максимальной вероятностью обнаруживает все видимые резкие сокращения.
- Различия гистограмм (HD). Разности гистограмм очень похожи на сумму абсолютных разностей. Разница в том, что HD вычисляет разницу между гистограммами двух последовательных кадров; Гистограмма — это таблица, содержащая для каждого цвета в кадре количество пикселей, затененных этим цветом. HD не так чувствителен к незначительным изменениям в сцене, как SAD, и поэтому производит меньше ложных срабатываний. Одна из основных проблем HD заключается в том, что два изображения могут иметь одинаковые гистограммы, в то время как отображаемый контент сильно различается, например, изображение моря и пляжа может иметь одну и ту же гистограмму, что изображение кукурузного поля и неба. HD не дает никаких гарантий, что распознает резкие сокращения.
- Коэффициент изменения фронта (ECR). ECR пытается сравнить фактическое содержимое двух кадров. Он преобразует оба кадра в изображения краев , т. е. извлекает вероятные очертания объектов внутри изображений ( «Обнаружение краев подробности см. в разделе »). После этого он сравнивает эти краевые изображения, используя расширение , чтобы вычислить вероятность того, что второй кадр содержит те же объекты, что и первый кадр. ECR — один из наиболее эффективных алгоритмов оценки. Он очень чувствительно реагирует на резкие порезы и по своей природе может обнаружить многие мягкие порезы. В своей базовой форме даже ECR не может обнаружить плавные обрезки, такие как вытеснение , поскольку он рассматривает плавные объекты как обычные объекты, перемещающиеся по сцене. Тем не менее, ECR можно расширить вручную, чтобы распознавать особые формы плавного разреза.
Наконец, комбинация двух или более из этих показателей может улучшить производительность.
Решение
[ редактировать ]На этапе принятия решения обычно используются следующие подходы:
- Фиксированный порог . В этом подходе баллы сравниваются с порогом, который был установлен ранее, и если балл превышает пороговое значение, объявляется сокращение.
- Адаптивный порог . В этом подходе оценки сравниваются с порогом, который учитывает различные оценки в видео, чтобы адаптировать порог к свойствам текущего видео. Как и в предыдущем случае, если балл превышает соответствующий порог, объявляется сокращение.
- Машинное обучение . Методы машинного обучения также могут применяться к процессу принятия решений.
Расходы
[ редактировать ]Все вышеперечисленные алгоритмы выполняются за O(n) — то есть они работают за линейное время — где n — количество кадров во входном видео. Алгоритмы отличаются постоянным коэффициентом, который определяется в основном разрешением изображения видео.
Меры по обеспечению качества
[ редактировать ]Обычно для измерения качества алгоритма обнаружения порезов используются следующие три показателя:
- Напомним, это вероятность того, что существующий разрез будет обнаружен:
- Точность — это вероятность того, что предполагаемый разрез на самом деле является разрезом:
- F1 — это комбинированная мера, которая дает высокое значение тогда и только тогда, когда и точность , и полнота приводят к высоким значениям:
Символы обозначают: C , количество правильно обнаруженных разрезов (« правильные попадания»), M , количество необнаруженных разрезов (« пропущенные попадания») и F , количество ложно обнаруженных разрезов (« ложные попадания »). "). Все эти меры являются математическими, т.е. они дают значения от 0 до 1. Основное правило таково: чем выше значение, тем лучше работает алгоритм.
Тесты
[ редактировать ]Контрольный показатель | Видео | Часы | Рамки | Переходы кадров | Участники | Годы |
---|---|---|---|---|---|---|
ТРЕКВид | 12 - 42 | 4.8 - 7.5 | 545,068 - 744,604 | 2090 - 4806 | 57 | 2001 - 2007 |
МГУ СБД | 31 | 21.45 | 1,900,000+ | 10883 | 7 | 2020 - 2021 |
Тест TRECVid SBD, 2001–2007 гг. [4]
[ редактировать ]Автоматическое обнаружение перехода кадров было одним из направлений ежегодного сравнительного анализа TRECVid с 2001 по 2007 год. Было использовано 57 алгоритмов от разных исследовательских групп. Расчеты F-оценки проводились для каждого алгоритма на наборе данных, который пополнялся ежегодно.
Группа | Оценка F | Скорость обработки (по сравнению с реальным временем) |
Открытый исходный код | Используемые метрики и технологии |
---|---|---|---|---|
Цинхуа У. [5] | 0.897 | ×0.23 | Нет | Среднее значение интенсивности пикселей Стандартное отклонение интенсивностей пикселей Цветовая гистограмма Пиксельная разница Вектор движения |
Никта [6] | 0.892 | ×2.30 | Нет | Машинное обучение |
IBM Исследования [7] | 0.876 | ×0.30 | Нет | Цветовая гистограмма Гистограмма направления локализованных ребер Сравнение миниатюр в оттенках серого Яркость кадра |
Бенчмарк СБД МГУ 2020-2021 гг. [8]
[ редактировать ]В тесте сравнивались 6 методов на более чем 120 видеороликах из наборов данных RAI и MSU CC с различными типами смены сцен, некоторые из которых были добавлены вручную. [9] Авторы утверждают, что главной особенностью этого теста является сложность переходов кадров в наборе данных. Чтобы доказать это, они рассчитывают метрику SI/TI для выстрелов и сравнивают ее с другими общедоступными наборами данных.
Алгоритм | Оценка F | Скорость обработки (ФПС) |
Открытый исходный код | Используемые метрики и технологии |
---|---|---|---|---|
Саид Дадха [10] | 0.797 | 86 | Да | Цветовая гистограмма Адаптивный порог |
Макс Рейманн [11] | 0.787 | 76 | Да | СВМ для разрезов Нейронные сети для плавных переходов Цветовая гистограмма |
ВКМТ [12] | 0.777 | 308 | Нет | Гистограммы ребер Компенсация движения Цветовые гистограммы |
PySceneDetect [13] | 0.776 | 321 | Да | Интенсивность кадра |
FFmpeg [14] | 0.772 | 165 | Да | Цветовая гистограмма |
Ссылки
[ редактировать ]- ^ П. Баласубраманиам; Р. Утаякумар (2 марта 2012 г.). Математическое моделирование и научные вычисления: Международная конференция ICMMSC 2012, Гандиграм, Тамилнад, Индия, 16-18 марта 2012 г. Спрингер. стр. 421–. ISBN 978-3-642-28926-2 .
- ^ Вэймин Шен; Цзяньмин Юн; Юн Ян (18 декабря 2008 г.). Совместная работа в дизайне с компьютерной поддержкой IV: 11-я Международная конференция, CSCWD 2007, Мельбурн, Австралия, 26–28 апреля 2007 г. Пересмотренные избранные статьи . Springer Science & Business Media. стр. 100–. ISBN 978-3-540-92718-1 .
- ^ Джоан Кабестани; Игнасио Рохас; Гонсало Джойя (30 мая 2011 г.). Достижения в области вычислительного интеллекта: 11-я Международная рабочая конференция по искусственным нейронным сетям, IWANN 2011, Торремолинос-Малага, Испания, 8–10 июня 2011 г., Материалы . Springer Science & Business Media. стр. 521–. ISBN 978-3-642-21500-1 .
Обнаружение выстрела осуществляется с помощью алгоритмов обнаружения перехода выстрела. Для разделения видео на кадры используются два разных типа переходов: – Резкие переходы, также называемые переходами или прямыми переходами, происходят, когда внезапное изменение одного...
- ^ Смитон, А. Ф., Овер, П. и Доэрти, А. Р. (2010). Обнаружение границ видеосъемки: семь лет деятельности TRECVid. Компьютерное зрение и понимание изображений, 114 (4), 411–418. два : 10.1016/j.cviu.2009.03.011
- ^ Юань, Дж., Чжэн, В., Чен, Л., Дин, Д., Ван, Д., Тонг, З., Ван, Х., Ву, Дж., Ли, Дж., Линь, Ф. и Чжан Б. (2004). Университет Цинхуа на TRECVID 2004: Обнаружение границ выстрела и извлечение признаков высокого уровня. ТРЕКВИД.
- ^ Ю, Чжэнхуа, С. Вишванатан и Алекс Смола. «NICTA на TRECVID 2005 Задача по обнаружению границы выстрела». ТРЕКВИД (2005).
- ^ А. Амир, Система обнаружения границ выстрелов IBM на TRECVID 2003, в: Тетради для семинара TRECVID 2005, Национальный институт стандартов и технологии, Мэриленд, США, 2003 г.
- ^ «Бенчмарк СБД МГУ 2020» . Архивировано из оригинала 13 февраля 2021 г. Проверено 19 февраля 2021 г.
- ^ «Бенчмарк СБД МГУ 2020» . Архивировано из оригинала 13 февраля 2021 г. Проверено 19 февраля 2021 г.
- ^ «Саид Дадха/Обнаружение границы выстрела» . Гитхаб . 19 сентября 2021 г.
- ^ «Обнаружение границы выстрела» . Гитхаб . 11 сентября 2021 г.
- ^ «Детектор изменения сцены МГУ (ДДС)» .
- ^ «Домой — PySceneDetect» .
- ^ «Документация Fffprobe» .