Визуальное временное внимание
Зрительное временное внимание — это особый случай зрительного внимания , который предполагает направление внимания на определенный момент времени. Подобно своему пространственному аналогу визуальному пространственному вниманию , эти модули внимания широко применяются в видеоаналитике в компьютерном зрении, чтобы обеспечить повышенную производительность и интерпретируемое человеком объяснение. [3] моделей глубокого обучения .
Поскольку механизм визуального пространственного внимания позволяет системам человеческого и/или компьютерного зрения больше фокусироваться на семантически более существенных областях пространства, модули визуального временного внимания позволяют алгоритмам машинного обучения уделять больше внимания критическим видеокадрам в задачах видеоаналитики , таких как распознавание действий человека . В системах на основе сверточных нейронных сетей расстановка приоритетов, введенная механизмом внимания, регулярно реализуется как линейный весовой слой с параметрами, определяемыми помеченными обучающими данными. [3]
Распознавание приложений в действии [ править ]
Современные алгоритмы сегментации видео часто используют механизмы как пространственного, так и временного внимания. [2] [4] Исследования в области распознавания действий человека значительно ускорились с появлением таких мощных инструментов, как сверточные нейронные сети (CNN) . Однако эффективные методы включения временной информации в CNN все еще активно исследуются. На основе популярных моделей повторяющегося внимания в обработке естественного языка предлагается Временно-взвешенная CNN с учетом внимания (ATW CNN). [4] в видео, которое встраивает модель визуального внимания в многопотоковую CNN с временным взвешиванием. Эта модель внимания реализована как временное взвешивание и эффективно повышает эффективность распознавания видеопредставлений. Кроме того, каждый поток в предлагаемой структуре ATW CNN способен к сквозному обучению, при этом как параметры сети, так и временные веса оптимизируются с помощью стохастического градиентного спуска (SGD) с обратным распространением ошибки . Результаты экспериментов показывают, что механизм внимания ATW CNN существенно способствует повышению производительности при использовании более разборчивых фрагментов за счет сосредоточения внимания на более релевантных фрагментах видео.
Литература [ править ]
- Зайболд В.К., Балке Дж. и Ролке Б. (2023): Временное внимание . Передний. Когнит. 2:1168320. doi: 10.3389/fcogn.2023.1168320.
См. также [ править ]
- Внимание
- Визуальное пространственное внимание
- Распознавание действий
- Анализ видеоконтента
- Сверточная нейронная сеть
- Компьютерное зрение
Ссылки [ править ]
- ^ Центр, UCF (17 октября 2013 г.). «UCF101 — Набор данных распознавания действий» . КРКВ . Проверено 12 сентября 2018 г.
- ^ Jump up to: Перейти обратно: а б Цзан, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, Банда; Чжэн, Наньнин (2018). «Временно-взвешенная сверточная нейронная сеть, основанная на внимании, для распознавания действий». Достижения ИФИП в области информационных и коммуникационных технологий . Чам: Международное издательство Springer. стр. 97–108. arXiv : 1803.07179 . дои : 10.1007/978-3-319-92007-8_9 . ISBN 978-3-319-92006-1 . ISSN 1868-4238 . S2CID 4058889 .
- ^ Jump up to: Перейти обратно: а б «НИПС 2017» . Симпозиум по интерпретируемому машинному обучению . 20 октября 2017 г. Проверено 12 сентября 2018 г.
- ^ Jump up to: Перейти обратно: а б с Ван, Ле; Цзан, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (21 июня 2018 г.). «Распознавание действий с помощью временной взвешенной сверточной нейронной сети, учитывающей внимание» (PDF) . Датчики . 18 (7). MDPI AG: 1979. Бибкод : 2018Senso..18.1979W . дои : 10.3390/s18071979 . ISSN 1424-8220 . ПМК 6069475 . ПМИД 29933555 . Материал был скопирован из этого источника, который доступен по международной лицензии Creative Commons Attribution 4.0 .