Визуальный дескриптор
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Июль 2018 г. ) |
В зрении компьютерном визуальные дескрипторы или дескрипторы изображений — это описания визуальных особенностей содержимого изображений , видео или алгоритмов или приложений, которые создают такие описания. Они описывают элементарные характеристики, такие как форма , цвет , текстура или движение и другие.
Введение
[ редактировать ]В результате появления новых коммуникационных технологий и массового использования Интернета в нашем обществе объем аудиовизуальной информации, доступной в цифровом формате, значительно увеличивается. Поэтому возникла необходимость разработать системы, позволяющие описывать содержание нескольких типов мультимедийной информации с целью их поиска и классификации.
Аудиовизуальные дескрипторы отвечают за описание содержания. Эти дескрипторы хорошо знают объекты и события, обнаруженные в видео, изображении или аудио , и позволяют осуществлять быстрый и эффективный поиск аудиовизуального контента.
Эту систему можно сравнить с поисковыми системами текстового контента. Хотя несомненно, что найти текст с помощью компьютера относительно легко, гораздо сложнее найти конкретные аудио- и видеочасти. Например, представьте, что кто-то ищет место, где изображен счастливый человек. Счастье – это чувство, и его форма, цвет и текстура не выражены в изображении.
Описание аудиовизуального контента не является поверхностной задачей и имеет важное значение для эффективного использования архивов этого типа. Система стандартизации аудиовизуальных дескрипторов — MPEG-7 ( Экспертная группа по кинематографии — 7 ).
Типы
[ редактировать ]Дескрипторы — это первый шаг к выяснению связи между пикселями, содержащимися в цифровом изображении , и тем, что люди вспоминают после просмотра изображения или группы изображений через несколько минут.
Визуальные дескрипторы делятся на две основные группы:
- Дескрипторы общей информации: содержат дескрипторы низкого уровня, которые дают описание цвета, формы, областей , текстур и движения.
- Дескрипторы конкретной информации о домене: предоставляют информацию об объектах и событиях на сцене. Конкретным примером может быть распознавание лиц .
Общие информационные дескрипторы
[ редактировать ]Дескрипторы общей информации состоят из набора дескрипторов, охватывающих различные основные и элементарные признаки, такие как: цвет, текстура, форма, движение, местоположение и другие. Это описание генерируется автоматически посредством обработки сигнала .
Цвет
[ редактировать ]Это самое основное качество визуального контента. Для описания цвета определены пять инструментов. Три первых инструмента представляют распределение цвета, а последние описывают соотношение цветов между последовательностями или группами изображений :
- Дескриптор доминантного цвета (DCD)
- Масштабируемый дескриптор цвета (SCD)
- Дескриптор цветовой структуры (CSD)
- Дескриптор цветового макета (CLD)
- Группа кадров (GoF) или группа изображений (GoP)
Текстура
[ редактировать ]Это важное качество для описания изображения. Дескрипторы текстуры характеризуют текстуры или области изображения. Они наблюдают однородность региона и гистограммы границ этих регионов. Набор дескрипторов образуют:
- Дескриптор однородной текстуры (HTD)
- Дескриптор просмотра текстур (TBD)
- Дескриптор краевой гистограммы (EHD)
Форма
[ редактировать ]Он содержит важную семантическую информацию благодаря способности человека распознавать объекты по их форме. Однако эту информацию можно извлечь только посредством сегментации, подобной той, которую реализует зрительная система человека. В настоящее время такая система сегментации еще не доступна, однако существует ряд алгоритмов, которые считаются хорошим приближением. Эти дескрипторы описывают области, контуры и формы для 2D -изображений и 3D- объемов. следующие Дескрипторы формы :
- Дескриптор формы на основе региона (RSD)
- Дескриптор формы на основе контуров (CSD)
- Дескриптор трехмерной формы (3-D SD)
Движение
[ редактировать ]Он определяется четырьмя различными дескрипторами, которые описывают движение в видеопоследовательности . Движение связано с движением объектов в последовательности и с движением камеры . Эту последнюю информацию предоставляет устройство захвата, тогда как остальная часть реализуется посредством обработки изображения . Набор дескрипторов следующий:
- Дескриптор двигательной активности (MAD)
- Дескриптор движения камеры (CMD)
- Дескриптор траектории движения (MTD)
- Дескриптор деформации и параметрического движения (WMD и PMD)
Расположение
[ редактировать ]Расположение элементов на изображении используется для описания элементов в пространственной области. Кроме того, элементы также могут располагаться во временной области:
- Дескриптор локатора региона (RLD)
- Дескриптор пространственно-временного локатора (STLD)
Дескрипторы информации о конкретном домене
[ редактировать ]Эти дескрипторы, которые предоставляют информацию об объектах и событиях на сцене, нелегко извлечь, тем более, если извлечение должно выполняться автоматически. Тем не менее, их можно обрабатывать вручную.
Как упоминалось ранее, распознавание лиц — это конкретный пример приложения, которое пытается автоматически получить эту информацию.
Приложения дескрипторов
[ редактировать ]Среди всех приложений наиболее важными являются:
- мультимедийных документов. Поисковые системы и классификаторы
- Цифровая библиотека : визуальные дескрипторы позволяют очень детально и конкретно искать любое видео или изображение с помощью различных параметров поиска. Например, поиск фильмов с участием известного актера, поиск видеороликов с изображением горы Эверест и т. д.
- Персонализированный электронный новостной сервис.
- Возможность автоматического подключения к телеканалу, транслирующему футбольный матч, например, каждый раз, когда игрок приближается к площади ворот.
- Контроль и фильтрация конкретного аудиовизуального контента, такого как материалы насилия или порнографии. Также авторизация на некоторый мультимедийный контент.
См. также
[ редактировать ]- DSpace
- Обнаружение функций
- Анимационная графика
- MPEG-7
- Преобразование масштабно-инвариантного объекта
Ссылки
[ редактировать ]- Б.С. Маньюнат (редактор), Филипп Салембье (редактор) и Томас Сикора (редактор): Введение в MPEG-7: интерфейс описания мультимедийного контента . Уайли и сыновья, апрель 2002 г. – ISBN 0-471-48678-7