Поиск мультимедийной информации
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Поиск мультимедийной информации ( MMIR или MIR ) — исследовательская дисциплина информатики , целью которой является извлечение семантической информации из источников мультимедийных данных. [1] [ не удалось пройти проверку ] Источники данных включают непосредственно воспринимаемые медиа, такие как аудио , изображения и видео , косвенно воспринимаемые источники, такие как текст , семантические описания, [2] биосигналы , а также невидимые источники, такие как биоинформация, цены на акции и т. д. Методологию MMIR можно разделить на три группы:
- Методы обобщения медиаконтента ( выделение признаков ). Результатом выделения признаков является описание.
- Методы фильтрации медиаописаний (например, устранение избыточности )
- Методы категоризации описаний мультимедиа по классам.
Методы извлечения признаков [ править ]
Извлечение признаков мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, зашумленностью. [1] : 2 [ не удалось пройти проверку ] Как правило, путем извлечения признаков можно достичь двух возможных целей:
- Обобщение медиаконтента. Методы суммирования включают в себя аудиообласть, например, кепстральные коэффициенты мел-частоты , скорость пересечения нуля, кратковременную энергию. В визуальной области цветные гистограммы [3] такой как масштабируемый дескриптор цвета MPEG-7, можно использовать для обобщения.
- Обнаружение закономерностей посредством автокорреляции и/или взаимной корреляции . Шаблоны — это повторяющиеся медиафрагменты, которые можно обнаружить либо путем сравнения фрагментов по медиа-размерам (времени, пространству и т. д.), либо путем сравнения медиафрагментов с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио/биосигналов, [4] описание текстуры в визуальной области и n-граммы при поиске текстовой информации.
Методы слияния и фильтрации [ править ]
Поиск мультимедийной информации подразумевает, что для понимания медиаконтента используются несколько каналов. [5] Каждый из этих каналов описывается преобразованиями свойств, специфичными для медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено путем простой конкатенации, если описания имеют фиксированный размер. Описания переменного размера – как они часто встречаются в описании движения – сначала должны быть нормализованы до фиксированной длины.
Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение по сингулярным значениям (например, в виде скрытой семантической индексации при поиске текста), а также извлечение и проверку статистических моментов. расширенные концепции, такие как фильтр Калмана Для объединения описаний используются .
Методы категоризации [ править ]
Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения. [1] : 125 [ не удалось пройти проверку ] хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые модели Маркова являются новейшими достижениями в распознавании речи , а динамическое искажение времени (семантически связанный метод) является новейшим достижением в выравнивании последовательностей генов. В перечень применимых классификаторов входят следующие:
- Метрические подходы ( кластерный анализ , модель векторного пространства , расстояния Минковского , динамическое выравнивание)
- Методы ближайших соседей ( алгоритм K-ближайших соседей , K-средние, самоорганизующаяся карта )
- Минимизация риска (регрессия опорных векторов, машина опорных векторов , линейный дискриминантный анализ )
- Плотностные методы (сети Байеса, марковские процессы , модели смесей)
- Нейронные сети ( персептрон , ассоциативная память, спайковые сети)
- Эвристика ( деревья решений , случайные леса и т. д.)
Выбор лучшего классификатора для данной задачи (тестовый набор с описаниями и метками классов, так называемая Ground Truth ) может осуществляться автоматически, например, с помощью Weka Data Miner.
Открытые проблемы [ править ]
Качество систем MMIR [6] во многом зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из источников СМИ в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хороши данные обучения. С другой стороны, для предоставления меток классов для больших баз данных требуются значительные усилия. Будущий успех MMIR будет зависеть от предоставления таких данных. [7] Ежегодный конкурс TRECVID в настоящее время является одним из наиболее актуальных источников высококачественной достоверной информации.
Связанные области [ править ]
MMIR предоставляет обзор методов, используемых в области поиска информации. [8] [9] Методы одной области адаптируются и применяются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:
- Биоинформационный анализ
- Обработка биосигналов
- Поиск изображений и видео на основе контента
- Распознавание лиц
- Классификация аудио и музыки (поиск музыкальной информации)
- Автоматическое распознавание контента
- Распознавание речи
- Технический анализ графиков
- просмотр видео
- Поиск текстовой информации
- Получение изображения
- Учимся ранжировать
Международный журнал поиска мультимедийной информации [10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. См. также Справочник по поиску мультимедийной информации. [11] для полного обзора этой исследовательской дисциплины.
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с Х Эйденбергер. Фундаментальное понимание медиа , atpress, 2011, с. 1.
- ^ Сикос, Л.Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций на связанные данные для индексации видео следующего поколения: комплексный обзор» . Мультимедийные инструменты и приложения . 76 (12): 14437–14460. дои : 10.1007/s11042-016-3705-7 . S2CID 254832794 .
- ^ Дель Бимбо. Поиск визуальной информации , Морган Кауфманн, 1999.
- ^ Х.Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только», Wiley, 2005.
- ^ М. С. Лью (Ред.). Принципы поиска визуальной информации , Springer, 2001.
- ^ Дж. К. Нордботтен. « Мультимедийные информационно-поисковые системы ». Проверено 14 октября 2011 г.
- ^ Х Эйденбергер. Границы понимания медиа , atpress, 2012.
- ^ Х Эйденбергер. Профессиональное понимание медиа , atpress, 2012.
- ^ Райэли, Роберто (2016). «Внедрение поиска мультимедийной информации в библиотеках» . JLIS.it. 7 (3): 9–42. дои : 10.4403/jlis.it-11530 . S2CID 56652314 .
- ^ « Международный журнал поиска мультимедийной информации », Springer, 2011, дата обращения 21 октября 2011 г.
- ^ Х Эйденбергер. Справочник по поиску мультимедийной информации , atpress, 2012.