Поиск мультимедийной информации

Поиск мультимедийной информации ( MMIR или MIR ) — исследовательская дисциплина информатики , целью которой является извлечение семантической информации из источников мультимедийных данных. ^[1]^{[ не удалось пройти проверку ]} Источники данных включают непосредственно воспринимаемые медиа, такие как аудио , изображения и видео , косвенно воспринимаемые источники, такие как текст , семантические описания, ^[2] биосигналы , а также невидимые источники, такие как биоинформация, цены на акции и т. д. Методологию MMIR можно разделить на три группы:

Методы обобщения медиаконтента ( выделение признаков ). Результатом выделения признаков является описание.
Методы фильтрации медиаописаний (например, устранение избыточности )
Методы категоризации описаний мультимедиа по классам.

Методы извлечения признаков [ править ]

Извлечение признаков мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, зашумленностью. ^[1]^: 2^{[ не удалось пройти проверку ]} Как правило, путем извлечения признаков можно достичь двух возможных целей:

Обобщение медиаконтента. Методы суммирования включают в себя аудиообласть, например, кепстральные коэффициенты мел-частоты , скорость пересечения нуля, кратковременную энергию. В визуальной области цветные гистограммы ^[3] такой как масштабируемый дескриптор цвета MPEG-7, можно использовать для обобщения.
Обнаружение закономерностей посредством автокорреляции и/или взаимной корреляции . Шаблоны — это повторяющиеся медиафрагменты, которые можно обнаружить либо путем сравнения фрагментов по медиа-размерам (времени, пространству и т. д.), либо путем сравнения медиафрагментов с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио/биосигналов, ^[4] описание текстуры в визуальной области и n-граммы при поиске текстовой информации.

Методы слияния и фильтрации [ править ]

Поиск мультимедийной информации подразумевает, что для понимания медиаконтента используются несколько каналов. ^[5] Каждый из этих каналов описывается преобразованиями свойств, специфичными для медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено путем простой конкатенации, если описания имеют фиксированный размер. Описания переменного размера – как они часто встречаются в описании движения – сначала должны быть нормализованы до фиксированной длины.

Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение по сингулярным значениям (например, в виде скрытой семантической индексации при поиске текста), а также извлечение и проверку статистических моментов. расширенные концепции, такие как фильтр Калмана Для объединения описаний используются .

Методы категоризации [ править ]

Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения. ^[1]^: 125^{[ не удалось пройти проверку ]} хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые модели Маркова являются новейшими достижениями в распознавании речи , а динамическое искажение времени (семантически связанный метод) является новейшим достижением в выравнивании последовательностей генов. В перечень применимых классификаторов входят следующие:

Метрические подходы ( кластерный анализ , модель векторного пространства , расстояния Минковского , динамическое выравнивание)
Методы ближайших соседей ( алгоритм K-ближайших соседей , K-средние, самоорганизующаяся карта )
Минимизация риска (регрессия опорных векторов, машина опорных векторов , линейный дискриминантный анализ )
Плотностные методы (сети Байеса, марковские процессы , модели смесей)
Нейронные сети ( персептрон , ассоциативная память, спайковые сети)
Эвристика ( деревья решений , случайные леса и т. д.)

Выбор лучшего классификатора для данной задачи (тестовый набор с описаниями и метками классов, так называемая Ground Truth ) может осуществляться автоматически, например, с помощью Weka Data Miner.

Открытые проблемы [ править ]

Качество систем MMIR ^[6] во многом зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из источников СМИ в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хороши данные обучения. С другой стороны, для предоставления меток классов для больших баз данных требуются значительные усилия. Будущий успех MMIR будет зависеть от предоставления таких данных. ^[7] Ежегодный конкурс TRECVID в настоящее время является одним из наиболее актуальных источников высококачественной достоверной информации.

Связанные области [ править ]

MMIR предоставляет обзор методов, используемых в области поиска информации. ^[8]^[9] Методы одной области адаптируются и применяются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:

Международный журнал поиска мультимедийной информации ^[10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. См. также Справочник по поиску мультимедийной информации. ^[11] для полного обзора этой исследовательской дисциплины.

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с Х Эйденбергер. Фундаментальное понимание медиа , atpress, 2011, с. 1.
^ Сикос, Л.Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций на связанные данные для индексации видео следующего поколения: комплексный обзор» . Мультимедийные инструменты и приложения . 76 (12): 14437–14460. дои : 10.1007/s11042-016-3705-7 . S2CID 254832794 .
^ Дель Бимбо. Поиск визуальной информации , Морган Кауфманн, 1999.
^ Х.Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только», Wiley, 2005.
^ М. С. Лью (Ред.). Принципы поиска визуальной информации , Springer, 2001.
^ Дж. К. Нордботтен. « Мультимедийные информационно-поисковые системы ». Проверено 14 октября 2011 г.
^ Х Эйденбергер. Границы понимания медиа , atpress, 2012.
^ Х Эйденбергер. Профессиональное понимание медиа , atpress, 2012.
^ Райэли, Роберто (2016). «Внедрение поиска мультимедийной информации в библиотеках» . JLIS.it. 7 (3): 9–42. дои : 10.4403/jlis.it-11530 . S2CID 56652314 .
^ « Международный журнал поиска мультимедийной информации », Springer, 2011, дата обращения 21 октября 2011 г.
^ Х Эйденбергер. Справочник по поиску мультимедийной информации , atpress, 2012.

[Eidenberger-1] Перейти обратно: Перейти обратно: ^а ^б ^с Х Эйденбергер. Фундаментальное понимание медиа , atpress, 2011, с. 1.

[2] Сикос, Л.Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций на связанные данные для индексации видео следующего поколения: комплексный обзор» . Мультимедийные инструменты и приложения . 76 (12): 14437–14460. дои : 10.1007/s11042-016-3705-7 . S2CID 254832794 .

[3] Дель Бимбо. Поиск визуальной информации , Морган Кауфманн, 1999.

[4] Х.Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только», Wiley, 2005.

[5] М. С. Лью (Ред.). Принципы поиска визуальной информации , Springer, 2001.

[6] Дж. К. Нордботтен. « Мультимедийные информационно-поисковые системы ». Проверено 14 октября 2011 г.

[7] Х Эйденбергер. Границы понимания медиа , atpress, 2012.

[8] Х Эйденбергер. Профессиональное понимание медиа , atpress, 2012.

[9] Райэли, Роберто (2016). «Внедрение поиска мультимедийной информации в библиотеках» . JLIS.it. 7 (3): 9–42. дои : 10.4403/jlis.it-11530 . S2CID 56652314 .

[10] « Международный журнал поиска мультимедийной информации », Springer, 2011, дата обращения 21 октября 2011 г.

[11] Х Эйденбергер. Справочник по поиску мультимедийной информации , atpress, 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]