Jump to content

Мультимодальный анализ настроений

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [1] Оно может быть бимодальным, включающим в себя различные комбинации двух модальностей, или тримодальным, включающим в себя три модальности. [2] Благодаря огромному количеству данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений. [3] которые можно применить при разработке виртуальных помощников , [4] анализ обзоров фильмов на YouTube, [5] анализ новостных видеороликов, [6] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [7] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [8] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень решений и гибридное объединение. [3] На эффективность этих методов объединения и классификации применяемых алгоритмов влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [9]

Особенности [ править ]

Разработка функций , которая включает в себя выбор функций, которые вводятся в алгоритмы машинного обучения , играет ключевую роль в эффективности классификации настроений. [9] В мультимодальном анализе настроений используется комбинация различных текстовых, аудио и визуальных функций. [3]

Текстовые особенности [ править ]

Подобно обычному анализу настроений на основе текста , некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе настроений — это униграммы и n-граммы , которые по сути представляют собой последовательность слов в данном текстовом документе. [10] Эти функции применяются с использованием представлений функций «мешок слов» или «мешок понятий», в которых слова или понятия представлены как векторы в подходящем пространстве. [11] [12]

Аудио функции [ править ]

Характеристики чувств и эмоций играют важную роль в различных фонетических и просодических свойствах, содержащихся в звуковых функциях. [13] Некоторыми из наиболее важных аудиофункций, используемых в мультимодальном анализе настроений, являются мел-частотный кепстр (MFCC) , спектральный центроид , спектральный поток , гистограмма ударов, сумма ударов, самый сильный удар, продолжительность паузы и высота тона . [3] OpenSMILE [14] и Praat — популярные наборы инструментов с открытым исходным кодом для извлечения таких аудиофункций. [15]

Визуальные особенности [ править ]

Одним из основных преимуществ анализа видео по отношению только к текстам является наличие в визуальных данных насыщенных сигналов настроения. [16] Визуальные особенности включают в себя мимику лица , которая имеет первостепенное значение для передачи чувств и эмоций , поскольку они являются основным каналом формирования текущего душевного состояния человека. [3] В частности, улыбка считается одним из наиболее прогнозирующих визуальных сигналов в мультимодальном анализе настроений. [11] OpenFace — это набор инструментов для анализа лица с открытым исходным кодом, доступный для извлечения и понимания таких визуальных особенностей. [17]

Техники слияния [ править ]

на основе текста В отличие от традиционного анализа настроений , мультимодальный анализ настроений подвергается процессу объединения, в котором данные из разных модальностей (текстовых, аудио или визуальных) объединяются и анализируются вместе. [3] Существующие подходы к объединению данных мультимодального анализа настроений можно сгруппировать в три основные категории: уровень функций, уровень решений и гибридное объединение, а эффективность классификации настроений зависит от того, какой тип метода объединения используется. [3]

Слияние на уровне функций [ править ]

Слияние на уровне объектов (иногда называемое ранним слиянием) собирает все признаки каждой модальности (текстовой, аудио или визуальной) и объединяет их в единый вектор признаков, который в конечном итоге передается в алгоритм классификации. [18] Одной из трудностей реализации этого метода является интеграция разнородных функций. [3]

Слияние на принятия решений уровне

Слияние на уровне решений (иногда известное как позднее слияние) подает данные из каждой модальности (текстовой, аудио или визуальной) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации настроений путем объединения каждого результата в единый вектор решений. [18] Одним из преимуществ этого метода объединения является то, что он устраняет необходимость объединения разнородных данных, и каждая модальность может использовать наиболее подходящий классификации алгоритм . [3]

Гибридный синтез [ править ]

Гибридное слияние — это комбинация методов слияния на уровне объектов и на уровне решений, которая использует дополнительную информацию из обоих методов в процессе классификации. [5] Обычно это включает в себя двухэтапную процедуру, в которой первоначально выполняется слияние на уровне признаков между двумя модальностями, а затем слияние на уровне решений применяется в качестве второго шага для объединения первоначальных результатов слияния на уровне признаков с оставшейся модальностью . [19] [20]

Приложения [ править ]

Подобно текстовому анализу настроений, мультимодальный анализ настроений может применяться при разработке различных форм рекомендательных систем, например, при анализе созданных пользователями видеороликов с обзорами фильмов. [5] и общие обзоры продуктов, [21] прогнозировать настроения клиентов и впоследствии создавать рекомендации по продуктам или услугам. [22] Мультимодальный анализ настроений также играет важную роль в развитии виртуальных помощников посредством применения методов обработки естественного языка (НЛП) и машинного обучения . [4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как стресс , тревога или депрессия . [7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в программах видеоновостей, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, как правило, менее очевидны или нейтральны. [23]

Ссылки [ править ]

  1. ^ Сулеймани, Мохаммед; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьорн; Чанг, Ши-Фу; Пантич, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений» . Вычисление изображений и зрительных образов . 65 : 3–14. дои : 10.1016/j.imavis.2017.08.003 . S2CID   19491070 .
  2. ^ Каррай, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нурс, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. дои : 10.21307/ijssis-2017-283 .
  3. Перейти обратно: Перейти обратно: а б с д и ж г час я Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хусейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от унимодального анализа к мультимодальному слиянию» . Информационный синтез . 37 : 98–125. дои : 10.1016/j.inffus.2017.02.003 . hdl : 1893/25490 . S2CID   205433041 .
  4. Перейти обратно: Перейти обратно: а б «ИИ Google будет звонить за вас» . Новости Би-би-си . 8 мая 2018 года . Проверено 12 июня 2018 г.
  5. Перейти обратно: Перейти обратно: а б с Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьёрн; Сунь, Цункай; Сагаэ, Кенджи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов на YouTube: анализ настроений в аудиовизуальном контексте» (PDF) . Интеллектуальные системы IEEE . 28 (3): 46–53. дои : 10.1109/MIS.2013.34 . S2CID   12789201 .
  6. ^ Перейра, Мойзес HR; Падуя, Флавио LC; Перейра, Адриано CM; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [ cs.CL ].
  7. Перейти обратно: Перейти обратно: а б Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). «Анализ настроений и аффективные вычисления для мониторинга депрессии». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) , 2017 г. IEEE. стр. 1988–1995 гг. дои : 10.1109/bibm.2017.8217966 . ISBN  978-1-5090-3050-7 . S2CID   24408937 .
  8. ^ Панг, Бо; Ли, Лилиан (2008). Анализ мнений и настроений . Ганновер, Массачусетс: Now Publishers. ISBN  978-1601981509 .
  9. Перейти обратно: Перейти обратно: а б Сунь, Шилян; Ло, Чен; Чен, Джунюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа мнений». Информационный синтез . 36 : 10–25. дои : 10.1016/j.inffus.2016.10.004 .
  10. ^ Ядоллахи, Али; Шахраки, Амене Голипур; Заяне, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста: от мнений до анализа эмоций». Обзоры вычислительной техники ACM . 50 (2): 1–33. дои : 10.1145/3057270 . S2CID   5275807 .
  11. Перейти обратно: Перейти обратно: а б Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE . 28 (3): 38–45. дои : 10.1109/MIS.2013.9 . S2CID   1132247 .
  12. ^ Пория, Суджанья; Камбрия, Эрик; Хусейн, Амир; Хуан, Гуан-Бин (март 2015 г.). «На пути к интеллектуальной системе для мультимодального аффективного анализа данных». Нейронные сети . 63 : 104–116. дои : 10.1016/j.neunet.2014.10.005 . hdl : 1893/21310 . ПМИД   25523041 . S2CID   342649 .
  13. ^ Чунг-Сянь Ву; Вэй-Бин Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». Транзакции IEEE для аффективных вычислений . 2 (1): 10–21. дои : 10.1109/T-AFFC.2010.16 . S2CID   52853112 .
  14. ^ Эйбен, Флориан; Вёльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR — Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR — Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом — Публикация конференции IEEE . п. 1. дои : 10.1109/ACII.2009.5349350 . ISBN  978-1-4244-4800-5 . S2CID   2081569 .
  15. ^ Моранси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «К мультимодальному анализу настроений». На пути к мультимодальному анализу настроений: сбор мнений из Интернета . АКМ. стр. 169–176. дои : 10.1145/2070481.2070509 . ISBN  9781450306416 . S2CID   1257599 .
  16. ^ Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ тональности в пользовательских видео» . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) : 873–883. дои : 10.18653/v1/p17-1081 .
  17. ^ OpenFace: набор инструментов для анализа поведения лица с открытым исходным кодом — публикация конференции IEEE . Март 2016 г. doi : 10.1109/WACV.2016.7477553 . ISBN  978-1-5090-0641-0 . S2CID   1919851 .
  18. Перейти обратно: Перейти обратно: а б Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуан, Гуан-Бин; Хусейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа настроений на основе мультимодального контента». Нейрокомпьютинг . 174 : 50–59. дои : 10.1016/j.neucom.2015.01.095 . S2CID   15287807 .
  19. ^ Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкальных видео - Публикация конференции IEEE». дои : 10.1109/PRIA.2017.7983051 . S2CID   24466718 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  20. ^ Пория, Суджанья; Пэн, Хайюнь; Хусейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и множественного обучения ядра для мультимодального анализа настроений». Нейрокомпьютинг . 261 : 217–230. дои : 10.1016/j.neucom.2016.09.117 .
  21. ^ Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (1 января 2013 г.). «Мультимодальный анализ настроений на уровне высказываний» . Длинные статьи . Ассоциация компьютерной лингвистики (ACL).
  22. ^ Чуй, Майкл; Маньика, Джеймс; Миремади, Мехди; Хенке, Николаус; Чанг, Рита; Нел, Питер; Малхотра, Санкальп. «Заметки о передовых технологиях искусственного интеллекта. Результаты сотен случаев использования» . МакКинси и компания . Проверено 13 июня 2018 г.
  23. ^ Эллис, Джозеф Г.; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях . АКМ. стр. 104–111. дои : 10.1145/2663204.2663237 . ISBN  9781450328852 . S2CID   14112246 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: dc75d649a65c168ec566104987a565e2__1715613000
URL1:https://arc.ask3.ru/arc/aa/dc/e2/dc75d649a65c168ec566104987a565e2.html
Заголовок, (Title) документа по адресу, URL1:
Multimodal sentiment analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)