Jump to content

Мультимодальное взаимодействие

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный ввода интерфейс предоставляет несколько различных инструментов для и вывода данных.

Мультимодальное взаимодействие человека и компьютера предполагает естественную связь с виртуальной и физической средой. Он облегчает свободное и естественное общение между пользователями и автоматизированными системами, обеспечивая гибкий ввод (речь, рукописный ввод, жесты) и вывод ( синтез речи , графика). Мультимодальное слияние объединяет вклады разных модальностей, устраняя двусмысленность.

Две основные группы мультимодальных интерфейсов ориентированы на альтернативные методы ввода и комбинированный ввод/вывод. Несколько способов ввода повышают удобство использования, принося пользу пользователям с ограниченными возможностями. Мобильные устройства часто используют для ввода XHTML+Voice . Мультимодальные биометрические системы используют несколько биометрических данных для преодоления ограничений. Мультимодальный анализ настроений включает в себя анализ текстовых, аудио и визуальных данных для классификации настроений. GPT-4 , мультимодальная языковая модель , объединяет различные модальности для улучшения понимания языка. Мультимодальные системы вывода представляют информацию посредством визуальных и слуховых сигналов, используя прикосновение и обоняние. Мультимодальное слияние объединяет информацию из разных модальностей, используя основанное на распознавании, основанное на принятии решений и гибридное многоуровневое слияние.

Неоднозначности в мультимодальном вводе устраняются с помощью методов предотвращения, апостериорного разрешения и аппроксимационного разрешения.

Введение [ править ]

Мультимодальное взаимодействие человека и компьютера означает «взаимодействие с виртуальной и физической средой посредством естественных способов коммуникации». [1] Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, связывая пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать посредством модальностей ввода, таких как речь , почерк , жесты рук и взгляд , а также получать информацию системой через модальности вывода, такие как синтез речи, интеллектуальная графика. и другие методы, удачно скомбинированные. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями. [3] чтобы дать возможность их интерпретации. Этот процесс известен как мультимодальный синтез и является объектом нескольких исследовательских работ с девяностых годов по настоящее время. [4] [5] [6] [7] [8] [9] [10] [11] Объединенные входы интерпретируются системой. Естественность и гибкость могут привести к более чем одной интерпретации для каждой модальности (канала) и для их одновременного использования и, следовательно, могут привести к мультимодальной неоднозначности. [12] обычно из-за неточности, шума или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически облачные вычисления позволяют предоставлять общие масштабируемые, настраиваемые вычислительные ресурсы, которые можно динамически и автоматически выделять и освобождать». [20]

Мультимодальный ввод [ править ]

Две основные группы мультимодальных интерфейсов объединились: одна касается альтернативных методов ввода, а другая — комбинированного ввода/вывода. Первая группа интерфейсов сочетала в себе различные режимы пользовательского ввода, выходящие за рамки традиционного с клавиатуры и мыши ввода/вывода , такие как речь, перо, касание, ручные жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью ( распознавание речи для ввода, синтез речи и запись звука для вывода). и другие методы, такие как ввод с помощью пера или тактильный Однако могут использоваться ввод/вывод. Мультимодальные пользовательские интерфейсы — это область исследований взаимодействия человека и компьютера (HCI).

Преимущество нескольких модальностей ввода заключается в повышении удобства использования : недостатки одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Покипси ). Подумайте, как вы будете получать доступ к цифровым медиа- каталогам и осуществлять поиск по ним с этих же устройств или телеприставок. И в одном реальном примере члены хирургической бригады получают доступ к информации о пациенте в операционной комнате в устной форме для поддержания антисептической среды и представляют ее практически в реальном времени на слух и визуально для максимального понимания.

Мультимодальные пользовательские интерфейсы ввода влияют на доступность . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с нарушениями зрения полагаются на голосовую модальность с некоторым вводом с клавиатуры. Пользователи с нарушениями слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «ситуативно ослаблены» (например, будут носить перчатки в очень шумной обстановке, вести машину или им придется вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие методы по желанию. С другой стороны, мультимодальное приложение, требующее от пользователей возможности управлять всеми модальностями, спроектировано очень плохо.

Самая распространенная форма мультимодальности ввода на рынке использует язык веб-разметки XHTML+Voice (он же X+V) — открытую спецификацию , разработанную IBM , Motorola и Opera Software . X+V в настоящее время находится на рассмотрении W3C и объединяет несколько рекомендаций W3C, включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events — стандарт для интеграции языков XML . Мультимодальные браузеры, поддерживающие X+V, включают IBM WebSphere Everyplace Multimodal Environment, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на с открытым исходным кодом Eclipse платформе , который включает X+V отладчик , редактор и симулятор . [ нужна ссылка ]

биометрия Мультимодальная

Мультимодальные биометрические системы используют несколько датчиков или биометрических средств, чтобы преодолеть ограничения унимодальных биометрических систем. [24] Например, системы распознавания радужной оболочки могут быть нарушены из-за старения радужной оболочки. [25] а электронное распознавание отпечатков пальцев может быть ухудшено из-за изношенных или порезанных отпечатков пальцев. Хотя унимодальные биометрические системы ограничены целостностью своего идентификатора, маловероятно, что несколько унимодальных систем будут страдать от одинаковых ограничений. Мультимодальные биометрические системы могут получать наборы информации от одного и того же маркера (т. е. нескольких изображений радужной оболочки глаза или сканирований одного и того же пальца) или информацию от разных биометрических данных (требующих сканирования отпечатков пальцев и, с использованием распознавания голоса , произнесенного пароля). [26] [27]

Мультимодальные биометрические системы могут объединять эти унимодальные системы последовательно, одновременно, их комбинацию или последовательно, что относится к последовательному, параллельному, иерархическому и последовательному режимам интеграции соответственно.Объединение биометрической информации может происходить на разных этапах системы распознавания. В случае объединения уровней признаков объединяются сами данные или признаки, извлеченные из нескольких биометрических данных. Объединение уровней оценок соответствия объединяет баллы, полученные несколькими классификаторами, относящимися к различным модальностям. Наконец, в случае слияния уровней решений окончательные результаты нескольких классификаторов объединяются с помощью таких методов, как голосование большинством . Считается, что объединение уровней функций более эффективно, чем другие уровни объединения, поскольку набор функций содержит более полную информацию о входных биометрических данных, чем оценка соответствия или выходное решение классификатора. Таким образом, ожидается, что объединение на уровне функций обеспечит лучшие результаты распознавания. [24]

Кроме того, развивающиеся тенденции биометрического рынка подчеркивают важность технологической интеграции, демонстрируя сдвиг в сторону объединения нескольких биометрических методов для повышения безопасности и проверки личности, что соответствует достижениям в области мультимодальных биометрических систем. [28]

Поддельные атаки заключаются в передаче поддельных биометрических данных биометрическим системам и представляют собой серьезную угрозу, которая может снизить их безопасность. Обычно считается, что мультимодальные биометрические системы по своей сути более устойчивы к поддельным атакам, но недавние исследования [29] показали, что их можно обойти, подделав даже одну биометрическую характеристику.

настроений Мультимодальный анализ

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [30] Оно может быть бимодальным, включающим в себя различные комбинации двух модальностей, или тримодальным, включающим в себя три модальности. [31] Благодаря огромному количеству данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений. [32] которые можно применить при разработке виртуальных помощников , [33] анализ обзоров фильмов на YouTube, [34] анализ новостных видеороликов, [35] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [36] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [37] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень решений и гибридное объединение. [32] На эффективность этих методов объединения и классификации применяемых алгоритмов влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [38]

Мультимодальные языковые модели [ править ]

Generative Pre-trained Transformer 4 ( GPT-4 ) — мультимодальная модель большого языка, созданная OpenAI , и четвертая в ее серии базовых моделей GPT . [39] Он был запущен 14 марта 2023 года. [39] и стал общедоступным через платный чат-бота продукт ChatGPT Plus OpenAI , через API и через бесплатный чат-бот Microsoft Copilot . [40] В качестве модели, основанной на преобразователе используется предварительное обучение с использованием как общедоступных данных, так и «данных, лицензированных у сторонних поставщиков» , GPT-4 использует парадигму, в которой для прогнозирования следующего токена . После этого шага модель была доработана с помощью и искусственного интеллекта , полученной при обучении с подкреплением, обратной связи от людей для согласования действий людей и соблюдения политик. [41] : 2 

Наблюдатели сообщили, что версия ChatGPT с использованием GPT-4 является улучшением предыдущей версии, основанной на GPT-3.5, с оговоркой, что GPT-4 сохраняет некоторые проблемы предыдущих версий. [42] ГПТ-4, оснащенный возможностями видения (ГПТ-4В), [43] способен принимать изображения в качестве входных данных в ChatGPT. [44] OpenAI отказалась раскрыть различные технические подробности и статистику о GPT-4, например точный размер модели. [45]

Мультимодальный вывод [ править ]

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, прежде всего в виде визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной системы вывода включают синергию и избыточность. Информация, представленная несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей обработки одной и той же информации обеспечивает повышенную пропускную способность передачи информации. . [46] [47] [48] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом, а также для поддержки управления вниманием в среде с большим объемом данных, где операторы сталкиваются со значительными требованиями к визуальному вниманию. [49]

Важным шагом в проектировании мультимодального интерфейса является создание естественных сопоставлений между модальностями, информацией и задачами. Слуховой канал отличается от зрительного по нескольким аспектам. Оно всенаправлено, преходяще и всегда сдержано. [49] Речевому выводу, одной из форм слуховой информации, уделялось значительное внимание. Для использования речи было разработано несколько рекомендаций. Михаэлис и Виггинс (1982) предположили, что речевой вывод следует использовать для простых коротких сообщений, к которым позже не будут обращаться. Также было рекомендовано, чтобы речь формировалась вовремя и требовала немедленного реагирования.

Осязание впервые было использовано в качестве средства общения в конце 1950-х годов. [50] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, чувство осязания является проксимальным: оно ощущает объекты, соприкасающиеся с телом, и оно двунаправлено, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры звуковой обратной связи включают звуковые значки в компьютерных операционных системах, обозначающие действия пользователей (например, удаление файла, открытие папки, ошибка), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота, предупреждающую водителей о нахождении автомобиля в слепой зоне, вибрацию автомобильного сиденья в качестве предупреждения водителям, а также шейкер на современных самолетах, предупреждающий пилотов о надвигающемся сваливании. [49]

Невидимые интерфейсные пространства стали доступны благодаря сенсорным технологиям. Инфракрасное, ультразвуковое и видеокамеры сейчас широко используются. [51] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую связь посредством значимого сопоставления, таким образом, пользователь имеет прямую и немедленную обратную связь при вводе, а ответ на контент становится доступностью интерфейса (Gibson 1979).

Мультимодальный синтез [ править ]

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным слиянием. [5] В литературе предложено три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может быть выполнено слияние входных сигналов: на основе распознавания, [9] [10] [52] основанный на принятии решений, [7] [8] [11] [53] [54] [55] [56] и гибридный многоуровневый синтез. [4] [6] [57] [58] [59] [60] [61] [62]

Слияние на основе распознавания (также известное как раннее слияние) заключается в объединении результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые модели Маркова, искусственные нейронные сети и т. д. Примеры стратегий слияния, основанных на распознавании, являются рамками действий, [52] входные векторы [9] и слоты. [10]

Объединение на основе решений (также известное как позднее объединение) объединяет семантическую информацию, извлеченную с помощью специальных процедур объединения, управляемых диалогом, для получения полной интерпретации. Примерами стратегий объединения на основе решений являются типизированные структуры признаков, [53] [58] плавильные котлы, [55] [56] смысловые рамки, [7] [11] и решетки с отметками времени. [8]

Потенциальные применения мультимодального слияния включают среду обучения, отношения с потребителями, безопасность/наблюдение, компьютерную анимацию и т. д. Индивидуально режимы легко определить, но возникают трудности с тем, чтобы технологии рассматривали их как комбинированное слияние. [63] Алгоритмам сложно учитывать размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [63]

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридный многоуровневый синтез включает в себя следующие три методологии: преобразователи с конечным состоянием, [58] мультимодальные грамматики [6] [57] [59] [60] [61] [62] [64] и диалог движется. [65]

Двусмысленность [ править ]

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение [3] ), которые должны быть интерпретированы системой. Мультимодальное сообщение — это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Его получают путем объединения информации, передаваемой через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями. [66] временные отношения [67] между вовлеченными модальностями и отношениями между порциями информации, связанными с этими модальностями. [68]

Естественное сопоставление между мультимодальным входным сигналом, который обеспечивается несколькими модальностями взаимодействия (зрительный и слуховой канал и чувство осязания), информацией и задачами, предполагает решение типичных проблем человеческого общения, таких как двусмысленность. Неоднозначность возникает, когда возможно более одной интерпретации входных данных. Мультимодальная двусмысленность [12] возникает как в том случае, если элемент, представленный одной модальностью, имеет более одной интерпретации (т.е. неоднозначности распространяются на мультимодальном уровне), и/или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация отнесена к разным модальности несвязны на синтаксическом или семантическом уровне (т.е. мультимодальное предложение имеет разные значения или разную синтаксическую структуру).

В «Управлении двусмысленностями» [14] методы решения неоднозначностей и обеспечения правильной интерпретации вводимых пользователем данных организованы в три основных класса: методы предотвращения, апостериорного разрешения и методы аппроксимационного разрешения. [13] [15]

Методы предотвращения заставляют пользователей следовать заранее заданному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примерами методов профилактики являются: процессуальный метод, [69] снижение выразительной силы языковой грамматики, [70] совершенствование выразительной силы языковой грамматики. [71]

Апостериорное разрешение двусмысленностей использует посреднический подход. [16] Примерами техник посредничества являются: повторение, например, повторение по модальности, [16] детализация ремонта [72] и отменить, [17] и выбор. [18]

Методы аппроксимационного разрешения не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]

См. также [ править ]

Ссылки [ править ]

  1. ^ Бурге, ML (2003). « Проектирование и прототипирование мультимодальных команд ». Труды по взаимодействию человека и компьютера (INTERACT'03), стр. 717-720.
  2. ^ Стиверс, Т., Сиднелл, Дж. Введение: Мультимодальное взаимодействие. Семиотика, 156(1/4), стр. 1-20. 2005.
  3. ^ Jump up to: Перейти обратно: а б Кашера MC, Ферри Ф., Грифони П. (2007). « Мультимодальные системы взаимодействия: информационно-временные особенности ». Международный журнал веб- и грид-сервисов (IJWGS), Vol. 3 - Выпуск 1, стр. 82-99.
  4. ^ Jump up to: Перейти обратно: а б Д'Улиция А., Ферри Ф. и Грифони П. (2010). «Создание мультимодальных грамматик для обработки мультимодальных диалогов». Транзакции IEEE по системам, человеку и кибернетике, Часть A: Системы и люди, Том 40, № 6, стр. 1130–1145.
  5. ^ Jump up to: Перейти обратно: а б Д'Улиция, А. (2009). « Изучение стратегий объединения мультимодальных входных данных ». В: Грифони П. (ред.) Справочник по исследованиям мультимодального взаимодействия человека с компьютером и всеобъемлющих услуг: эволюционные методы улучшения доступности. Издательство IGI, стр. 34–57.
  6. ^ Jump up to: Перейти обратно: а б с Сунь Ю., Ши Ю., Чен Ф. и Чунг В. (2007). «Эффективный мультимодальный языковой процессор для параллельных входных строк в мультимодальном слиянии ввода», в Proc. международной конференции по семантическим вычислениям, стр. 389-396.
  7. ^ Jump up to: Перейти обратно: а б с Расс Г., Салланс Б., Харетер Х. (2005). « Семантическое объединение информации в мультимодальном интерфейсе ». Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94–100.
  8. ^ Jump up to: Перейти обратно: а б с Коррадини А., Мехта М., Бернсен Н.О., Мартин Ж.-К. (2003). «Мультимодальное объединение входных данных во взаимодействии человека и компьютера на примере текущего проекта NICE». В материалах конференции НАТО-ASI по объединению данных для мониторинга ситуации, обнаружения инцидентов, оповещения и управления реагированием, Ереван, Армения.
  9. ^ Jump up to: Перейти обратно: а б с Павлович В.И., Берри Г.А., Хуанг Т.С. (1997). « Интеграция аудио/визуальной информации для использования в интеллектуальном взаимодействии человека и компьютера ». Материалы Международной конференции по обработке изображений 1997 г. (ICIP '97), Том 1, стр. 121–124.
  10. ^ Jump up to: Перейти обратно: а б с Андре М., Попеску В.Г., Шейх А., Медл А., Марсич И., Куликовски К., Фланаган Дж.Л. (1998). « Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера ». На Второй международной конференции по кооперативным мультимодальным коммуникациям. 28–30 января, Тилбург, Нидерланды.
  11. ^ Jump up to: Перейти обратно: а б с Во, М.Т., Вуд, К. (1996). « Создание платформы приложений для интеграции речевого и перьевого ввода в мультимодальные обучающие интерфейсы ». В Proceedings of the Acoustics, Speech and Signal Processing (ICASSP'96), 7–10 мая, IEEE Computer Society, том 06, стр. 3545-3548.
  12. ^ Jump up to: Перейти обратно: а б Кашера, М.К., Ферри, Ф., Грифони, П. (2013). « От модальных к мультимодальным неоднозначностям: классификационный подход », Журнал информационных технологий следующего поколения (JNIT), Vol. Т. 4, № 5, стр. 87-109.
  13. ^ Jump up to: Перейти обратно: а б с Кашера, М.К., Ферри, Ф., Грифони, П. (2013). InteSe: Интегрированная модель для разрешения неоднозначностей в мультимодальных предложениях ». Транзакции IEEE в системах, человеке и кибернетике: Системы, Том: 43, Выпуск: 4, стр. 911 – 931.18. Спилкер, Дж., Кларнер, М., Гёрц , Г. (2000). «Обработка самокоррекций в системе преобразования речи в речь».
  14. ^ Jump up to: Перейти обратно: а б Кашера MC, Ферри Ф., Грифони П. (2007). « Управление неясностями ». В «Визуальных языках для интерактивных вычислений: определения и формализации». Издательство ИГИ. стр.129-140.
  15. ^ Jump up to: Перейти обратно: а б с Дж. Чай, П. Хонг и М. Х. Чжоу (2004). « Вероятностный подход к разрешению ссылок в мультимодальном пользовательском интерфейсе » в Proc. 9-й Международный. Конф. Интел. User Interf., Мадейра, Португалия, январь 2004 г., стр. 70–77.
  16. ^ Jump up to: Перейти обратно: а б с Дей, А. К. Манкофф, Дж. (2005). « Разработка медиации для контекстно-зависимых приложений ». АКМ Транс. Компьютер.-Хм. Взаимодействуйте. 12(1), стр. 53-80.
  17. ^ Jump up to: Перейти обратно: а б Спилкер Дж., Кларнер М., Гёрц Г. (2000). «Обработка самокоррекций в системе преобразования речи в речь». КОЛИНГ 2000. стр. 1116-1120.
  18. ^ Jump up to: Перейти обратно: а б Манкофф Дж., Хадсон С.Е., Абоуд Г.Д. (2000). « Предоставление интегрированной поддержки на уровне набора инструментов для устранения неоднозначности в интерфейсах, основанных на распознавании ». Материалы конференции ACM CHI'00 по человеческому фактору в вычислительных системах. С. 368 – 375.
  19. ^ Грифони П (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и повсеместные услуги. IGI Global, стр. 103–120.
  20. ^ Патриция Грифони, Фернандо Ферри, Мария Кьяра Кашера, Арианна Д'Улиция, Мауро Маццеи, «MIS: Сервисы мультимодального взаимодействия в облачной перспективе», JNIT: Журнал информационных технологий следующего поколения, Vol. Т. 5, № 4, стр. 01 ~ 10, 2014 г.
  21. ^ Кеттебеков, Саншзар и Раджив Шарма (2001). « На пути к естественному управлению жестами и речью на большом дисплее ». ТрудыEHCI '01 Материалы 8-й Международной конференции ИФИП по разработке взаимодействия человека и компьютера, страницы 221-234
  22. ^ Мариус Василиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Тэм, М. Чан, П. Бангаян и Дж. МакГи (2000), «Интегрированный мультимодальный человеко-компьютерный интерфейс и дополненная реальность для приложений интерактивного отображения». », в книге Даррела Г. Хоппера (ред.) «Дисплей в кабине VII: Дисплеи для оборонных приложений» (Proc. SPIE. 4022), 106–115. ISBN   0-8194-3648-8
  23. ^ Витенсе, HS; Джеко, Дж.А.; Эмери, В.К. (2002). «Мультимодальная обратная связь: создание базового уровня производительности для улучшения доступа людей с нарушениями зрения» . Конференция АКМ. о вспомогательных технологиях .
  24. ^ Jump up to: Перейти обратно: а б Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания» . Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061 . S2CID   15624506 .
  25. ^ «Вопросы о системах распознавания радужной оболочки глаза» . Наука Дейли . 12 июля 2012 г. Архивировано из оригинала 22 октября 2012 г.
  26. ^ Сэйлор, Майкл (2012). Мобильная волна: как мобильный интеллект изменит все . Книги Персея/Авангард Пресс. п. 99. ИСБН  9780306822988 .
  27. ^ Билл Флук (3 октября 2013 г.). «Это «биометрическая война», о которой говорил Майкл Сэйлор» . Вашингтонский деловой журнал . Архивировано из оригинала 7 октября 2013 года.
  28. ^ «Что такое биометрия? Определение, типы данных, тенденции (2024 г.)» . Аратек Биометрика . Проверено 11 апреля 2024 г.
  29. ^ Захид Ахтар, «Безопасность мультимодальных биометрических систем от поддельных атак» (PDF) . Архивировано 2 апреля 2015 года в Wayback Machine . Кафедра электротехники и электроники Университета Кальяри. Кальяри, Италия, 6 марта 2012 г.
  30. ^ Сулеймани, Мохаммед; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьорн; Чанг, Ши-Фу; Пантич, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений» . Вычисление изображений и зрительных образов . 65 : 3–14. дои : 10.1016/j.imavis.2017.08.003 . S2CID   19491070 .
  31. ^ Каррай, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нурс, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. дои : 10.21307/ijssis-2017-283 .
  32. ^ Jump up to: Перейти обратно: а б Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хусейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от унимодального анализа к мультимодальному слиянию» . Информационный синтез . 37 : 98–125. дои : 10.1016/j.inffus.2017.02.003 . hdl : 1893/25490 . S2CID   205433041 .
  33. ^ «ИИ Google будет звонить за вас» . Новости Би-би-си . 8 мая 2018 года . Проверено 12 июня 2018 г.
  34. ^ Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьёрн; Сунь, Цункай; Сагаэ, Кенджи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов на YouTube: анализ настроений в аудиовизуальном контексте» (PDF) . Интеллектуальные системы IEEE . 28 (3): 46–53. дои : 10.1109/MIS.2013.34 . S2CID   12789201 .
  35. ^ Перейра, Мойзес HR; Падуя, Флавио LC; Перейра, Адриано CM; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [ cs.CL ].
  36. ^ Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). «Анализ настроений и аффективные вычисления для мониторинга депрессии». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) , 2017 г. IEEE. стр. 1988–1995 гг. дои : 10.1109/bibm.2017.8217966 . ISBN  978-1-5090-3050-7 . S2CID   24408937 .
  37. ^ Панг, Бо; Ли, Лилиан (2008). Анализ мнений и настроений . Ганновер, Массачусетс: Now Publishers. ISBN  978-1601981509 .
  38. ^ Сунь, Шилян; Ло, Чен; Чен, Джунюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа мнений». Информационный синтез . 36 : 10–25. дои : 10.1016/j.inffus.2016.10.004 .
  39. ^ Jump up to: Перейти обратно: а б Эдвардс, Бендж (14 марта 2023 г.). «GPT-4 от OpenAI демонстрирует «производительность человеческого уровня» в профессиональных тестах» . Арс Техника . Архивировано из оригинала 14 марта 2023 года . Проверено 15 марта 2023 г.
  40. ^ Виггерс, Кайл (6 июля 2023 г.). «OpenAI делает GPT-4 общедоступным» . ТехКранч . Архивировано из оригинала 16 августа 2023 года . Проверено 16 августа 2023 г.
  41. ^ ОпенАИ (2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [ cs.CL ].
  42. ^ Белфилд, Гайдн (25 марта 2023 г.). «Если ваша модель ИИ будет продаваться, она должна быть безопасной» . Вокс . Архивировано из оригинала 28 марта 2023 года . Проверено 30 марта 2023 г.
  43. ^ «Системная карта GPT-4V(ision)» . ОпенАИ . Проверено 5 февраля 2024 г.
  44. ^ Руз, Кевин (28 сентября 2023 г.). «Новый ChatGPT может «видеть» и «говорить». Вот что это такое» . Нью-Йорк Таймс . Архивировано из оригинала 31 октября 2023 года . Проверено 30 октября 2023 г.
  45. ^ Винсент, Джеймс (15 марта 2023 г.). «Соучредитель OpenAI о прошлом подходе компании к открытому обмену исследованиями: «Мы были неправы» » . Грань . Архивировано из оригинала 17 марта 2023 года . Проверено 18 марта 2023 г.
  46. ^ Овиатт, С. (2002), «Мультимодальные интерфейсы», Джеко, Дж.; Сирс А. (ред.), Справочник по взаимодействию человека и компьютера (PDF) , Лоуренс Эрлбаум
  47. ^ Баукхаге, К.; Фрич, Дж.; Ролфинг, К.Дж.; Ваксмут, С.; Сагерер, Г. (2002). «Оценка комплексного понимания речи и изображений». Межд. Конф. по мультимодальным интерфейсам . дои : 10.1109/ICMI.2002.1166961 .
  48. ^ Исмаил, Северная Каролина; О'Брайен, Э.А. (2008). «Включение мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет» (PDF) . Межд. Конф. по компьютерной и коммуникационной технике . Архивировано из оригинала (PDF) 18 июля 2011 г. Проверено 3 марта 2010 г.
  49. ^ Jump up to: Перейти обратно: а б с Сартер, НБ (2006). «Представление мультимодальной информации: рекомендации по проектированию и проблемы исследования». Международный журнал промышленной эргономики . 36 (5): 439–445. дои : 10.1016/j.ergon.2006.01.007 .
  50. ^ Гельдар, Ф.А. (1957). «Приключения в тактильной грамотности». Американский психолог . 12 (3): 115–124. дои : 10.1037/h0040416 .
  51. ^ Брукс, А.; Петерссон, Э. (2007). «SoundScapes: возможности неформального обучения на основе интерактивных VE» . СИГРАФ . дои : 10.1145/1282040.1282059 .
  52. ^ Jump up to: Перейти обратно: а б Во, МТ (1998). « Структура и инструментарий для построения мультимодальных обучающих интерфейсов », доктор философии. Диссертация, Университет Карнеги-Меллон, Питтсбург, США.
  53. ^ Jump up to: Перейти обратно: а б Коэн, PR; Джонстон, М.; МакГи, Д.; Овиатт, СЛ; Питтман, Дж.; Смит, Айова; Чен, Л.; Клоу, Дж. (1997). «Quickset: мультимодальное взаимодействие для распределенных приложений», ACM Multimedia, стр. 31-40.
  54. ^ Джонстон, М. (1998). « Мультимодальный анализ на основе унификации ». Материалы 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Университет Монреаля, Монреаль, Квебек, Канада. стр. 624-630.
  55. ^ Jump up to: Перейти обратно: а б Нигай, Л.; Кутаз, Дж. (1995). « Общая платформа для решения мультимодальных задач ». Материалы конференции по человеческому фактору в вычислительных системах, ACM Press.
  56. ^ Jump up to: Перейти обратно: а б Буше, Дж.; Нигай, Л.; Ганиль, Т. (2004). « Программные компоненты Icare для быстрой разработки мультимодальных интерфейсов ». ICMI '04: Материалы 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, Нью-Йорк, США), ACM, стр. 251-258.
  57. ^ Jump up to: Перейти обратно: а б Д'Улиция, А.; Ферри, Ф.; Грифони П. (2007). « Гибридный грамматический подход к спецификации мультимодальных языков », Материалы семинара OTM 2007, 25–30 ноября 2007 г., Виламура, Португалия, Springer-Verlag, Конспекты лекций по информатике 4805, стр. 367–376.
  58. ^ Jump up to: Перейти обратно: а б с Джонстон, М.; Бангалор, С. (2000). « Мультимодальный анализ и понимание конечных состояний », в материалах Международной конференции по компьютерной лингвистике, Саарбрюкен, Германия.
  59. ^ Jump up to: Перейти обратно: а б Сан, Ю.; Чен, Ф.; Ши, Ю.Д.; Чанг, В. (2006). « Новый метод объединения мультисенсорных данных при мультимодальном взаимодействии человека с компьютером ». В материалах 20-й конференции группы особых интересов по взаимодействию компьютера и человека (CHISIG) Австралии по взаимодействию компьютера и человека: дизайн: деятельность, артефакты и окружающая среда, Сидней, Австралия, стр. 401-404.
  60. ^ Jump up to: Перейти обратно: а б Симадзу, Х.; Такашима, Ю. (1995). «Мультимодальная грамматика определенного предложения», Systems and Computers in Japan, vol. 26, № 3, с. 93-102.
  61. ^ Jump up to: Перейти обратно: а б Джонстон, М.; Бангалор, С. (2005). « Мультимодальная интеграция и понимание конечных состояний », Nat. Ланг. англ., Том. 11, нет. 2, стр. 159-187.
  62. ^ Jump up to: Перейти обратно: а б Рейтер, Д.; Панттайя, EM; Камминс, Ф. (2004). «Пользовательский интерфейс на лету: создание мультимодального пользовательского интерфейса» в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.
  63. ^ Jump up to: Перейти обратно: а б Гуань, Линг. «Методы и технологии мультимодального объединения информации» (PDF) . Общество схем и систем .
  64. ^ Д'Улиция, А.; Ферри, Ф.; Грифони П. (2011). « Алгоритм обучения для мультимодального грамматического вывода », Транзакции IEEE в системах, человеке и кибернетике - Часть B: Кибернетика, Том. 41 (6), стр. 1495 - 1510.
  65. ^ Перес, Г.; Аморес, Г.; Манчон, П. (2005). « Две стратегии мультимодального слияния ». В материалах о мультимодальном взаимодействии для визуализации и исследования научных данных, Тренто, Италия, 26–32.
  66. ^ Мартин, JC (1997). «На пути к интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Материалы Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинар «Интеллектуальные мультимодальные системы», Нагоя, Япония.
  67. ^ Аллен, Дж. Ф.; Фергюсон, Г. (1994). « Действия и события в интервальной временной логике », Журнал логики и вычислений, Vol. 4, № 5, стр. 531–579.
  68. ^ Беллик, Ю. (2001). « Технические требования для успешного мультимодального взаимодействия », Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря
  69. ^ Ли, Ю.К.; Чин, Ф. (1995). « Знаменитый язык запросов для топологических отношений в ГИС ». Международный журнал географических информационных систем 9 (1). стр. 25-46
  70. ^ Кальчинелли, Д.; Менгено, М. (1994). «Cigales, визуальный язык для географической информационной системы: пользовательский интерфейс». Журнал визуальных языков и вычислений 5 (2). стр. 113-132
  71. ^ Ферри, Ф.; Рафанелли, М. (2005). « GeoPQL: язык географических графических запросов, который устраняет неоднозначность в интерпретации запросов ». J. Семантика данных III. стр.50-80
  72. ^ Сум, Б., Майерс, Б. и Вайбель, А. (1999). « Модельная и эмпирическая оценка мультимодальной интерактивной коррекции ошибок ». В Proc. ЧИ'99, май 1999 г., стр. 584-591.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ec0dd424af9f7c9f49593600f9ae9678__1710420900
URL1:https://arc.ask3.ru/arc/aa/ec/78/ec0dd424af9f7c9f49593600f9ae9678.html
Заголовок, (Title) документа по адресу, URL1:
Multimodal interaction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)