Голосовой пользовательский интерфейс

Голосовой пользовательский интерфейс ( VUI ) обеспечивает голосовое взаимодействие человека с компьютерами, используя распознавание речи для понимания устных команд и ответов на вопросы , а также, как правило, преобразование текста в речь для воспроизведения ответа. Устройство голосового управления — это устройство, управляемое с помощью голосового пользовательского интерфейса.

Голосовые пользовательские интерфейсы были добавлены в автомобили , домашней автоматизации системы , компьютерные операционные системы , бытовую технику, такую как стиральные машины и микроволновые печи телевизорами , а также пульты дистанционного управления . Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных колонках . Старые автосекретари (которые перенаправляют телефонные звонки на правильный добавочный номер) и интерактивные системы голосового ответа (которые выполняют более сложные транзакции по телефону) могут реагировать на нажатие кнопок клавиатуры с помощью тонов DTMF , но системы с полностью голосовым пользовательским интерфейсом позволяют звонящим озвучивать запросы и ответы без необходимости нажимать какие-либо кнопки.

Новые устройства голосового управления не зависят от говорящего, поэтому они могут реагировать на несколько голосов, независимо от акцента или диалектного влияния. Они также способны реагировать на несколько команд одновременно, разделять голосовые сообщения и обеспечивать соответствующую обратную связь , точно имитируя естественный разговор. ^{[ 1 ]}

Обзор

VUI — это интерфейс любого речевого приложения. Еще совсем недавно управлять машиной, просто разговаривая с ней, было возможно только в научной фантастике . До недавнего времени этой областью считался искусственный интеллект . Однако достижения в таких технологиях, как преобразование текста в речь, речь в текст, обработка естественного языка и облачные сервисы, способствовали массовому внедрению этих типов интерфейсов. VUI стали более распространенными, и люди пользуются преимуществами, которые эти интерфейсы без помощи рук и глаз предоставляют во многих ситуациях.

VUI должны надежно реагировать на вводимые данные, иначе пользователи будут отвергать их и часто высмеивать. Разработка хорошего VUI требует междисциплинарных талантов в области информатики , лингвистики человеческого фактора и психологии – все эти навыки являются дорогостоящими и труднодоступными. Даже при наличии передовых инструментов разработки построение эффективного VUI требует глубокого понимания как решаемых задач, так и целевой аудитории, которая будет использовать конечную систему. Чем ближе VUI соответствует мысленной модели задачи пользователя, тем проще его будет использовать практически без обучения, что приведет как к более высокой эффективности, так и к более высокому удовлетворению пользователя.

VUI, предназначенный для широкой публики, должен подчеркивать простоту использования и предоставлять большую помощь и рекомендации для тех, кто звонит впервые. Напротив, VUI, предназначенный для небольшой группы опытных пользователей (включая сотрудников выездного обслуживания), должен больше ориентироваться на производительность, а не на помощь и рекомендации. Такие приложения должны оптимизировать потоки вызовов, свести к минимуму количество подсказок, исключить ненужные итерации и обеспечить продуманные « диалоги смешанной инициативы », которые позволяют звонящим вводить несколько фрагментов информации в одном произнесении, в любом порядке или комбинации. Короче говоря, речевые приложения должны быть тщательно разработаны для конкретного автоматизируемого бизнес-процесса.

Не все бизнес-процессы одинаково хорошо подходят для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их автоматизировать и тем выше вероятность того, что они потерпят неудачу среди широкой публики. В некоторых сценариях автоматизация просто неприменима, поэтому помощь живого агента — единственный вариант. Например, очень сложно автоматизировать горячую линию юридической консультации. С другой стороны, речь идеально подходит для выполнения быстрых и рутинных транзакций, таких как изменение статуса рабочего задания, запись времени или расходов или перевод средств между счетами.

История

Ранние приложения для VUI включали голосовой набор номера телефона либо напрямую, либо через гарнитуру (обычно Bluetooth ) или аудиосистему автомобиля.

В 2007 году в деловой статье CNN сообщалось, что голосовое управление — это индустрия стоимостью более миллиарда долларов и что такие компании, как Google и Apple, пытаются создать функции распознавания речи. ^{[ 2 ]} За годы, прошедшие с момента публикации статьи, мир стал свидетелем появления множества устройств голосового управления. Кроме того, Google создал механизм распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосового управления становятся все более доступными, и постоянно создаются инновационные способы использования человеческого голоса. Например, Business Week предполагает, что будущий пульт дистанционного управления будет иметь человеческий голос. В настоящее время Xbox Live допускает такие функции, и Джобс намекнул на наличие такой функции в новом Apple TV . ^{[ 3 ]}

Программные продукты голосового управления на вычислительных устройствах

И Apple Mac , и Windows PC предоставляют встроенные функции распознавания речи для своих новейших операционных систем .

Microsoft Windows

Две операционные системы Microsoft, Windows 7 и Windows Vista , обеспечивают возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм для людей, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить свою общую производительность. ^{[ 4 ]}

Windows Виста

С помощью голосового управления Windows Vista пользователь может диктовать документы и электронные письма в основных приложениях, запускать приложения и переключаться между ними, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы в Интернете . Программное обеспечение для распознавания речи обучается автоматически каждый раз, когда пользователь его использует. Распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционном) языках. и китайский (упрощенный). Кроме того, программное обеспечение поставляется с интерактивным учебным пособием, которое можно использовать для обучения как пользователя, так и механизма распознавания речи. ^{[ 5 ]}

Windows 7

Помимо всех функций Windows Vista, Windows 7 предоставляет мастер настройки микрофона и руководство по использованию этой функции. ^{[ 6 ]}

Мак ОС Х

На всех компьютерах Mac OS X предустановлено программное обеспечение для распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; произносить названия флажков, названия переключателей, элементы списка и названия кнопок; а также открывать, закрывать, управлять и переключаться между приложениями. " ^{[ 7 ]} Однако сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate . ^{[ 7 ]}

Коммерческие продукты

Если пользователя не устраивает встроенное программное обеспечение для распознавания речи или у пользователя нет встроенного программного обеспечения для распознавания речи для его ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows. ^{[ 8 ]} и Dictate — название того же программного обеспечения для Mac OS. ^{[ 9 ]}

Голосовые команды для мобильных устройств

Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 9 или более поздней версии или ОС Blackberry предоставляет возможности голосового управления. В дополнение к встроенному программному обеспечению распознавания речи для каждой операционной системы мобильного телефона пользователь может загружать сторонние приложения для голосовых команд из магазина приложений каждой операционной системы: Apple App Store , Google Play , Windows Phone Marketplace (первоначально Windows Marketplace для мобильных устройств ). или BlackBerry App World .

ОС Android

Google разработала операционную систему с открытым исходным кодом под названием Android , которая позволяет пользователю выполнять голосовые команды, такие как: отправлять текстовые сообщения, слушать музыку, прокладывать маршруты, звонить в компании, звонить контактам, отправлять электронную почту, просматривать карту, переходить на веб-сайты и т. д. напишите заметку и выполните поиск в Google. ^{[ 10 ]} Программное обеспечение для распознавания речи доступно для всех устройств, начиная с Android 2.2 «Froyo» , но в настройках должен быть установлен английский язык. ^{[ 10 ]} Google позволяет пользователю менять язык, и при первом использовании функции распознавания речи пользователю будет предложено, хочет ли он или она, чтобы его голосовые данные были прикреплены к его учетной записи Google. Если пользователь решает воспользоваться этой услугой, это позволяет Google обучать программное обеспечение голосу пользователя. ^{[ 11 ]}

Google представила Google Assistant с Android 7.0 «Nougat» . Он намного более продвинут, чем старая версия.

У Amazon.com есть Echo , который использует специальную версию Android от Amazon для обеспечения голосового интерфейса.

Microsoft Windows

Windows Phone — это . операционная система для мобильных устройств Microsoft В Windows Phone 7.5 голосовое приложение не зависит от пользователя и может использоваться для: вызова кого-либо из вашего списка контактов, вызова на любой номер телефона, повторного набора последнего номера, отправки текстового сообщения, вызова голосовой почты, открытия приложения, чтения встреч. , запрашивать статус телефона и выполнять поиск в Интернете. ^{[ 12 ]}^{[ 13 ]} Кроме того, во время телефонного звонка также можно использовать речь, и во время телефонного звонка возможны следующие действия: нажать номер, включить громкую связь или позвонить кому-нибудь, что ставит текущий вызов на удержание. ^{[ 13 ]}

В Windows 10 представлена Cortana — система голосового управления, заменяющая ранее использовавшееся голосовое управление на телефонах с Windows.

iOS

Apple добавила голосовое управление в свое семейство устройств iOS в качестве новой функции iPhone OS 3 . iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G и новее оснащены более продвинутым голосовым помощником под названием Siri . Голосовое управление по-прежнему можно включить через меню «Настройки» на новых устройствах. Siri — это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю подавать голосовые команды. С помощью Siri пользователь может подавать такие команды, как отправить текстовое сообщение, проверить погоду, установить напоминание, найти информацию, запланировать встречи, отправить электронное письмо, найти контакт, установить будильник, проложить маршрут, отслеживать свои акции и т. д. установите таймер и попросите примеры примеров запросов голосовых команд. ^{[ 14 ]} Кроме того, Siri работает с Bluetooth и проводными наушниками. ^{[ 15 ]}

Амазонка Алекса

В 2014 году Amazon представила устройство для умного дома Alexa . Его основной целью был просто умный динамик, который позволял потребителю управлять устройством с помощью голоса. Со временем оно превратилось в новинку, позволяющую управлять бытовой техникой голосом. Теперь почти вся бытовая техника контролируется с помощью Alexa, включая лампочки и температуру. Благодаря голосовому управлению Alexa может подключаться к технологии умного дома, позволяющей запирать дом, контролировать температуру и активировать различные устройства. Эта форма ИИ позволяет кому-то просто задать ему вопрос, а в ответ Алекса ищет, находит и повторяет вам ответ. ^{[ 16 ]}

Распознавание речи в автомобилях

По мере совершенствования автомобильных технологий в автомобили будет добавляться больше функций, и эти функции потенциально могут отвлекать водителя. Голосовые команды для автомобилей, по мнению CNET , должны позволять водителю подавать команды и не отвлекаться. CNET заявил, что Nuance предлагала в будущем создать программное обеспечение, похожее на Siri, но для автомобилей. ^{[ 17 ]} Большинство программ распознавания речи, представленных на рынке в 2011 году, содержало всего около 50–60 голосовых команд, а Ford Sync — 10 000. ^{[ 17 ]} Однако CNET предположил, что даже 10 000 голосовых команд недостаточно, учитывая сложность и разнообразие задач, которые пользователь может захотеть выполнить во время вождения. ^{[ 17 ]} Голосовое управление для автомобилей отличается от голосового управления для мобильных телефонов и компьютеров, поскольку водитель может использовать эту функцию для поиска ближайших ресторанов, поиска заправки, направления движения, дорожных условий и местоположения ближайшего отеля. ^{[ 17 ]} В настоящее время технология позволяет водителю подавать голосовые команды как на портативный GPS, такой как Garmin, так и на навигационную систему производителя автомобиля. ^{[ 18 ]}

Список систем голосового управления, предоставляемых производителями двигателей:

Форд Синк
Голосовое управление Лексус
Крайслер ЮКоннект
Хонда Аккорд
ГМ ИнтеллиЛинк
BMW
Мерседес
пионер
Харман
Хюндай

Невербальный ввод

Хотя большинство голосовых пользовательских интерфейсов предназначены для поддержки взаимодействия посредством устной человеческой речи, в недавних исследованиях по разработке интерфейсов в качестве входных данных использовались невербальные человеческие звуки. ^{[ 19 ]}^{[ 20 ]} В этих системах пользователь управляет интерфейсом, издавая неречевые звуки, такие как жужжание, свист или дуновение в микрофон. ^{[ 21 ]}

Одним из таких примеров невербального голосового пользовательского интерфейса является Blendie. ^{[ 22 ]}^{[ 23 ]} интерактивная арт-инсталляция, созданная Келли Добсон. Этот предмет представлял собой классический блендер 1950-х годов, который был модернизирован так, чтобы реагировать на вход микрофона. Чтобы управлять блендером, пользователь должен имитировать жужжащие механические звуки, которые обычно издает блендер: блендер будет медленно вращаться в ответ на низкое рычание пользователя и увеличивать скорость, когда пользователь издает более высокие голосовые звуки.

Другой пример — VoiceDraw. ^{[ 24 ]} исследовательская система, позволяющая цифровое рисование людям с ограниченными двигательными способностями. VoiceDraw позволяет пользователям «рисовать» штрихи на цифровом холсте, модулируя гласные звуки, которые сопоставляются с направлениями кисти. Модулирование других паралингвистических характеристик (например, громкости голоса) позволяет пользователю контролировать различные характеристики рисунка, например, толщину мазка кисти.

Другие подходы включают в себя использование невербальных звуков для дополнения сенсорных интерфейсов (например, на мобильном телефоне) для поддержки новых типов жестов, которые были бы невозможны с помощью только пальцевого ввода. ^{[ 21 ]}

Проблемы проектирования

Голосовые интерфейсы создают значительное количество проблем с точки зрения удобства использования. В отличие от графических пользовательских интерфейсов (GUI), лучшие практики проектирования голосовых интерфейсов все еще находятся в стадии разработки. ^{[ 25 ]}

Обнаруживаемость

При взаимодействии, основанном исключительно на аудио, голосовые пользовательские интерфейсы, как правило, плохо обнаруживаются : ^{[ 25 ]} пользователям сложно понять масштаб возможностей системы. Чтобы система могла передать то, что возможно без визуального отображения, ей необходимо будет перечислить доступные варианты, что может оказаться утомительным или неосуществимым. Низкая обнаруживаемость часто приводит к тому, что пользователи сообщают о путанице в отношении того, что им «разрешено» говорить, или о несоответствии ожиданий относительно широты понимания системы. ^{[ 26 ]}^{[ 27 ]}

Транскрипция

Хотя технология распознавания речи значительно улучшилась за последние годы, голосовые пользовательские интерфейсы по-прежнему страдают от ошибок синтаксического анализа или транскрипции, из-за которых речь пользователя интерпретируется неправильно. ^{[ 28 ]} Эти ошибки, как правило, особенно распространены, когда в речевом содержании используется техническая лексика (например, медицинская терминология) или нетрадиционные варианты написания, например, имена исполнителей или песен. ^{[ 29 ]}

Понимание

Разработка эффективной системы для максимального понимания разговорной речи остается открытой областью исследований. Голосовые пользовательские интерфейсы, которые интерпретируют и управляют диалоговым состоянием, сложно проектировать из-за присущих им трудностей интеграции сложных задач обработки естественного языка, таких как разрешение кореференций , распознавание именованных объектов , поиск информации и управление диалогами . ^{[ 30 ]} Большинство голосовых помощников сегодня способны очень хорошо выполнять отдельные команды, но ограничены в своих возможностях управлять диалогом, выходя за рамки узкой задачи или пары поворотов в разговоре. ^{[ 31 ]}

Будущее использование

Карманные устройства, такие как КПК или мобильные телефоны , в настоящее время используют небольшие кнопки для пользовательского ввода. Они либо встроены в устройство, либо являются частью интерфейса сенсорного экрана, например, в Apple iPod Touch и для iPhone приложении Siri . Длительное нажатие кнопок на устройствах с такими маленькими кнопками может быть утомительным и неточным, поэтому простой в использовании, точный и надежный VUI потенциально может стать серьезным прорывом в простоте их использования. Тем не менее, такой VUI также принесет пользу пользователям компьютеров размером с ноутбук и настольный компьютер, поскольку он решит многочисленные проблемы, связанные в настоящее время с использованием клавиатуры и мыши , включая травмы, вызванные повторяющимися нагрузками, такие как синдром запястного канала , проблемы навигации и ввод текста в цифровые интерфейсы людьми с нарушениями зрения, ^{[ 32 ]} и медленная скорость набора текста со стороны неопытных пользователей клавиатуры. Более того, использование клавиатуры обычно предполагает сидение или стояние перед подключенным дисплеем; напротив, VUI позволит пользователю быть гораздо более мобильным, поскольку речевой ввод устраняет необходимость смотреть на клавиатуру.

Подобные разработки могут изменить облик нынешних машин и иметь далеко идущие последствия для взаимодействия с ними пользователей. Портативные устройства будут иметь более крупные и удобные для просмотра экраны, поскольку клавиатура не потребуется. Устройствам с сенсорным экраном больше не нужно будет разделять дисплей между контентом и экранной клавиатурой, обеспечивая тем самым полноэкранный просмотр контента. Ноутбуки можно было бы по существу сократить вдвое по размеру, поскольку половину клавиатуры можно было бы исключить, а все внутренние компоненты можно было бы разместить за дисплеем, что фактически привело бы к созданию простого планшетного компьютера . Настольные компьютеры будут состоять из процессора и экрана, что позволит сэкономить место на рабочем столе, которое в противном случае занимало бы клавиатура, и исключить выдвижные подставки для клавиатуры, встроенные под поверхность стола. телевизорами Пульты дистанционного управления и клавиатуры на десятках других устройств, от микроволновых печей до копировальных аппаратов, также могут быть устранены.

Однако для того, чтобы такое развитие событий произошло, придется преодолеть многочисленные проблемы. Во-первых, VUI должен быть достаточно сложным, чтобы различать ввод, например команды, и фоновый диалог; в противном случае будет зарегистрирован ложный ввод, и подключенное устройство будет вести себя хаотично. Стандартная подсказка, например знаменитая «Компьютер!» Звонок персонажей научно-фантастических телешоу и фильмов, таких как «Звездный путь» , может активировать VUI и подготовить его к получению дальнейших данных от того же говорящего. Возможно, VUI также может включать в себя человекоподобное представление: например, голос или даже экранный персонаж, который отвечает (например, «Да, Вамши?») и продолжает общаться с пользователем взад и вперед в для уточнения полученных данных и обеспечения точности.

Во-вторых, VUI должен будет работать совместно с очень сложным программным обеспечением, чтобы точно обрабатывать и находить/извлекать информацию или выполнять действия в соответствии с предпочтениями конкретного пользователя. Например, если Саманта предпочитает информацию из конкретной газеты и если она предпочитает, чтобы информация была обобщена в виде точек, она может сказать: «Компьютер, найдите мне информацию о наводнении в южном Китае прошлой ночью»; в ответ VUI, знакомый с ее предпочтениями, «найдет» факты о «наводнении» в «южном Китае» из этого источника, преобразует их в точечную форму и доставит ей на экран и/или в голосовой форме, в комплекте с цитатой. Следовательно, точное программное обеспечение для распознавания речи , а также некоторая степень искусственного интеллекта потребуется со стороны машины, связанной с VUI.

Последствия конфиденциальности

Проблемы конфиденциальности возникают в связи с тем, что голосовые команды доступны поставщикам голосовых пользовательских интерфейсов в незашифрованной форме и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. ^{[ 33 ]}^{[ 34 ]} Помимо языкового содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его биометрической личности, личностных качествах, фигуре, состоянии физического и психического здоровья, поле, поле, настроениях и эмоциях , социально-экономическом статусе. и географическое происхождение. ^{[ 35 ]}

См. также

Ссылки

^ «Голосовое управление стиральной машиной» . Журнал бытовой техники .
^ Борзо, Жанетт (8 февраля 2007 г.). «Теперь ты говоришь» . CNN Деньги . Проверено 25 апреля 2012 г.
^ «Голосовое управление: конец пульта от телевизора?» . Bloomberg.com . Деловая неделя. 9 декабря 2011 года. Архивировано из оригинала 8 декабря 2011 года . Проверено 1 мая 2012 г.
^ «Встроенная речь Windows Vista» . Windows Виста . Проверено 25 апреля 2012 г.
^ «Речевая операция в Vista» . Майкрософт.
^ «Настройка распознавания речи» . Майкрософт.
^ Перейти обратно: ^а ^б «Физические и двигательные навыки» . Яблоко.
^ «Компьютер DragonNaturallySpeaking» . Нюанс.
^ «DragonNaturallySpeaking Mac» . Нюанс.
^ Перейти обратно: ^а ^б «Голосовые действия» .
^ «Голосовой поиск Google для Android теперь можно «обучить» вашему голосу» . 14 декабря 2010 года . Проверено 24 апреля 2012 г.
^ «Использование голосовых команд» . Майкрософт . Проверено 24 апреля 2012 г.
^ Перейти обратно: ^а ^б «Использование голосовых команд» . Майкрософт . Проверено 27 апреля 2012 г.
^ «Siri, iPhone 3GS и 4, iPod 3 и 4 имеют голосовое управление, как и Siri Express, они воспроизводят музыку, приостанавливают музыку, включают режим Suffle, Facetime и функции вызова» . Яблоко . Проверено 27 апреля 2012 г.
^ «Часто задаваемые вопросы о Сири» . Яблоко.
^ «Как Amazon Echo превратился из умной колонки в центр вашего дома» . Бизнес-инсайдер .
^ Перейти обратно: ^а ^б ^с ^д «Голос Siri Like Voice» . CNET.
^ «Портативный GPS с голосом» . CNET.
^ Блаттнер, Мира М.; Гринберг, Роберт М. (1992). «Общение и обучение посредством неречевого звука». Проектирование мультимедийных интерфейсов в образовании . стр. 133–143. дои : 10.1007/978-3-642-58126-7_9 . ISBN 978-3-540-55046-4 .
^ Херефорд, Джеймс; Винн, Уильям (октябрь 1994 г.). «Неречевой звук во взаимодействии человека и компьютера: обзор и рекомендации по проектированию». Журнал образовательных компьютерных исследований . 11 (3): 211–233. doi : 10.2190/mkd9-w05t-yj9y-81nm . ISSN 0735-6331 . S2CID 61510202 .
^ Перейти обратно: ^а ^б «Голосовые дополненные манипуляции | Материалы 15-й международной конференции по взаимодействию человека и компьютера с мобильными устройствами и сервисами» . dlnext.acm.org . дои : 10.1145/2493190.2493244 . S2CID 6251400 . Проверено 27 февраля 2019 г.
^ «Blendie | Материалы 5-й конференции «Проектирование интерактивных систем: процессы, практика, методы и приемы» . dlnext.acm.org . дои : 10.1145/1013115.1013159 . Проверено 27 февраля 2019 г.
^ «Келли Добсон: Бленди» . web.media.mit.edu . Проверено 27 февраля 2019 г.
^ «Voicedraw | Материалы 9-й международной конференции ACM SIGACCESS «Компьютеры и доступность» . dlnext.acm.org . дои : 10.1145/1296843.1296850 . S2CID 218338 . Проверено 27 февраля 2019 г.
^ Перейти обратно: ^а ^б «Руководство по проектированию речевого взаимодействия без помощи рук | Материалы 20-й Международной конференции по взаимодействию человека и компьютера с мобильными устройствами и дополнительными услугами» . dlnext.acm.org . дои : 10.1145/3236112.3236149 . S2CID 52099112 . Проверено 27 февраля 2019 г.
^ «Проектирование речевых актов | Материалы конференции SIGCHI по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/223904.223952 . S2CID 9313029 . Проверено 27 февраля 2019 г.
^ «Что я могу сказать? | Материалы 18-й Международной конференции по взаимодействию человека и компьютера с мобильными устройствами и сервисами» . дои : 10.1145/2935334.2935386 . S2CID 6246618 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ «Шаблоны преодоления пользователями препятствий в голосовых пользовательских интерфейсах | Материалы конференции CHI 2018 года по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/3173574.3173580 . S2CID 5041672 . Проверено 27 февраля 2019 г.
^ « Играть в PRBLMS» | Материалы конференции CHI 2018 года по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/3173574.3173870 . S2CID 5050837 . Проверено 27 февраля 2019 г.
^ Галицкий, Борис (2019). Разработка корпоративных чат-ботов: изучение лингвистических структур (1-е изд.). Чам, Швейцария: Springer. стр. 13–24. дои : 10.1007/978-3-030-04299-8 . ISBN 978-3-030-04298-1 . S2CID 102486666 .
^ Перл, Кэти (06 декабря 2016 г.). Проектирование голосовых пользовательских интерфейсов: принципы разговорного опыта (1-е изд.). Севастополь, Калифорния: O'Reilly Media. стр. 16–19. ISBN 978-1-491-95541-3 .
^ Мессауди, Мохамед Дхиэддин; Менелас, Боб-Антуан Дж.; Мшейк, Хамид (17 октября 2022 г.). «Обзор вспомогательных навигационных средств и технологий для людей с нарушениями зрения» . Датчики . 22 (20): 7888. Бибкод : 2022Senso..22.7888M . дои : 10.3390/s22207888 . ISSN 1424-8220 . ПМЦ 9606951 . ПМИД 36298237 .
^ «Apple, Google и Amazon могли нарушить вашу конфиденциальность, просматривая команды цифрового помощника» . Удача . 05.08.2019 . Проверено 13 мая 2020 г.
^ Херн, Алекс (11 апреля 2019 г.). «Сотрудники Amazon прослушивают записи клиентов Alexa, говорится в отчете» . Хранитель . Проверено 21 мая 2020 г.
^ Крегер, Джейкоб Леон; Лутц, Отто Ханс-Мартин; Рашке, Филип (2020). «Последствия анализа голоса и речи для конфиденциальности - раскрытие информации путем вывода». Управление конфиденциальностью и идентификацией. Данные для лучшей жизни: искусственный интеллект и конфиденциальность . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 576. стр. 242–258. дои : 10.1007/978-3-030-42504-3_16 . ISBN 978-3-030-42503-6 . ISSN 1868-4238 .

Внешние ссылки

[appliance-1] «Голосовое управление стиральной машиной» . Журнал бытовой техники .

[2] Борзо, Жанетт (8 февраля 2007 г.). «Теперь ты говоришь» . CNN Деньги . Проверено 25 апреля 2012 г.

[3] «Голосовое управление: конец пульта от телевизора?» . Bloomberg.com . Деловая неделя. 9 декабря 2011 года. Архивировано из оригинала 8 декабря 2011 года . Проверено 1 мая 2012 г.

[4] «Встроенная речь Windows Vista» . Windows Виста . Проверено 25 апреля 2012 г.

[5] «Речевая операция в Vista» . Майкрософт.

[6] «Настройка распознавания речи» . Майкрософт.

[Y-7] Перейти обратно: ^а ^б «Физические и двигательные навыки» . Яблоко.

[8] «Компьютер DragonNaturallySpeaking» . Нюанс.

[9] «DragonNaturallySpeaking Mac» . Нюанс.

[v-10] Перейти обратно: ^а ^б «Голосовые действия» .

[11] «Голосовой поиск Google для Android теперь можно «обучить» вашему голосу» . 14 декабря 2010 года . Проверено 24 апреля 2012 г.

[12] «Использование голосовых команд» . Майкрософт . Проверено 24 апреля 2012 г.

[win-13] Перейти обратно: ^а ^б «Использование голосовых команд» . Майкрософт . Проверено 27 апреля 2012 г.

[14] «Siri, iPhone 3GS и 4, iPod 3 и 4 имеют голосовое управление, как и Siri Express, они воспроизводят музыку, приостанавливают музыку, включают режим Suffle, Facetime и функции вызова» . Яблоко . Проверено 27 апреля 2012 г.

[15] «Часто задаваемые вопросы о Сири» . Яблоко.

[16] «Как Amazon Echo превратился из умной колонки в центр вашего дома» . Бизнес-инсайдер .

[C-17] Перейти обратно: ^а ^б ^с ^д «Голос Siri Like Voice» . CNET.

[18] «Портативный GPS с голосом» . CNET.

[Blattner-19] Блаттнер, Мира М.; Гринберг, Роберт М. (1992). «Общение и обучение посредством неречевого звука». Проектирование мультимедийных интерфейсов в образовании . стр. 133–143. дои : 10.1007/978-3-642-58126-7_9 . ISBN 978-3-540-55046-4 .

[Hereford-20] Херефорд, Джеймс; Винн, Уильям (октябрь 1994 г.). «Неречевой звук во взаимодействии человека и компьютера: обзор и рекомендации по проектированию». Журнал образовательных компьютерных исследований . 11 (3): 211–233. doi : 10.2190/mkd9-w05t-yj9y-81nm . ISSN 0735-6331 . S2CID 61510202 .

[dlnext.acm.org-21] Перейти обратно: ^а ^б «Голосовые дополненные манипуляции | Материалы 15-й международной конференции по взаимодействию человека и компьютера с мобильными устройствами и сервисами» . dlnext.acm.org . дои : 10.1145/2493190.2493244 . S2CID 6251400 . Проверено 27 февраля 2019 г.

[22] «Blendie | Материалы 5-й конференции «Проектирование интерактивных систем: процессы, практика, методы и приемы» . dlnext.acm.org . дои : 10.1145/1013115.1013159 . Проверено 27 февраля 2019 г.

[23] «Келли Добсон: Бленди» . web.media.mit.edu . Проверено 27 февраля 2019 г.

[24] «Voicedraw | Материалы 9-й международной конференции ACM SIGACCESS «Компьютеры и доступность» . dlnext.acm.org . дои : 10.1145/1296843.1296850 . S2CID 218338 . Проверено 27 февраля 2019 г.

[:0-25] Перейти обратно: ^а ^б «Руководство по проектированию речевого взаимодействия без помощи рук | Материалы 20-й Международной конференции по взаимодействию человека и компьютера с мобильными устройствами и дополнительными услугами» . dlnext.acm.org . дои : 10.1145/3236112.3236149 . S2CID 52099112 . Проверено 27 февраля 2019 г.

[26] «Проектирование речевых актов | Материалы конференции SIGCHI по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/223904.223952 . S2CID 9313029 . Проверено 27 февраля 2019 г.

[27] «Что я могу сказать? | Материалы 18-й Международной конференции по взаимодействию человека и компьютера с мобильными устройствами и сервисами» . дои : 10.1145/2935334.2935386 . S2CID 6246618 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[28] «Шаблоны преодоления пользователями препятствий в голосовых пользовательских интерфейсах | Материалы конференции CHI 2018 года по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/3173574.3173580 . S2CID 5041672 . Проверено 27 февраля 2019 г.

[29] « Играть в PRBLMS» | Материалы конференции CHI 2018 года по человеческому фактору в вычислительных системах» . dlnext.acm.org . дои : 10.1145/3173574.3173870 . S2CID 5050837 . Проверено 27 февраля 2019 г.

[30] Галицкий, Борис (2019). Разработка корпоративных чат-ботов: изучение лингвистических структур (1-е изд.). Чам, Швейцария: Springer. стр. 13–24. дои : 10.1007/978-3-030-04299-8 . ISBN 978-3-030-04298-1 . S2CID 102486666 .

[31] Перл, Кэти (06 декабря 2016 г.). Проектирование голосовых пользовательских интерфейсов: принципы разговорного опыта (1-е изд.). Севастополь, Калифорния: O'Reilly Media. стр. 16–19. ISBN 978-1-491-95541-3 .

[32] Мессауди, Мохамед Дхиэддин; Менелас, Боб-Антуан Дж.; Мшейк, Хамид (17 октября 2022 г.). «Обзор вспомогательных навигационных средств и технологий для людей с нарушениями зрения» . Датчики . 22 (20): 7888. Бибкод : 2022Senso..22.7888M . дои : 10.3390/s22207888 . ISSN 1424-8220 . ПМЦ 9606951 . ПМИД 36298237 .

[Fortune_2019-33] «Apple, Google и Amazon могли нарушить вашу конфиденциальность, просматривая команды цифрового помощника» . Удача . 05.08.2019 . Проверено 13 мая 2020 г.

[Hern_2019-34] Херн, Алекс (11 апреля 2019 г.). «Сотрудники Amazon прослушивают записи клиентов Alexa, говорится в отчете» . Хранитель . Проверено 21 мая 2020 г.

[KrögerLutz2020-35] Крегер, Джейкоб Леон; Лутц, Отто Ханс-Мартин; Рашке, Филип (2020). «Последствия анализа голоса и речи для конфиденциальности - раскрытие информации путем вывода». Управление конфиденциальностью и идентификацией. Данные для лучшей жизни: искусственный интеллект и конфиденциальность . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 576. стр. 242–258. дои : 10.1007/978-3-030-42504-3_16 . ISBN 978-3-030-42503-6 . ISSN 1868-4238 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

v т и Пользовательские интерфейсы
Natural-language user interfaces	Chatbot Dialogue system Voice user interfaces Conversational user interface Virtual assistant Voice search
Graphical user interfaces	Widgets Zooming user interface
Touch user interfaces	Multi-touch Tangible user interface
3D user interfaces	Augmented and virtual reality Finger tracking Positional tracking
Other user interfaces	Text-based user interface Natural user interface Multimodal user interface

v т и Виртуальные помощники
Active	AliGenie Alexa Alice Bixby Viv Braina Celia Clova Google Assistant Maluuba Siri Voice Mate Watson WolframAlpha Xiaoice
Discontinued	BlackBerry Assistant Cortana Google Now M Microsoft Agent Microsoft Bob Microsoft Voice Command Ms. Dewey Mya Mycroft Office Assistant (Clippy) S Voice Speaktoit Assistant Tafiti Vlingo