ГолосXML
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2017 г. ) |
VoiceXML ( VXML ) — это стандарт цифровых документов, определяющий интерактивные медиа и голосовые диалоги между людьми и компьютерами. Он используется для разработки приложений аудио и голосового ответа, таких как банковские системы и автоматизированные порталы обслуживания клиентов. Приложения VoiceXML разрабатываются и развертываются аналогично тому, как веб-браузер интерпретирует и визуально отображает язык гипертекстовой разметки (HTML), который он получает от веб-сервера . Документы VoiceXML интерпретируются голосовым браузером , и в обычных архитектурах развертывания пользователи взаимодействуют с голосовыми браузерами через коммутируемую телефонную сеть общего пользования (PSTN).
Формат документа VoiceXML основан на расширяемом языке разметки (XML). Это стандарт, разработанный Консорциумом Всемирной паутины (W3C).
Использование
[ редактировать ]Приложения VoiceXML широко используются во многих отраслях и сегментах торговли. Эти приложения включают запрос заказа, отслеживание посылок, маршруты проезда, экстренное уведомление, пробуждение, отслеживание рейсов, голосовой доступ к электронной почте, управление взаимоотношениями с клиентами, пополнение рецептов, аудиожурналы новостей, голосовой набор номера, информацию о недвижимости и национальные справочные приложения. . [ нужна ссылка ]
VoiceXML имеет теги, которые предписывают голосовому браузеру обеспечивать синтез речи , автоматическое распознавание речи , управление диалогами и воспроизведение звука. Ниже приведен пример документа VoiceXML:
<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
<form>
<block>
<prompt>
Hello world!
</prompt>
</block>
</form>
</vxml>
При интерпретации интерпретатором VoiceXML это выведет «Hello world» с синтезированной речью.
Обычно HTTP используется в качестве транспортного протокола для получения страниц VoiceXML. Некоторые приложения могут использовать статические страницы VoiceXML, в то время как другие полагаются на динамическое создание страниц VoiceXML с использованием сервера приложений, такого как Tomcat , Weblogic , IIS или WebSphere .
Исторически сложилось так, что поставщики платформы VoiceXML реализовали стандарт по-разному и добавили собственные функции. Но стандарт VoiceXML 2.0, принятый в качестве рекомендации W3C 16 марта 2004 г., прояснил большинство различий. Форум VoiceXML, отраслевая группа, продвигающая использование стандарта, обеспечивает процесс тестирования на соответствие , который сертифицирует реализации поставщиков как соответствующие.
История
[ редактировать ]Корпорации AT&T , IBM , Lucent и Motorola сформировали Форум VoiceXML в марте 1999 года с целью разработки стандартного языка разметки для описания голосовых диалогов. К сентябрю 1999 года Форум выпустил VoiceXML 0.9 для комментариев участников, а в марте 2000 года они опубликовали VoiceXML 1.0. Вскоре после этого Форум передал контроль над стандартом W3C. [1] W3C выпустил несколько промежуточных версий VoiceXML 2.0, которые достигли финальной стадии «Рекомендации» в марте 2004 года. [2]
В VoiceXML 2.1 к VoiceXML 2.0 добавлен относительно небольшой набор дополнительных функций, основанный на отзывах о реализациях стандарта 2.0. Он обратно совместим с VoiceXML 2.0 и получил статус рекомендации W3C в июне 2007 года. [3]
Будущие версии стандарта
[ редактировать ]VoiceXML 3.0 должен был стать следующим основным выпуском VoiceXML с новыми основными функциями. Однако после роспуска форума VoiceXML в мае 2022 г. [4] разработка нового стандарта была прекращена.
Реализации
[ редактировать ]По состоянию на декабрь 2022 года предлагается несколько реализаций платформы VoiceXML 2.0/2.1.
- Альвария
- Avaya (Портал Avaya Experience)
- OpenVXI
- Циско
- Genesys_(компания)
- Нюанс_коммуникации
- Фонологии
- Сливовый голос
- Телесофт Технологии
Сопутствующие стандарты
[ редактировать ]Структура речевого интерфейса W3C также определяет другие стандарты, тесно связанные с VoiceXML.
СРГС и СИСР
[ редактировать ]Спецификация грамматики распознавания речи (SRGS) используется, чтобы сообщить распознавателю речи, какие шаблоны предложений он должен ожидать услышать: эти шаблоны называются грамматиками. Как только распознаватель речи определит наиболее вероятное услышанное предложение, ему необходимо извлечь семантическое значение из этого предложения и вернуть его интерпретатору VoiceXML. Эта семантическая интерпретация определяется стандартом семантической интерпретации для распознавания речи (SISR). SISR используется внутри SRGS для указания семантических результатов, связанных с грамматиками, т. е. набора назначений ECMAScript, которые создают семантическую структуру, возвращаемую распознавателем речи.
ССМЛ
[ редактировать ]Язык разметки синтеза речи (SSML) используется для украшения текстовых подсказок информацией о том, как лучше всего отображать их в синтетической речи, например, какой голос синтезатора речи использовать или когда говорить громче или тише.
Пожалуйста
[ редактировать ]Спецификация лексики произношения (PLS) используется для определения того, как произносятся слова. Сгенерированная информация о произношении предназначена для использования как распознавателями речи, так и синтезаторами речи в приложениях голосового просмотра.
CCXML
[ редактировать ]Расширяемый язык разметки управления вызовами (CCXML) является дополнительным стандартом W3C. Интерпретатор CCXML используется на некоторых платформах VoiceXML для обработки первоначальной настройки вызова между вызывающим абонентом и голосовым браузером, а также для предоставления услуг телефонии, таких как перевод вызова и отключение от голосового браузера. CCXML также можно использовать в контекстах, отличных от VoiceXML.
MSML, MSCML, MediaCTRL
[ редактировать ]В приложениях медиасервера часто необходимо, чтобы несколько ветвей вызова взаимодействовали друг с другом, например, в многосторонней конференции. В VoiceXML для этого приложения были выявлены некоторые недостатки, поэтому компании разработали специальные языки сценариев для работы в этой среде. Язык разметки медиасервера (MSML) был решением Convedia, а язык разметки управления медиасервером (MSCML) — решением Snowshore. Snowshore теперь принадлежит Dialogic, а Convedia теперь принадлежит Radisys. Эти языки также содержат «перехватчики», позволяющие внешним сценариям (например, VoiceXML) выполняться на участках вызова, где IVR требуются функции .
Существовала рабочая группа IETF под названием mediactrl («управление медиа»), которая работала над преемником этих систем сценариев, который, как мы надеемся, превратится в открытый и широко принятый стандарт. [5] Рабочая группа СМИ завершила работу в 2013 году. [6]
См. также
[ редактировать ]- ECMAScript — язык сценариев, используемый в VoiceXML.
- OpenVXI — библиотека интерпретатора VoiceXML с открытым исходным кодом. [7]
- SCXML — XML-диаграмма состояний
Ссылки
[ редактировать ]- ^ «Введение – VoiceXML» . Voicexml.org . Проверено 23 февраля 2017 г.
- ^ Шварц, Ефрем (17 марта 2004 г.). «W3C рекомендует VoiceXML 2.0» . Инфомир . Проверено 23 февраля 2017 г.
- ^ «Расширяемый язык разметки голоса (VoiceXML) 2.1» . W3.org . Проверено 23 февраля 2017 г.
- ^ «Форум VoiceXML закрывается после успешного завершения своей миссии» . voicexml.org . Проверено 31 мая 2022 г.
- ^ «Управление медиасервером (mediatrl)» . Архивировано из оригинала 30 января 2009 г. Проверено 18 января 2009 г.
- ^ «Управление медиасервером (Mediactrl) —» .
- ^ «ОпенВСИ» . voip-info.org . 31 июля 2018 г. Проверено 3 июня 2019 г.
Внешние ссылки
[ редактировать ]- Рабочая группа W3C по голосовому браузеру , Официальные стандарты VoiceXML
- Форум VoiceXML , Владелец товарного знака VoiceXML
- VoiceXML в Керли
- Учебные пособия по голосовому XML