РечьВеб
SpeechWeb — это набор речевых приложений, связанных гиперссылками, к которым удаленный доступ осуществляется речевыми браузерами, работающими на устройствах конечных пользователей. Ссылки активируются посредством голосовых команд.
Идея голосового серфинга в Интернете восходит как минимум к работе Хемфилла и Трифта в 1995 году. [1] который разработал систему, в которой HTML- страницы загружались и обрабатывались на клиентских компьютерах, обеспечивая голосовой доступ к содержимому веб-страницы и активацию гиперссылок с помощью голосовых команд.
Также в середине 1990-х годов исследователи из AT&T обсуждали разработку нового языка разметки , который позволил бы получить доступ к Интернету через обычные телефоны. С 1995 по 1999 год AT&T , Lucent , Motorola и IBM разработали свои собственные версии языков телефонной и речевой разметки. Эти компании создали форум VoiceXML и совместно разработали язык голосовой разметки VXML , который был принят комитетом W3C в 2000 году. VXML обычно используется для создания речевых приложений с гиперссылками. [2] Страницы VXML включают команды для запроса пользовательского речевого ввода, вызова грамматик распознавания, вывода синтезированного голоса, итерации по блокам кода, вызова локального JavaScript и создания гиперссылок на другие удаленные страницы VXML, загруженные способом, аналогичным связыванию страниц HTML в обычном Интернете. .
Примерно в то же время, когда появился VXML , исследовательская группа из Виндзорского университета в Канаде разрабатывала альтернативный подход, при котором речевые приложения, развернутые в Интернете, могут быть доступны клиентским речевым браузерам, обеспечивающим возможность распознавания речи. , который адаптируется к приложению путем загрузки грамматики распознавания для конкретного приложения с веб-сайта приложения удаленной речи. Ввод, распознаваемый клиентским браузером, отправляется на удаленный сервер, который обрабатывает его и возвращает текстовый результат в браузеры для вывода в виде синтезированного голоса. Термин SpeechWeb использовался в 1999 году. [3] для описания набора речевых приложений с гиперссылками в этой архитектуре. Первый браузер SpeechWeb был продемонстрирован на Шестнадцатой национальной конференции AAAI по искусственному интеллекту. [4]
Термин «речевая сеть» также использовался с 1990-х годов в другом контексте для описания веб-сети информации о речи, языке и речевой патологии. Кроме того, предполагалось также предоставить место встречи для профессионалов и тех, кто страдает от коммуникативных расстройств. Термин «speechWeb» является товарным знаком компании PipeBeach, которая сейчас принадлежит HP , и относится к программному продукту, который соединяет телефонные сети и обычные веб-серверы.
общедоступно очень мало голосовых приложений В 2005 году было признано, что через Интернет , несмотря на зрелость VXML на тот момент. Также было замечено, что почти все VXML доступные приложения были созданы людьми, работающими в торговле и промышленности. Это резко контрастировало с огромным ростом традиционной сети и огромным участием общественности в разработке обычных веб-страниц всего через несколько лет после разработки HTML . Это наблюдение привело к призыву к созданию общедоступной SpeechWeb. [5] который доступен для общественности через существующие веб-браузеры (с речевыми плагинами) и который содержит речевые приложения с гиперссылками, которые создаются и развертываются общественностью способом, аналогичным созданию и развертыванию HTML-страниц в обычной сети. Браузер для SpeechWeb, являющегося общественным достоянием, был продемонстрирован на 16-й Международной конференции по всемирной паутине, проходившей в Банфе, Канада, в 2007 году. [6] Браузер представляет собой небольшую страницу X+V , которая выполняется свободно доступной Opera с бесплатным плагином распознавания речи IBM.
Две исследовательские группы разрабатывают программное обеспечение, облегчающее создание и развертывание приложений SpeechWeb неспециалистами:
- Исследовательская группа MySpeechWeb в Виндзорском университете разработала документацию и программное обеспечение, облегчающее людям, желающим получать доступ к приложениям SpeechWeb и/или создавать их. Группа также создала прототип общедоступного SpeechWeb, содержащий примеры речевых приложений , доступных через портал.
- Исследовательская группа «скелет w3voice» в Лаборатории слуховых медиа Университета Вакаяма в Японии создала программное обеспечение, которое облегчает создание и развертывание речевых приложений для японского языка.
Ссылки
[ редактировать ]- ^ Хемфилл, Коннектикут и Thrift, PR « Сёрфинг в Интернете голосом » Материалы третьей Международной конференции по мультимедиа ACM (Сан-Франциско, 1995) , Год: 1995, Страницы: 215–222.
- ^ Лукас, Б. « VoiceXML для распределенных диалоговых веб-приложений ». Коммун. ACM 43, 9, Год: 2000, Страницы: 53 – 57.
- ^ Фрост, Р.А. и Читте, С. « Новый подход к обеспечению речевого доступа на естественном языке к большим базам знаний » Proc. PACLING '99, Конференция Тихоокеанской ассоциации компьютерной лингвистики, Университет Ватерлоо, Онтарио, Канада Год: 1999, Страницы: 82–90.
- ^ Фрост, Р.А. « Речевой интерфейс на естественном языке, полностью построенный как набор исполняемых спецификаций ». Материалы шестнадцатой национальной конференции по искусственному интеллекту и одиннадцатой конференции по инновационным применениям искусственного интеллекта, Орландо, Флорида, США. Год: 1999, Страницы: 908 - 909.
- ^ Фрост, Р.А. « Призыв к созданию общедоступной SpeechWeb ». Коммун. ACM 48, 11, Год: 2005, Страницы: 45 – 49.
- ^ Фрост, Р.А., Ма, Х. и Ши, Ю. « Браузер для общедоступной SpeechWeb ». Конференция World Wide Web, Банф, Канада. Год: 2007 г., Страницы: 1307–1308.
Внешние ссылки
[ редактировать ]- MySpeechWeb — исследовательская группа Виндзорского университета.
- Видеодемонстрация Public Domain SpeechWeb