РечьВеб

SpeechWeb — это набор речевых приложений, связанных гиперссылками, к которым удаленный доступ осуществляется речевыми браузерами, работающими на устройствах конечных пользователей. Ссылки активируются посредством голосовых команд.

Идея голосового серфинга в Интернете восходит как минимум к работе Хемфилла и Трифта в 1995 году. ^[1] который разработал систему, в которой HTML- страницы загружались и обрабатывались на клиентских компьютерах, обеспечивая голосовой доступ к содержимому веб-страницы и активацию гиперссылок с помощью голосовых команд.

Также в середине 1990-х годов исследователи из AT&T обсуждали разработку нового языка разметки , который позволил бы получить доступ к Интернету через обычные телефоны. С 1995 по 1999 год AT&T , Lucent , Motorola и IBM разработали свои собственные версии языков телефонной и речевой разметки. Эти компании создали форум VoiceXML и совместно разработали язык голосовой разметки VXML , который был принят комитетом W3C в 2000 году. VXML обычно используется для создания речевых приложений с гиперссылками. ^[2] Страницы VXML включают команды для запроса пользовательского речевого ввода, вызова грамматик распознавания, вывода синтезированного голоса, итерации по блокам кода, вызова локального JavaScript и создания гиперссылок на другие удаленные страницы VXML, загруженные способом, аналогичным связыванию страниц HTML в обычном Интернете. .

Примерно в то же время, когда появился VXML , исследовательская группа из Виндзорского университета в Канаде разрабатывала альтернативный подход, при котором речевые приложения, развернутые в Интернете, могут быть доступны клиентским речевым браузерам, обеспечивающим возможность распознавания речи. , который адаптируется к приложению путем загрузки грамматики распознавания для конкретного приложения с веб-сайта приложения удаленной речи. Ввод, распознаваемый клиентским браузером, отправляется на удаленный сервер, который обрабатывает его и возвращает текстовый результат в браузеры для вывода в виде синтезированного голоса. Термин SpeechWeb использовался в 1999 году. ^[3] для описания набора речевых приложений с гиперссылками в этой архитектуре. Первый браузер SpeechWeb был продемонстрирован на Шестнадцатой национальной конференции AAAI по искусственному интеллекту. ^[4]

Термин «речевая сеть» также использовался с 1990-х годов в другом контексте для описания веб-сети информации о речи, языке и речевой патологии. Кроме того, предполагалось также предоставить место встречи для профессионалов и тех, кто страдает от коммуникативных расстройств. Термин «speechWeb» является товарным знаком компании PipeBeach, которая сейчас принадлежит HP , и относится к программному продукту, который соединяет телефонные сети и обычные веб-серверы.

общедоступно очень мало голосовых приложений В 2005 году было признано, что через Интернет , несмотря на зрелость VXML на тот момент. Также было замечено, что почти все VXML доступные приложения были созданы людьми, работающими в торговле и промышленности. Это резко контрастировало с огромным ростом традиционной сети и огромным участием общественности в разработке обычных веб-страниц всего через несколько лет после разработки HTML . Это наблюдение привело к призыву к созданию общедоступной SpeechWeb. ^[5] который доступен для общественности через существующие веб-браузеры (с речевыми плагинами) и который содержит речевые приложения с гиперссылками, которые создаются и развертываются общественностью способом, аналогичным созданию и развертыванию HTML-страниц в обычной сети. Браузер для SpeechWeb, являющегося общественным достоянием, был продемонстрирован на 16-й Международной конференции по всемирной паутине, проходившей в Банфе, Канада, в 2007 году. ^[6] Браузер представляет собой небольшую страницу X+V , которая выполняется свободно доступной Opera с бесплатным плагином распознавания речи IBM.

Две исследовательские группы разрабатывают программное обеспечение, облегчающее создание и развертывание приложений SpeechWeb неспециалистами:

Исследовательская группа MySpeechWeb в Виндзорском университете разработала документацию и программное обеспечение, облегчающее людям, желающим получать доступ к приложениям SpeechWeb и/или создавать их. Группа также создала прототип общедоступного SpeechWeb, содержащий примеры речевых приложений , доступных через портал.
Исследовательская группа «скелет w3voice» в Лаборатории слуховых медиа Университета Вакаяма в Японии создала программное обеспечение, которое облегчает создание и развертывание речевых приложений для японского языка.

Ссылки

^ Хемфилл, Коннектикут и Thrift, PR « Сёрфинг в Интернете голосом » Материалы третьей Международной конференции по мультимедиа ACM (Сан-Франциско, 1995) , Год: 1995, Страницы: 215–222.
^ Лукас, Б. « VoiceXML для распределенных диалоговых веб-приложений ». Коммун. ACM 43, 9, Год: 2000, Страницы: 53 – 57.
^ Фрост, Р.А. и Читте, С. « Новый подход к обеспечению речевого доступа на естественном языке к большим базам знаний » Proc. PACLING '99, Конференция Тихоокеанской ассоциации компьютерной лингвистики, Университет Ватерлоо, Онтарио, Канада Год: 1999, Страницы: 82–90.
^ Фрост, Р.А. « Речевой интерфейс на естественном языке, полностью построенный как набор исполняемых спецификаций ». Материалы шестнадцатой национальной конференции по искусственному интеллекту и одиннадцатой конференции по инновационным применениям искусственного интеллекта, Орландо, Флорида, США. Год: 1999, Страницы: 908 - 909.
^ Фрост, Р.А. « Призыв к созданию общедоступной SpeechWeb ». Коммун. ACM 48, 11, Год: 2005, Страницы: 45 – 49.
^ Фрост, Р.А., Ма, Х. и Ши, Ю. « Браузер для общедоступной SpeechWeb ». Конференция World Wide Web, Банф, Канада. Год: 2007 г., Страницы: 1307–1308.

Внешние ссылки

MySpeechWeb — исследовательская группа Виндзорского университета.
Видеодемонстрация Public Domain SpeechWeb

[HemphillThrift1995-1] Хемфилл, Коннектикут и Thrift, PR « Сёрфинг в Интернете голосом » Материалы третьей Международной конференции по мультимедиа ACM (Сан-Франциско, 1995) , Год: 1995, Страницы: 215–222.

[Lucas2000-2] Лукас, Б. « VoiceXML для распределенных диалоговых веб-приложений ». Коммун. ACM 43, 9, Год: 2000, Страницы: 53 – 57.

[FrostChitte1999-3] Фрост, Р.А. и Читте, С. « Новый подход к обеспечению речевого доступа на естественном языке к большим базам знаний » Proc. PACLING '99, Конференция Тихоокеанской ассоциации компьютерной лингвистики, Университет Ватерлоо, Онтарио, Канада Год: 1999, Страницы: 82–90.

[Frost1999-4] Фрост, Р.А. « Речевой интерфейс на естественном языке, полностью построенный как набор исполняемых спецификаций ». Материалы шестнадцатой национальной конференции по искусственному интеллекту и одиннадцатой конференции по инновационным применениям искусственного интеллекта, Орландо, Флорида, США. Год: 1999, Страницы: 908 - 909.

[Frost2005-5] Фрост, Р.А. « Призыв к созданию общедоступной SpeechWeb ». Коммун. ACM 48, 11, Год: 2005, Страницы: 45 – 49.

[FrostMaShi2007-6] Фрост, Р.А., Ма, Х. и Ши, Ю. « Браузер для общедоступной SpeechWeb ». Конференция World Wide Web, Банф, Канада. Год: 2007 г., Страницы: 1307–1308.

[1]

[2]

[3]

[4]

[5]

[6]