Разговорная диалоговая система
Система разговорного диалога ( SDS ) — это компьютерная система, способная общаться с человеком с помощью голоса. Он имеет два важных компонента, которых нет в системе письменного текстового диалога : распознаватель речи и модуль преобразования текста в речь (диалоговые системы письменного текста обычно используют другие системы ввода, предоставляемые ОС). Его можно также отличить от речевых систем управления и контроля , которые могут отвечать на запросы, но не пытаются поддерживать непрерывность с течением времени.
Компоненты
[ редактировать ]- Автоматический распознаватель речи (ASR) декодирует речь в текст. Распознаватель, специфичный для предметной области, можно настроить для языка, разработанного для данного приложения. «Облачный» распознаватель подойдет для доменов, которые не зависят от очень специфических словарей.
- Понимание естественного языка превращает распознавание в концептуальную структуру, которая может управлять поведением системы. Некоторые подходы сочетают обработку распознавания и понимания, но считаются менее гибкими, поскольку интерпретация должна быть закодирована в грамматике.
- Менеджер диалогов управляет пошаговым поведением. Простая диалоговая система может задавать пользователю вопросы, а затем действовать в соответствии с ответами. Такие системы направленного диалога используют для управления древовидную структуру; Системы на основе фреймов (или форм) допускают некоторую инициативу пользователя и учитывают различные стили взаимодействия. Более сложные менеджеры диалога включают в себя механизмы устранения недоразумений и разъяснений.
- Модуль рассуждения предметной области, или, проще говоря, серверная часть, использует базу знаний для получения информации и помогает формулировать ответы системы. В простых системах это может быть база данных, к которой осуществляется запрос с использованием информации, собранной через диалог. Модуль рассуждения предметной области вместе с менеджером диалогов поддерживают контекст взаимодействия и позволяют системе отражать некоторые разговорные способности человека (например, с помощью анафоры).
- Генерация ответов аналогична генерации текстовых ответов на естественном языке , но учитывает потребности устного общения. Это может включать использование более простых грамматических конструкций, управление объемом информации в любом выходном высказывании и введение просодических маркеров, чтобы помочь участнику-человеку легче усваивать информацию. Полный проект системы также будет включать элементы лексического взаимодействия , чтобы побудить пользователя-человека отдавать предпочтение определенным способам речи, что, в свою очередь, может улучшить качество распознавания.
- Синтез текста в речь (TTS) реализует предполагаемое высказывание как речь. В зависимости от приложения TTS может быть основан на объединении предварительно записанного материала, созданного профессионалами в области озвучивания. В более сложных приложениях TTS будет использовать более гибкие методы, позволяющие использовать большие словари и позволяющие разработчику контролировать характер («индивидуальность») системы.
Разновидности систем
[ редактировать ]Системы разговорного диалога различаются по своей сложности. Системы направленного диалога очень просты и требуют, чтобы разработчик создал граф (обычно дерево), который управляет задачей, но может не соответствовать потребностям пользователя. Системы доступа к информации, обычно основанные на формах, предоставляют пользователям некоторую гибкость (например, в порядке указания ограничений поиска или в использовании дополнительных ограничений), но ограничены в своих возможностях. Диалоговые системы решения проблем могут позволить пользователям-людям участвовать в ряде различных действий, которые могут включать доступ к информации, построение плана и возможное его выполнение.
Некоторые примеры систем включают в себя:
- Доступ к информации: погода, расписание поездов, котировки акций, справочная помощь.
- Транзакционные: кредитные карты и банковские запросы; покупки билетов.
- Техническое обслуживание: техническая поддержка, включая доступ к документации и диагностическое тестирование.
- Репетиторство: для образования, например, по физике или математике, а также для изучения языка.
- Развлечения и общение
История
[ редактировать ]Пионерами в области диалоговых систем являются такие компании, как AT&T (с ее системой распознавания речи в семидесятые годы) и лаборатории CSELT , которые руководили некоторыми европейскими исследовательскими проектами в восьмидесятые годы (например, SUNDIAL) после окончания проекта DARPA в США.
Ссылки
[ редактировать ]Область систем разговорного диалога довольно обширна и включает в себя исследования (показанные на научных конференциях, таких как SIGdial и Interspeech ) и крупный промышленный сектор (с собственными встречами, такими как SpeechTek и AVIOS ).
Следующие материалы могут стать хорошим техническим введением:
- Майкл Ф. МакТир, Технология разговорного диалога
- Габриэль Сканце, Обработка ошибок в системах разговорного диалога , 2007: глава 2, Системы разговорного диалога .
- Пирани, Джанкарло, изд. Передовые алгоритмы и архитектуры для понимания речи. Том. 1. Springer Science & Business Media, 2013. ISBN 978-3-540-53402-0