Jump to content

Разговорная диалоговая система

Система разговорного диалога ( SDS ) — это компьютерная система, способная общаться с человеком с помощью голоса. Он имеет два важных компонента, которых нет в системе письменного текстового диалога : распознаватель речи и модуль преобразования текста в речь (диалоговые системы письменного текста обычно используют другие системы ввода, предоставляемые ОС). Его можно также отличить от речевых систем управления и контроля , которые могут отвечать на запросы, но не пытаются поддерживать непрерывность с течением времени.

Компоненты

[ редактировать ]
  • Автоматический распознаватель речи (ASR) декодирует речь в текст. Распознаватель, специфичный для предметной области, можно настроить для языка, разработанного для данного приложения. «Облачный» распознаватель подойдет для доменов, которые не зависят от очень специфических словарей.
  • Понимание естественного языка превращает распознавание в концептуальную структуру, которая может управлять поведением системы. Некоторые подходы сочетают обработку распознавания и понимания, но считаются менее гибкими, поскольку интерпретация должна быть закодирована в грамматике.
  • Менеджер диалогов управляет пошаговым поведением. Простая диалоговая система может задавать пользователю вопросы, а затем действовать в соответствии с ответами. Такие системы направленного диалога используют для управления древовидную структуру; Системы на основе фреймов (или форм) допускают некоторую инициативу пользователя и учитывают различные стили взаимодействия. Более сложные менеджеры диалога включают в себя механизмы устранения недоразумений и разъяснений.
  • Модуль рассуждения предметной области, или, проще говоря, серверная часть, использует базу знаний для получения информации и помогает формулировать ответы системы. В простых системах это может быть база данных, к которой осуществляется запрос с использованием информации, собранной через диалог. Модуль рассуждения предметной области вместе с менеджером диалогов поддерживают контекст взаимодействия и позволяют системе отражать некоторые разговорные способности человека (например, с помощью анафоры).
  • Генерация ответов аналогична генерации текстовых ответов на естественном языке , но учитывает потребности устного общения. Это может включать использование более простых грамматических конструкций, управление объемом информации в любом выходном высказывании и введение просодических маркеров, чтобы помочь участнику-человеку легче усваивать информацию. Полный проект системы также будет включать элементы лексического взаимодействия , чтобы побудить пользователя-человека отдавать предпочтение определенным способам речи, что, в свою очередь, может улучшить качество распознавания.
  • Синтез текста в речь (TTS) реализует предполагаемое высказывание как речь. В зависимости от приложения TTS может быть основан на объединении предварительно записанного материала, созданного профессионалами в области озвучивания. В более сложных приложениях TTS будет использовать более гибкие методы, позволяющие использовать большие словари и позволяющие разработчику контролировать характер («индивидуальность») системы.

Разновидности систем

[ редактировать ]

Системы разговорного диалога различаются по своей сложности. Системы направленного диалога очень просты и требуют, чтобы разработчик создал граф (обычно дерево), который управляет задачей, но может не соответствовать потребностям пользователя. Системы доступа к информации, обычно основанные на формах, предоставляют пользователям некоторую гибкость (например, в порядке указания ограничений поиска или в использовании дополнительных ограничений), но ограничены в своих возможностях. Диалоговые системы решения проблем могут позволить пользователям-людям участвовать в ряде различных действий, которые могут включать доступ к информации, построение плана и возможное его выполнение.

Некоторые примеры систем включают в себя:

  • Доступ к информации: погода, расписание поездов, котировки акций, справочная помощь.
  • Транзакционные: кредитные карты и банковские запросы; покупки билетов.
  • Техническое обслуживание: техническая поддержка, включая доступ к документации и диагностическое тестирование.
  • Репетиторство: для образования, например, по физике или математике, а также для изучения языка.
  • Развлечения и общение

Пионерами в области диалоговых систем являются такие компании, как AT&T (с ее системой распознавания речи в семидесятые годы) и лаборатории CSELT , которые руководили некоторыми европейскими исследовательскими проектами в восьмидесятые годы (например, SUNDIAL) после окончания проекта DARPA в США.

Область систем разговорного диалога довольно обширна и включает в себя исследования (показанные на научных конференциях, таких как SIGdial и Interspeech ) и крупный промышленный сектор (с собственными встречами, такими как SpeechTek и AVIOS ).


Следующие материалы могут стать хорошим техническим введением:

  • Майкл Ф. МакТир, Технология разговорного диалога
  • Значок открытого доступа Габриэль Сканце, Обработка ошибок в системах разговорного диалога , 2007: глава 2, Системы разговорного диалога .
  • Пирани, Джанкарло, изд. Передовые алгоритмы и архитектуры для понимания речи. Том. 1. Springer Science & Business Media, 2013. ISBN   978-3-540-53402-0
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7e3778b77397e360e0b2e8f64e963f97__1680635460
URL1:https://arc.ask3.ru/arc/aa/7e/97/7e3778b77397e360e0b2e8f64e963f97.html
Заголовок, (Title) документа по адресу, URL1:
Spoken dialog system - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)