Jump to content

Тихий речевой интерфейс

Бесшумный речевой интерфейс — это устройство, позволяющее речевое общение без использования звуков, издаваемых людьми при произнесении ими звуков речи . По существу, это разновидность электронного чтения по губам . Он работает за счет того, что компьютер идентифицирует фонемы , которые произносит человек, из неслуховых источников информации о его речевых движениях . Затем они используются для воссоздания речи с помощью синтеза речи . [1]

Методы ввода

[ редактировать ]

Системы бесшумного речевого интерфейса были созданы с использованием ультразвука и оптической камеры, фиксирующей движения языка и губ . [2] Электромагнитные устройства — еще один метод отслеживания движений языка и губ. [3] Выявление речевых движений методом электромиографии речевого артикулятора.мышцы и гортань – это еще одна техника. [4] [5] Другим источником информации являются резонансные сигналы речевого тракта , которые передаются посредством костной проводимости и называются неслышимыми шумами. [6] Они также были созданы как интерфейс мозг-компьютер, использующий активность мозга в моторной коре, полученную от внутрикорковых микроэлектродов . [7]

Использование

[ редактировать ]

Такие устройства созданы в качестве вспомогательных средств для тех, кто не может создать звуковую фонацию, необходимую для слышимой речи, например, после ларингэктомии . [8] Другое применение — для общения, когда речь маскируется фоновым шумом или искажается автономным дыхательным аппаратом . Дальнейшее практическое использование - это случаи, когда существует необходимость в бесшумной связи, например, когда требуется конфиденциальность в общественном месте или когда необходима бесшумная передача данных без помощи рук во время военной или охранной операции. [2] [9]

В 2002 году японская компания NTT DoCoMo объявила о создании бесшумного мобильного телефона с использованием электромиографии и визуализации движения губ. Компания заявила, что «толчком к разработке такого телефона послужило избавление общественных мест от шума», добавив, что «ожидается, что технология также поможет людям, которые навсегда потеряли голос». [10] С тех пор была показана возможность использования бесшумных речевых интерфейсов для практического общения. [11]

В 2019 году Арнав Капур , исследователь из Массачусетского технологического института , провел исследование, известное как AlterEgo. Реализация бесшумного речевого интерфейса обеспечивает прямую связь между человеческим мозгом и внешними устройствами посредством стимуляции речевых мышц. Используя нейронные сигналы, связанные с речью и языком, система AlterEgo расшифровывает предполагаемые слова пользователя и переводит их в текст или команды без необходимости использования слышимой речи. [12]

В художественной литературе

[ редактировать ]

Декодирование немой речи с помощью компьютера сыграло важную роль в Артура Кларка рассказе Стэнли Кубрика и связанном с ним фильме «Космическая одиссея» . В этом фильме HAL 9000 , компьютер, управляющий космическим кораблем Discovery One , направляющимся к Юпитеру, обнаруживает заговор с целью его деактивации астронавтами миссии Дэйвом Боуменом и Фрэнком Пулом , читая по губам их разговоры. [13]

В Орсона Скотта Карда серии (включая «Игру Эндера ») с искусственным интеллектом можно разговаривать, пока главный герой носит датчик движения на челюсти, что позволяет ему разговаривать с ИИ, не издавая шума. Он также носит ушной имплантат.

См. также

[ редактировать ]
  1. ^ Денби Б., Шульц Т., Хонда К., Хубер Т., Гилберт Дж. М., Брумберг Дж. С. (2010). Тихие речевые интерфейсы. Речевое общение 52: 270–287. doi : 10.1016/j.specom.2009.08.002
  2. ^ Перейти обратно: а б Хьюбер Т., Бенароя Э.Л., Шолле Г., Денби Б., Дрейфус Г., Стоун М. (2010). Разработка бесшумного речевого интерфейса на основе ультразвуковых и оптических изображений языка и губ. Речевое общение, 52 288–300. doi : 10.1016/j.specom.2009.11.004
  3. ^ Ван Дж., Самал А. и Грин Младший (2014). Предварительное испытание интерактивного бесшумного речевого интерфейса в реальном времени на основе электромагнитного артикулографа , 5-й семинар ACL/ISCA по обработке речи и языка для ассистивных технологий, Балтимор, Мэриленд, 38-45.
  4. ^ Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевое общение, 52: 354–366. doi : 10.1016/j.specom.2009.11.003
  5. ^ Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевое общение, 52: 341-353. doi : 10.1016/j.specom.2009.12.002
  6. ^ Хирахара Т., Отани М., Симидзу С., Тода Т., Накамура К.,Накадзима Ю., Сикано К. (2010). Улучшение немой речи с помощью речевого тракта, проводимого телом.резонансные сигналы. Речевое общение, 52:301–313. doi : 10.1016/j.specom.2009.12.001
  7. ^ Брумберг Дж.С., Ньето-Кастанон А., Кеннеди PR, Гюнтер Ф.Х. (2010). Интерфейсы «мозг–компьютер» для речевой коммуникации. Речевое общение 52:367–379. 2010 год doi : 10.1016/j.specom.2010.01.001
  8. ^ Денг Ю., Патель Р., Хитон Дж.Т., Колби Г., Гилмор Л.Д., Кабрера Дж., Рой Ш., Де Лука С.Дж., Мельцнер Г.С. (2009). Нарушение распознавания речи с использованием акустических сигналов и сигналов сЭМГ . В ИНТЕРСПИЧ-2009, 644-647.
  9. ^ Денг Ю., Колби Г., Хитон Дж.Т. и Мельцнер Х.Г. С. (2012). Улучшения в обработке сигналов для MUTEСистема распознавания тихой речи на основе sEMG. Конференция военной связи, MILCOM 2012.
  10. ^ Фитцпатрик М. (2002). Мобильный телефон, читающий по губам, заставляет замолчать крикливых . Новый учёный.
  11. ^ Ванд М., Шульц Т. (2011). Независимое от сеанса распознавание речи на основе ЭМГ . Материалы 4-й Международной конференции по биотехнологическим системам и обработке сигналов.
  12. ^ «Обзор проекта ‹ AlterEgo» . Медиалаборатория Массачусетского технологического института . Проверено 20 мая 2024 г.
  13. ^ Кларк, Артур К. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN   0-283-97903-8 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4cd9d403d19221982f1d2f7c773d596b__1719159180
URL1:https://arc.ask3.ru/arc/aa/4c/6b/4cd9d403d19221982f1d2f7c773d596b.html
Заголовок, (Title) документа по адресу, URL1:
Silent speech interface - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)