Тихий речевой интерфейс
Было предложено объединить эту статью со статьей «Субвокальное распознавание» . ( Обсудить ) Предлагается с марта 2024 г. |
Бесшумный речевой интерфейс — это устройство, позволяющее речевое общение без использования звуков, издаваемых людьми при произнесении ими звуков речи . По существу, это разновидность электронного чтения по губам . Он работает за счет того, что компьютер идентифицирует фонемы , которые произносит человек, из неслуховых источников информации о его речевых движениях . Затем они используются для воссоздания речи с помощью синтеза речи . [1]
Методы ввода
[ редактировать ]Системы бесшумного речевого интерфейса были созданы с использованием ультразвука и оптической камеры, фиксирующей движения языка и губ . [2] Электромагнитные устройства — еще один метод отслеживания движений языка и губ. [3] Выявление речевых движений методом электромиографии речевого артикулятора.мышцы и гортань – это еще одна техника. [4] [5] Другим источником информации являются резонансные сигналы речевого тракта , которые передаются посредством костной проводимости и называются неслышимыми шумами. [6] Они также были созданы как интерфейс мозг-компьютер, использующий активность мозга в моторной коре, полученную от внутрикорковых микроэлектродов . [7]
Использование
[ редактировать ]Такие устройства созданы в качестве вспомогательных средств для тех, кто не может создать звуковую фонацию, необходимую для слышимой речи, например, после ларингэктомии . [8] Другое применение — для общения, когда речь маскируется фоновым шумом или искажается автономным дыхательным аппаратом . Дальнейшее практическое использование - это случаи, когда существует необходимость в бесшумной связи, например, когда требуется конфиденциальность в общественном месте или когда необходима бесшумная передача данных без помощи рук во время военной или охранной операции. [2] [9]
В 2002 году японская компания NTT DoCoMo объявила о создании бесшумного мобильного телефона с использованием электромиографии и визуализации движения губ. Компания заявила, что «толчком к разработке такого телефона послужило избавление общественных мест от шума», добавив, что «ожидается, что технология также поможет людям, которые навсегда потеряли голос». [10] С тех пор была показана возможность использования бесшумных речевых интерфейсов для практического общения. [11]
В 2019 году Арнав Капур , исследователь из Массачусетского технологического института , провел исследование, известное как AlterEgo. Реализация бесшумного речевого интерфейса обеспечивает прямую связь между человеческим мозгом и внешними устройствами посредством стимуляции речевых мышц. Используя нейронные сигналы, связанные с речью и языком, система AlterEgo расшифровывает предполагаемые слова пользователя и переводит их в текст или команды без необходимости использования слышимой речи. [12]
В художественной литературе
[ редактировать ]Декодирование немой речи с помощью компьютера сыграло важную роль в Артура Кларка рассказе Стэнли Кубрика и связанном с ним фильме «Космическая одиссея» . В этом фильме HAL 9000 , компьютер, управляющий космическим кораблем Discovery One , направляющимся к Юпитеру, обнаруживает заговор с целью его деактивации астронавтами миссии Дэйвом Боуменом и Фрэнком Пулом , читая по губам их разговоры. [13]
В Орсона Скотта Карда серии (включая «Игру Эндера ») с искусственным интеллектом можно разговаривать, пока главный герой носит датчик движения на челюсти, что позволяет ему разговаривать с ИИ, не издавая шума. Он также носит ушной имплантат.
См. также
[ редактировать ]- Автоматическое чтение по губам
- Приложения искусственного интеллекта
- Электрогортань
- Список новых технологий
- Очерк искусственного интеллекта
- Субвокальное узнавание
Ссылки
[ редактировать ]- ^ Денби Б., Шульц Т., Хонда К., Хубер Т., Гилберт Дж. М., Брумберг Дж. С. (2010). Тихие речевые интерфейсы. Речевое общение 52: 270–287. doi : 10.1016/j.specom.2009.08.002
- ^ Перейти обратно: а б Хьюбер Т., Бенароя Э.Л., Шолле Г., Денби Б., Дрейфус Г., Стоун М. (2010). Разработка бесшумного речевого интерфейса на основе ультразвуковых и оптических изображений языка и губ. Речевое общение, 52 288–300. doi : 10.1016/j.specom.2009.11.004
- ^ Ван Дж., Самал А. и Грин Младший (2014). Предварительное испытание интерактивного бесшумного речевого интерфейса в реальном времени на основе электромагнитного артикулографа , 5-й семинар ACL/ISCA по обработке речи и языка для ассистивных технологий, Балтимор, Мэриленд, 38-45.
- ^ Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевое общение, 52: 354–366. doi : 10.1016/j.specom.2009.11.003
- ^ Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевое общение, 52: 341-353. doi : 10.1016/j.specom.2009.12.002
- ^ Хирахара Т., Отани М., Симидзу С., Тода Т., Накамура К.,Накадзима Ю., Сикано К. (2010). Улучшение немой речи с помощью речевого тракта, проводимого телом.резонансные сигналы. Речевое общение, 52:301–313. doi : 10.1016/j.specom.2009.12.001
- ^ Брумберг Дж.С., Ньето-Кастанон А., Кеннеди PR, Гюнтер Ф.Х. (2010). Интерфейсы «мозг–компьютер» для речевой коммуникации. Речевое общение 52:367–379. 2010 год doi : 10.1016/j.specom.2010.01.001
- ^ Денг Ю., Патель Р., Хитон Дж.Т., Колби Г., Гилмор Л.Д., Кабрера Дж., Рой Ш., Де Лука С.Дж., Мельцнер Г.С. (2009). Нарушение распознавания речи с использованием акустических сигналов и сигналов сЭМГ . В ИНТЕРСПИЧ-2009, 644-647.
- ^ Денг Ю., Колби Г., Хитон Дж.Т. и Мельцнер Х.Г. С. (2012). Улучшения в обработке сигналов для MUTEСистема распознавания тихой речи на основе sEMG. Конференция военной связи, MILCOM 2012.
- ^ Фитцпатрик М. (2002). Мобильный телефон, читающий по губам, заставляет замолчать крикливых . Новый учёный.
- ^ Ванд М., Шульц Т. (2011). Независимое от сеанса распознавание речи на основе ЭМГ . Материалы 4-й Международной конференции по биотехнологическим системам и обработке сигналов.
- ^ «Обзор проекта ‹ AlterEgo» . Медиалаборатория Массачусетского технологического института . Проверено 20 мая 2024 г.
- ^ Кларк, Артур К. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 .