Тихий речевой интерфейс

Бесшумный речевой интерфейс — это устройство, позволяющее речевое общение без использования звуков, издаваемых людьми при произнесении ими звуков речи . По существу, это разновидность электронного чтения по губам . Он работает за счет того, что компьютер идентифицирует фонемы , которые произносит человек, из неслуховых источников информации о его речевых движениях . Затем они используются для воссоздания речи с помощью синтеза речи . ^[1]

Методы ввода

Системы бесшумного речевого интерфейса были созданы с использованием ультразвука и оптической камеры, фиксирующей движения языка и губ . ^[2] Электромагнитные устройства — еще один метод отслеживания движений языка и губ. ^[3] Выявление речевых движений методом электромиографии речевого артикулятора.мышцы и гортань – это еще одна техника. ^[4]^[5] Другим источником информации являются резонансные сигналы речевого тракта , которые передаются посредством костной проводимости и называются неслышимыми шумами. ^[6] Они также были созданы как интерфейс мозг-компьютер, использующий активность мозга в моторной коре, полученную от внутрикорковых микроэлектродов . ^[7]

Использование

Такие устройства созданы в качестве вспомогательных средств для тех, кто не может создать звуковую фонацию, необходимую для слышимой речи, например, после ларингэктомии . ^[8] Другое применение — для общения, когда речь маскируется фоновым шумом или искажается автономным дыхательным аппаратом . Дальнейшее практическое использование - это случаи, когда существует необходимость в бесшумной связи, например, когда требуется конфиденциальность в общественном месте или когда необходима бесшумная передача данных без помощи рук во время военной или охранной операции. ^[2]^[9]

В 2002 году японская компания NTT DoCoMo объявила о создании бесшумного мобильного телефона с использованием электромиографии и визуализации движения губ. Компания заявила, что «толчком к разработке такого телефона послужило избавление общественных мест от шума», добавив, что «ожидается, что технология также поможет людям, которые навсегда потеряли голос». ^[10] С тех пор была показана возможность использования бесшумных речевых интерфейсов для практического общения. ^[11]

В 2019 году Арнав Капур , исследователь из Массачусетского технологического института , провел исследование, известное как AlterEgo. Реализация бесшумного речевого интерфейса обеспечивает прямую связь между человеческим мозгом и внешними устройствами посредством стимуляции речевых мышц. Используя нейронные сигналы, связанные с речью и языком, система AlterEgo расшифровывает предполагаемые слова пользователя и переводит их в текст или команды без необходимости использования слышимой речи. ^[12]

В художественной литературе

Декодирование немой речи с помощью компьютера сыграло важную роль в Артура Кларка рассказе Стэнли Кубрика и связанном с ним фильме «Космическая одиссея» . В этом фильме HAL 9000 , компьютер, управляющий космическим кораблем Discovery One , направляющимся к Юпитеру, обнаруживает заговор с целью его деактивации астронавтами миссии Дэйвом Боуменом и Фрэнком Пулом , читая по губам их разговоры. ^[13]

В Орсона Скотта Карда серии (включая «Игру Эндера ») с искусственным интеллектом можно разговаривать, пока главный герой носит датчик движения на челюсти, что позволяет ему разговаривать с ИИ, не издавая шума. Он также носит ушной имплантат.

См. также

Ссылки

^ Денби Б., Шульц Т., Хонда К., Хубер Т., Гилберт Дж. М., Брумберг Дж. С. (2010). Тихие речевые интерфейсы. Речевое общение 52: 270–287. doi : 10.1016/j.specom.2009.08.002
^ Перейти обратно: ^а ^б Хьюбер Т., Бенароя Э.Л., Шолле Г., Денби Б., Дрейфус Г., Стоун М. (2010). Разработка бесшумного речевого интерфейса на основе ультразвуковых и оптических изображений языка и губ. Речевое общение, 52 288–300. doi : 10.1016/j.specom.2009.11.004
^ Ван Дж., Самал А. и Грин Младший (2014). Предварительное испытание интерактивного бесшумного речевого интерфейса в реальном времени на основе электромагнитного артикулографа , 5-й семинар ACL/ISCA по обработке речи и языка для ассистивных технологий, Балтимор, Мэриленд, 38-45.
^ Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевое общение, 52: 354–366. doi : 10.1016/j.specom.2009.11.003
^ Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевое общение, 52: 341-353. doi : 10.1016/j.specom.2009.12.002
^ Хирахара Т., Отани М., Симидзу С., Тода Т., Накамура К.,Накадзима Ю., Сикано К. (2010). Улучшение немой речи с помощью речевого тракта, проводимого телом.резонансные сигналы. Речевое общение, 52:301–313. doi : 10.1016/j.specom.2009.12.001
^ Брумберг Дж.С., Ньето-Кастанон А., Кеннеди PR, Гюнтер Ф.Х. (2010). Интерфейсы «мозг–компьютер» для речевой коммуникации. Речевое общение 52:367–379. 2010 год doi : 10.1016/j.specom.2010.01.001
^ Денг Ю., Патель Р., Хитон Дж.Т., Колби Г., Гилмор Л.Д., Кабрера Дж., Рой Ш., Де Лука С.Дж., Мельцнер Г.С. (2009). Нарушение распознавания речи с использованием акустических сигналов и сигналов сЭМГ . В ИНТЕРСПИЧ-2009, 644-647.
^ Денг Ю., Колби Г., Хитон Дж.Т. и Мельцнер Х.Г. С. (2012). Улучшения в обработке сигналов для MUTEСистема распознавания тихой речи на основе sEMG. Конференция военной связи, MILCOM 2012.
^ Фитцпатрик М. (2002). Мобильный телефон, читающий по губам, заставляет замолчать крикливых . Новый учёный.
^ Ванд М., Шульц Т. (2011). Независимое от сеанса распознавание речи на основе ЭМГ . Материалы 4-й Международной конференции по биотехнологическим системам и обработке сигналов.
^ «Обзор проекта ‹ AlterEgo» . Медиалаборатория Массачусетского технологического института . Проверено 20 мая 2024 г.
^ Кларк, Артур К. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 .

[1] Денби Б., Шульц Т., Хонда К., Хубер Т., Гилберт Дж. М., Брумберг Дж. С. (2010). Тихие речевые интерфейсы. Речевое общение 52: 270–287. doi : 10.1016/j.specom.2009.08.002

[Hueber-2] Перейти обратно: ^а ^б Хьюбер Т., Бенароя Э.Л., Шолле Г., Денби Б., Дрейфус Г., Стоун М. (2010). Разработка бесшумного речевого интерфейса на основе ультразвуковых и оптических изображений языка и губ. Речевое общение, 52 288–300. doi : 10.1016/j.specom.2009.11.004

[3] Ван Дж., Самал А. и Грин Младший (2014). Предварительное испытание интерактивного бесшумного речевого интерфейса в реальном времени на основе электромагнитного артикулографа , 5-й семинар ACL/ISCA по обработке речи и языка для ассистивных технологий, Балтимор, Мэриленд, 38-45.

[4] Йоргенсен С., Душан С. (2010). Речевые интерфейсы на основе поверхностной электромиографии. Речевое общение, 52: 354–366. doi : 10.1016/j.specom.2009.11.003

[5] Шульц Т., Ванд М. (2010). Моделирование коартикуляции при распознавании непрерывной речи на основе ЭМГ. Речевое общение, 52: 341-353. doi : 10.1016/j.specom.2009.12.002

[6] Хирахара Т., Отани М., Симидзу С., Тода Т., Накамура К.,Накадзима Ю., Сикано К. (2010). Улучшение немой речи с помощью речевого тракта, проводимого телом.резонансные сигналы. Речевое общение, 52:301–313. doi : 10.1016/j.specom.2009.12.001

[7] Брумберг Дж.С., Ньето-Кастанон А., Кеннеди PR, Гюнтер Ф.Х. (2010). Интерфейсы «мозг–компьютер» для речевой коммуникации. Речевое общение 52:367–379. 2010 год doi : 10.1016/j.specom.2010.01.001

[Deng-8] Денг Ю., Патель Р., Хитон Дж.Т., Колби Г., Гилмор Л.Д., Кабрера Дж., Рой Ш., Де Лука С.Дж., Мельцнер Г.С. (2009). Нарушение распознавания речи с использованием акустических сигналов и сигналов сЭМГ . В ИНТЕРСПИЧ-2009, 644-647.

[Deng2-9] Денг Ю., Колби Г., Хитон Дж.Т. и Мельцнер Х.Г. С. (2012). Улучшения в обработке сигналов для MUTEСистема распознавания тихой речи на основе sEMG. Конференция военной связи, MILCOM 2012.

[10] Фитцпатрик М. (2002). Мобильный телефон, читающий по губам, заставляет замолчать крикливых . Новый учёный.

[11] Ванд М., Шульц Т. (2011). Независимое от сеанса распознавание речи на основе ЭМГ . Материалы 4-й Международной конференции по биотехнологическим системам и обработке сигналов.

[12] «Обзор проекта ‹ AlterEgo» . Медиалаборатория Массачусетского технологического института . Проверено 20 мая 2024 г.

[13] Кларк, Артур К. (1972). Затерянные миры 2001 года. Лондон: Сиджвик и Джексон. ISBN 0-283-97903-8 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]