ЛипНет
Эта статья содержит подробный перефраз несвободного источника, защищенного авторским правом, https://ui.adsabs.harvard.edu/abs/2016arXiv161101599A/abstract ( отчет Copyvios ) . ( февраль 2021 г. ) |
LipNet — глубокая нейронная сеть для визуального распознавания речи . Его создали Яннис Ассаэль, Брендан Шиллингфорд , Шимон Уайтсон и Нандо де Фрейтас , исследователи из Оксфордского университета . Методика, изложенная в статье в ноябре 2016 года, [1] способен декодировать текст по движению рта говорящего. Традиционные подходы к визуальному распознаванию речи разделили проблему на два этапа: проектирование или изучение визуальных функций и прогнозирование. LipNet была первой сквозной моделью чтения по губам на уровне предложений, которая одновременно изучала пространственно-временные визуальные особенности и модель последовательности. [2] Аудиовизуальное распознавание речи имеет огромный практический потенциал и находит применение в улучшенных слуховых аппаратах, медицинских приложениях, таких как улучшение выздоровления и благополучия пациентов в критическом состоянии, [3] и распознавание речи в шумной обстановке, [4] такие как Nvidia . автономные транспортные средства [5]
Ссылки
[ редактировать ]- ^ Ассаэль, Яннис М.; Шиллингфорд, Брендан; Уайтсон, Шимон; де Фрейтас, Нандо (16 декабря 2016 г.). «LipNet: сквозное чтение по губам на уровне предложений». arXiv : 1611.01599 [ cs.LG ].
- ^ «ИИ, который читает по губам лучше, чем люди » . Новости Би-би-си . 8 ноября 2016 г.
- ^ «Домашний Элементор» . Лиопа .
- ^ Винсент, Джеймс (7 ноября 2016 г.). «Может ли глубокое обучение помочь научиться читать по губам?» . Грань .
- ^ Квач, Катянна. «Раскрыто: как ИИ «водителя на заднем сиденье» от Nvidia научился читать по губам» . www.theregister.com .