Jump to content

Перцептивная 3D-локализация звука

Перцептивная 3D-локализация звука — это применение знаний о слуховой системе человека для разработки 3D-локализации звука технологии .

Мотивация и приложения

[ редактировать ]

Люди-слушатели объединяют информацию из двух ушей, чтобы локализовать и разделить источники звука, исходящие из разных мест, в процессе, называемом бинауральным слухом. Мощные методы обработки сигналов, обнаруженные в нейронных системах и мозге людей и других животных, являются гибкими, адаптируемыми к окружающей среде, [ 1 ] и происходят быстро и, казалось бы, без усилий. [ 2 ] Эмуляция механизмов бинаурального слуха может повысить точность распознавания и разделение сигналов в DSP , особенно в шумной среде. алгоритмах [ 3 ] Более того, понимая и используя биологические механизмы локализации звука, виртуальные звуковые сцены можно визуализировать с помощью более релевантных для восприятия методов, что позволяет слушателям точно воспринимать места звуковых событий. [ 4 ] Один из способов получить локализацию звука на основе восприятия — использовать редкие аппроксимации антропометрических особенностей. Перцептивная локализация звука может использоваться для улучшения и дополнения возможностей роботизированной навигации и распознавания окружающей среды. [ 1 ] Кроме того, он также используется для создания виртуальных слуховых пространств, что широко применяется в слуховых аппаратах.

Постановка задачи и основные понятия

[ редактировать ]

Хотя взаимосвязь между человеческим восприятием звука и различными атрибутами звукового поля еще недостаточно изучена, [ 2 ] Алгоритмы DSP для локализации звука могут использовать несколько механизмов, обнаруженных в нейронных системах, в том числе межушную разницу во времени (ITD, разница во времени прибытия звука между двумя местами), межушную разницу в интенсивности (IID, разница в интенсивности звука). звук между двумя местами), искусственные ушные раковины , эффект приоритета и передаточные функции, связанные с головой (HRTF). При локализации трехмерного звука в пространственной области можно учитывать, что входящий звуковой сигнал может отражаться, преломляться и рассеиваться верхней частью туловища человека, состоящей из плеч, головы и ушных раковин . Локализация также зависит от направления источника звука. [ 5 ]

HATS: Симулятор головы и туловища

[ редактировать ]
Изображение симулятора головы и туловища, адаптированное из [ 6 ]

Симулятор головы и туловища Брюля и Кьера (HATS) — это прототип манекена со встроенными симуляторами ушей и рта, обеспечивающий реалистичное воспроизведение акустических свойств головы и туловища среднего взрослого человека. Он предназначен для использования при электроакустических испытаниях, например, гарнитур, устройств для аудиоконференций, микрофонов, наушников и слуховых аппаратов. На этой структурной модели основаны различные существующие подходы. [ 6 ]

Существующие подходы

[ редактировать ]

Отслеживание на основе частиц

[ редактировать ]

Очень важно иметь возможность анализировать расстояние и интенсивность различных источников в пространственной области. Мы можем отслеживать каждый такой источник звука, используя вероятностную временную интеграцию на основе данных, полученных с помощью микрофонной решетки и трекера с фильтрацией частиц. Используя этот подход, функция плотности вероятности (PDF), представляющая местоположение каждого источника, представляется как набор частиц, которым присваиваются разные веса (вероятности). Выбор фильтрации частиц вместо фильтрации Калмана дополнительно оправдан негауссовскими вероятностями, возникающими из-за ложных обнаружений и множественных источников. [ 7 ]

ITD, ILD и IPD

[ редактировать ]

Согласно теории дуплекса, ИТД вносят больший вклад в локализацию звуков низкой частоты (ниже 1 кГц), [ 4 ] в то время как ИЛД используются для локализации высокочастотного звука. Эти подходы могут быть применены для выборочной реконструкции пространственных сигналов, где спектро-временные компоненты, в которых, как полагают, доминирует желаемый источник звука, идентифицируются и изолируются с помощью кратковременного преобразования Фурье (STFT). Современные системы обычно вычисляют STFT входящего сигнала от двух или более микрофонов и оценивают ITD или каждую спектрально-временную составляющую путем сравнения фаз STFT. Преимущество этого подхода заключается в том, что его можно обобщить на более чем два микрофона, что может повысить точность в трех измерениях и устранить неоднозначность локализации спереди-назад, которая возникает при использовании только двух ушей или микрофонов. [ 1 ] Еще одним преимуществом является то, что ITD является относительно надежным и его легко получить без биомиметических инструментов, таких как пустышки головы и искусственные ушные раковины, хотя их все же можно использовать. используется для усиления разницы амплитуд. [ 1 ] Фазовая характеристика HRTF в основном линейна, и слушатели нечувствительны к деталям интераурального фазового спектра, пока сохраняется межушная временная задержка (ITD) объединенной низкочастотной части сигнала.

Межушная разница уровней (ILD) представляет собой разницу в уровне звукового давления, достигающего двух ушей. Они обеспечивают важные сигналы для локализации высокочастотных звуков в пространстве, а популяции нейронов, чувствительных к ИЗЛ, обнаруживаются почти на всех синаптических уровнях — от ствола мозга до коры. Эти клетки преимущественно возбуждаются при стимуляции одного уха и преимущественно ингибируются при стимуляции другого уха, так что величина их ответа в значительной степени определяется интенсивностью в двух ушах. Это порождает концепцию резонансного демпфирования. [ 8 ] Межушная разница уровней (ILD) лучше всего подходит для высокочастотных звуков, поскольку низкочастотные звуки не сильно заглушаются головой. ILD (также известный как межушная разница интенсивности) возникает, когда источник звука не центрирован, голова слушателя частично затеняет ухо, противоположное источнику, уменьшая интенсивность звука в этом ухе (особенно на более высоких частотах). Ушная раковина фильтрует звук в зависимости от направления. Это особенно полезно для определения того, исходит ли звук сверху, снизу, спереди или сзади.

Межушные различия во времени и уровне (ITD, ILD) играют роль в восприятии азимута , но не могут объяснить вертикальную локализацию. Согласно теории дуплекса, ИТД вносят больший вклад в локализацию звуков низкой частоты (ниже 1 кГц), тогда как ИЛД используются в локализации звука высокой частоты. [ 8 ] ILD возникает из-за того, что звук, исходящий от источника, расположенного с одной стороны головы, будет иметь более высокую интенсивность или громче в ухе, ближайшем к источнику звука. Таким образом, можно создать иллюзию источника звука, исходящего с одной стороны головы, просто регулируя относительный уровень звуков, которые подаются на два отдельных динамика или наушника. Это основа широко используемого управления панорамированием.

Межушная разность фаз (IPD) относится к разнице фаз волны, достигающей каждого уха, и зависит от частоты звуковой волны и межушной разницы во времени (ITD). [ 8 ]

После того, как мозг проанализировал IPD, ITD и ILD, местоположение источника звука можно определить с относительной точностью.

Эффект приоритета

[ редактировать ]

Эффект предшествования — это наблюдение, что в локализации звука могут доминировать компоненты сложного звука, которые появляются первыми. Позволяя компонентам прямого поля (тех, которые приходят непосредственно от источника звука) доминировать, одновременно подавляя влияние задержанных отраженных компонентов с других направлений, эффект предшествования может улучшить точность определения местоположения воспринимаемого звука в реверберирующей среде. Обработка эффекта предшествования включает в себя усиление переднего фронта звуковых огибающих сигнала после разделения его на полосы частот посредством полосовой фильтрации. Этот подход можно реализовать как на монофоническом, так и на бинауральном уровне, и в обоих случаях он повышает точность в реверберирующей среде. Однако в безэховой среде преимущества использования эффекта приоритета могут оказаться бесполезными.

Тело человека-слушателя препятствует поступающим звуковым волнам, вызывая линейную фильтрацию звукового сигнала из-за помех со стороны головы, ушей и тела. Люди используют динамические сигналы для усиления локализации. Они возникают в результате активных, иногда неосознанных движений слушателя, изменяющих относительное положение источника. Сообщается, что путаница вперед/назад, которая часто встречается при статических тестах на прослушивание, исчезает, когда слушателям разрешается слегка повернуть голову, чтобы помочь им в локализации. Однако если звуковая сцена подается через наушники без компенсации движения головы, сцена не меняется вместе с движением пользователя, а динамические сигналы отсутствуют. [ 9 ]

Функции передачи, связанные с головой, содержат все дескрипторы сигналов локализации, таких как ITD и IID, а также монофонические сигналы. Каждый HRTF уникальным образом представляет собой передачу звука из определенной позиции в трехмерном пространстве к ушам слушателя. Процесс декодирования, выполняемый слуховой системой, можно имитировать с помощью искусственной установки, состоящей из двух микрофонов, двух искусственных ушей и базы данных HRTF. [ 10 ] Чтобы определить положение источника звука в трехмерном пространстве, входные сигналы уха свертываются с обратными значениями всех возможных пар HRTF, причем правильное обратное преобразование максимизирует взаимную корреляцию между свернутыми правым и левым сигналами. В случае одновременного использования нескольких источников звука передачу звука от источника к ушам можно считать множественным входом и множественным выходом . Здесь HRTF, с помощью которых исходные сигналы были отфильтрованы на пути к микрофонам, можно найти с помощью таких методов, как сверточное слепое разделение источников, преимуществом которого является эффективная реализация в системах реального времени. В целом, эти подходы с использованием HRTF могут быть хорошо оптимизированы для локализации нескольких движущихся источников звука. [ 10 ] Среднестатистический человек обладает замечательной способностью находить источник звука с точностью более 5 точность как по азимуту, так и по углу места в сложных условиях. [ нужна ссылка ]

  1. ^ Jump up to: а б с д Хуан; Ониши, Суги (1997). «Строим уши для роботов: локализация и разделение звука». Искусственная жизнь и робототехника . 1 (4): 157–163. дои : 10.1007/bf02471133 . S2CID   7595305 .
  2. ^ Jump up to: а б Карам; Клейн, Маклин (сентябрь 2013 г.). «Сканирование проблемы: обработка медиа на основе восприятия» . Труды IEEE . 101 (9): 1900–1904. дои : 10.1109/jproc.2013.2270898 . S2CID   62634208 .
  3. ^ Германский; Коэн, Стерн (сентябрь 2013 г.). «Перцептивные свойства современных технологий распознавания речи». Труды IEEE . 101 (9): 1–18. дои : 10.1109/JPROC.2013.2252316 . S2CID   17049673 .
  4. ^ Jump up to: а б Спорс, Саша; Вирсторф, Хаген; Рааке, Александр; Мельхиор, Фрэнк; Фрэнк, Матиас; Зоттер, Франц (2013). «Пространственный звук с помощью громкоговорителей и его восприятие: обзор современного состояния». Труды IEEE . 101 (9): 1920–1938. дои : 10.1109/JPROC.2013.2264784 . ISSN   0018-9219 . S2CID   11042715 .
  5. ^ Мартин Ротбухер; Дэвид Кронмюллер; Марко Дуркович; Тим Хабигт; Клаус Дипольд. «Локализация звука HRTF, Институт обработки данных, Мюнхенский технический университет, Германия». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  6. ^ Jump up to: а б Билинский, Петр; Аренс, Йенс; Томас, Марк Р.П.; Ташев Иван; Платт, Джон С. (2004). «Синтез величин HRTF посредством разреженного представления антропометрических особенностей» (PDF) (Microsoft Research, One Microsoft Way, Редмонд, Вашингтон, 98052, США). {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  7. ^ Жан, Марк; Франсуа, Мишуад; Жан, Руа (2006). «Надежная 3D-локализация и отслеживание источников звука с использованием формирования луча и фильтрации частиц». Международная конференция IEEE 2006 г. по материалам акустической скорости и обработки сигналов . Том. 4. С. IV-841–IV-844. arXiv : 1604.01642 . дои : 10.1109/ICASSP.2006.1661100 . ISBN  1-4244-0469-Х . S2CID   557491 .
  8. ^ Jump up to: а б с Билинский, Петр; Аренс, Йенс; Томас, Марк Р.П.; Ташев Иван; Платт, Джон С. (2004). «Синтез величин HRTF посредством разреженного представления антропометрических особенностей» (PDF) (Microsoft Research, One Microsoft Way, Редмонд, Вашингтон, 98052, США). {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  9. ^ Зоткин Дмитрий Н; Дурайсвами, Рамани; Дэвис, Ларри С. (2002). «Создание виртуальных слуховых пространств». Международная конференция IEEE по акустике речи и обработке сигналов . стр. II-2113–II-2116. дои : 10.1109/ICASSP.2002.5745052 . ISBN  978-0-7803-7402-7 . S2CID   1770583 .
  10. ^ Jump up to: а б Кейруз; Майер, Дипольд (4–6 декабря 2006 г.). «Новый гуманоидный бинауральный алгоритм локализации и разделения трехмерного звука». 2006 6-я Международная конференция IEEE-RAS по роботам-гуманоидам . стр. 296–301. дои : 10.1109/ICHR.2006.321400 . ISBN  1-4244-0199-2 . S2CID   41671705 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 731a42ca9aa955bc66f784e460d55e9c__1705528560
URL1:https://arc.ask3.ru/arc/aa/73/9c/731a42ca9aa955bc66f784e460d55e9c.html
Заголовок, (Title) документа по адресу, URL1:
Perceptual-based 3D sound localization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)