Передаточная функция, связанная с головой

Передаточная функция , связанная с головой ( HRTF ) — это реакция, которая характеризует то, как ухо получает звук из точки пространства. Когда звук поражает слушателя, размер и форма головы, ушей, слухового прохода, плотность головы, размер и форма носовой и ротовой полостей — все это трансформирует звук и влияет на его восприятие, усиливая одни частоты и ослабляя другие. . Вообще говоря, HRTF повышает частоты от 2 до 5 кГц с первичным резонансом +17 дБ на частоте 2700 Гц. Но кривая реакции более сложна, чем одиночный удар, влияет на широкий частотный спектр и значительно варьируется от человека к человеку.
Пара HRTF для двух ушей может использоваться для синтеза бинаурального звука, который, кажется, исходит из определенной точки пространства. Это передаточная функция , описывающая, как звук из определенной точки достигнет уха (обычно на внешнем конце слухового прохода ). Некоторые потребительские домашние развлекательные продукты, предназначенные для воспроизведения объемного звука из стереонаушников (с двумя динамиками), используют HRTF. Некоторые формы обработки HRTF также были включены в компьютерное программное обеспечение для имитации воспроизведения объемного звука из громкоговорителей.
Звуковая локализация
[ редактировать ]У человека всего два уха , но он может определять звуки в трех измерениях: по дальности (расстоянию), по направлению вверх и вниз (возвышение), спереди и сзади, а также в обе стороны (азимут). Это возможно, потому что мозг, внутреннее ухо и наружное ухо ( ушная раковина ) работают вместе, делая выводы о местоположении. Эта способность локализовать источники звука, возможно, развилась у людей и предков как эволюционная необходимость, поскольку глаза могут видеть только часть мира вокруг зрителя, а зрение затрудняется в темноте, в то время как способность локализовать источник звука работает во всех случаях. направления с различной точностью, [ 1 ] независимо от окружающего освещения.
Люди оценивают местоположение источника, принимая сигналы, поступающие из одного уха ( монауральные сигналы ), и сравнивая сигналы, полученные в обоих ушах ( сигналы различия или бинауральные сигналы ). Среди сигналов различия - разница во времени прибытия и разница в интенсивности. Монауральные сигналы возникают в результате взаимодействия между источником звука и анатомией человека, при котором исходный исходный звук модифицируется перед тем, как он попадает в ушной канал для обработки слуховой системой. Эти модификации кодируют местоположение источника и могут быть зафиксированы с помощью импульсной характеристики , которая связывает местоположение источника и местоположение уха. Эта импульсная реакция называется импульсной реакцией, связанной с головой (HRIR). Свертка произвольного исходного звука с помощью HRIR преобразует звук в тот, который был бы услышан слушателем, если бы он воспроизводился в источнике, а ухо слушателя - в месте приемника. HRIR использовались для создания виртуального объемного звука. [ 2 ] [ 3 ] [ нужен пример ]
HRTF — это преобразование Фурье HRIR.
HRTF для левого и правого уха (выраженные выше как HRIR) описывают фильтрацию источника звука ( x ( t )) до того, как он будет восприниматься левым и правым ухом как x L ( t ) и x R ( t ) соответственно.
HRTF также можно описать как изменение направления звука в свободном воздухе на звук, достигающий барабанной перепонки . Эти модификации включают форму внешнего уха слушателя, форму головы и тела слушателя, акустические характеристики пространства, в котором воспроизводится звук, и так далее. Все эти характеристики будут влиять на то, как (и сможет ли) слушатель точно определить, в каком направлении доносится звук.
В стандарте AES69-2015 [ 4 ] Общество аудиоинженеров (AES) определило формат файла SOFA для хранения пространственно-ориентированных акустических данных, таких как передаточные функции, связанные с головой (HRTF). Библиотеки и файлы программного обеспечения SOFA собраны на веб-сайте Sofa Conventions. [ 5 ]
Как работает HRTF
[ редактировать ]Связанный с этим механизм варьируется у разных людей, поскольку у них различаются формы головы и ушей.
HRTF описывает, как данный входной звуковой сигнал (параметрированный как частота и местоположение источника) фильтруется дифракционными и отражательными свойствами головы , ушной раковины и туловища , прежде чем звук достигнет преобразовательного механизма барабанной перепонки и внутреннего уха (см. Слуховая система). ). С биологической точки зрения эффекты предварительной фильтрации этих внешних структур, специфичные для местоположения источника, помогают нейронам определять местоположение источника источника , в частности, определять высоту . [ 6 ]
Техническое происхождение
[ редактировать ]Анализ линейных систем определяет передаточную функцию как комплексное соотношение между спектром выходного сигнала и спектром входного сигнала как функцию частоты. Блауерт (1974; цитируется по Blauert, 1981) первоначально определил передаточную функцию как передаточную функцию свободного поля (FFTF). Другие термины включают функцию передачи от свободного поля к барабанной перепонке и преобразование давления из свободного поля в барабанную перепонку. Менее конкретные описания включают передаточную функцию ушной раковины, передаточную функцию наружного уха , реакцию ушной раковины или функцию направленной передачи (DTF).
Передаточная функция H ( f ) любой линейной стационарной системы на частоте f равна:
- Ч ( ж ) = Выход ( ж ) / Вход ( ж )
Таким образом, одним из методов, используемых для получения HRTF из заданного местоположения источника, является измерение импульсной реакции, связанной с головой (HRIR), h ( t ), на барабанной перепонке для импульса Δ ( t ), помещенного в источник. HRTF H ( f ) является преобразованием Фурье HRIR h ( t ).
Даже при измерении для «фиктивной головы» идеализированной геометрии HRTF представляет собой сложную функцию частоты и трех пространственных переменных . Однако на расстояниях более 1 м от головы можно сказать, что HRTF затухает обратно пропорционально дальности. Именно этот HRTF в дальнем поле , H ( f , θ , φ ), чаще всего измеряется. На более близком расстоянии разница уровней, наблюдаемая между ушами, может вырасти весьма большой, даже в низкочастотной области, в пределах которой в дальнем поле наблюдаются незначительные различия уровней.
HRTF обычно измеряются в безэховой камере, чтобы минимизировать влияние ранних отражений и реверберации на измеряемый отклик. HRTF измеряются с небольшими приращениями θ , например 15° или 30° в горизонтальной плоскости, с интерполяцией, используемой для синтеза HRTF для произвольных положений θ . Однако даже при небольших приращениях интерполяция может привести к путанице спереди и сзади, и оптимизация процедуры интерполяции является активной областью исследований.
Чтобы максимизировать отношение сигнал/шум (SNR) в измеряемом HRTF, важно, чтобы генерируемый импульс был большой громкости. На практике, однако, может быть сложно генерировать импульсы большой громкости, и, если они генерируются, они могут повредить человеческие уши, поэтому чаще всего HRTF рассчитываются непосредственно в частотной области с разверткой по частоте. с использованием синусоидальной волны или используя последовательности максимальной длины . Однако усталость пользователей по-прежнему остается проблемой, что подчеркивает необходимость возможности интерполяции на основе меньшего количества измерений.
Передаточная функция, связанная с головой, участвует в разрешении конуса спутанности сознания — серии точек, в которых межушная разница во времени (ITD) и межушная разница уровней (ILD) идентичны для источников звука из многих мест вокруг нулевой части конуса. Когда звук принимается ухом, он может либо идти прямо по уху в ушной канал, либо отражаться от ушной раковины в ушной канал долю секунды спустя. Звук будет содержать много частот, поэтому в ухо будет проходить множество копий этого сигнала в разное время в зависимости от их частоты (в зависимости от отражения, дифракции, их взаимодействия с высокими и низкими частотами и размера структур слухового аппарата). ухо.) Эти копии перекрывают друг друга, и при этом одни сигналы усиливаются (когда фазы сигналов совпадают), а другие копии гасятся (когда фазы сигнала не совпадают). По сути, мозг ищет в сигнале частотные провалы, соответствующие определенным известным направлениям звука. [ нужна ссылка ]
Если бы уши другого человека были заменены, человек не смог бы сразу локализовать звук, поскольку закономерности усиления и подавления были бы отличными от тех закономерностей, к которым привыкла слуховая система человека. Однако через несколько недель слуховая система адаптировалась к новой передаточной функции, связанной с головой. [ 7 ] Межсубъектная изменчивость спектров HRTF изучалась посредством кластерного анализа. [ 8 ]
Оценивая различия в изменениях между ухами человека, мы можем ограничить нашу перспективу степенями свободы головы и ее связью с пространственной областью. Благодаря этому мы устраняем наклон и другие параметры координат, которые добавляют сложности. Для целей калибровки нас интересует только уровень направления к нашим ушам, следовательно, определенная степень свободы. Вот некоторые способы, с помощью которых мы можем вывести выражение для калибровки HRTF:
- Локализация звука в виртуальном слуховом пространстве. [ 9 ]
- Синтез фаз HRTF [ 10 ]
- Синтез величин HRTF [ 11 ]
Локализация звука в виртуальном слуховом пространстве.
[ редактировать ]Основное предположение при создании виртуального слухового пространства заключается в том, что если формы акустических сигналов, присутствующие в барабанных перепонках слушателя, такие же, как в наушниках, так и в свободном пространстве, то и ощущения слушателя также должны быть одинаковыми.
Обычно звуки, генерируемые в наушниках, воспринимаются как исходящие изнутри головы. В виртуальном слуховом пространстве наушники должны иметь возможность «экстернализировать» звук. Используя HRTF, звуки можно пространственно позиционировать с помощью метода, описанного ниже. [ 9 ]
Пусть x 1 ( t ) представляет электрический сигнал, возбуждающий громкоговоритель, а y 1 ( t ) представляет сигнал, полученный микрофоном внутри барабанной перепонки слушателя. Аналогично, пусть x 2 ( t ) представляет электрический сигнал, возбуждающий наушники, а y 2 ( t ) представляет реакцию микрофона на сигнал. Цель виртуального слухового пространства — выбрать x 2 ( t ) такой, что y 2 ( t ) = y 1 ( t ). Применяя преобразование Фурье к этим сигналам, мы приходим к следующим двум уравнениям:
- Y 1 = X 1 LFM, и
- Y 2 = X 2 ХМ,
где L — передаточная функция громкоговорителя в свободном поле, F — HRTF, M — передаточная функция микрофона, H — передаточная функция наушников к барабанной перепонке. Полагая Y 1 = Y 2 и находя X 2, получаем
- Х 2 = Х 1 ЛФ/Ч.
По наблюдениям, желаемая передаточная функция равна
- Т = ЛФ / ЧАС .
Следовательно, теоретически, если x 1 ( t ) пропускается через этот фильтр и полученный x 2 ( t ) воспроизводится в наушниках, он должен производить тот же сигнал на барабанной перепонке. Поскольку фильтр применяется только к одному уху, для другого уха необходимо создать еще один фильтр. Этот процесс повторяется для многих мест в виртуальной среде, чтобы создать массив передаточных функций, связанных с головой, для каждой воссоздаваемой позиции, гарантируя при этом, что условия выборки установлены критериями Найквиста .
Фазовый синтез HRTF
[ редактировать ]В самой нижней части полосы частот оценка фазы менее надежна, а на верхних частотах на фазовую характеристику влияют особенности ушной раковины. Более ранние исследования также показывают, что фазовая характеристика HRTF в основном линейна и что слушатели нечувствительны к деталям интераурального фазового спектра, пока сохраняется межушная временная задержка (ITD) объединенной низкочастотной части сигнала. Это смоделированная фазовая характеристика исследуемого HRTF как временная задержка, зависящая от направления и угла места. [ 10 ]
Коэффициент масштабирования является функцией антропометрических особенностей. Например, обучающий набор из N субъектов будет рассматривать каждую фазу HRTF и описывать один коэффициент масштабирования ITD как среднюю задержку группы. Этот вычисленный коэффициент масштабирования позволяет оценить временную задержку как функцию направления и высоты для любого конкретного человека. Преобразование временной задержки в фазовую характеристику для левого и правого уха тривиально.
Фазу HRTF можно описать масштабным коэффициентом ITD . Это, в свою очередь, количественно определяется антропометрическими данными данного человека, взятыми в качестве источника информации. В общем случае мы рассматриваем β как разреженный вектор
который представляет антропометрические характеристики испытуемого как линейную суперпозицию антропометрических характеристик из данных обучения (y ' = б Т X), а затем применить тот же разреженный вектор непосредственно к масштабирующему вектору H. Мы можем записать эту задачу как задачу минимизации для неотрицательного параметра сжатия λ :
Из этого, Значение коэффициента масштабирования ITD H ' оценивается как:
где коэффициенты масштабирования ITD для всех людей в наборе данных уложены в вектор H ∈ R Н , поэтому значение H н соответствует масштабному коэффициенту n-го человека.
Синтез величин HRTF
[ редактировать ]Мы решаем описанную выше задачу минимизации, используя оператор наименьшего абсолютного сжатия и выбора . Мы предполагаем, что HRTF представлены тем же соотношением, что и антропометрические признаки. [ 11 ] Следовательно, как только мы узнаем разреженный вектор β из антропометрических особенностей, мы напрямую применим его к данным тензора HRTF и значениям HRTF субъекта H. ' предоставлено:
где HRTF для каждого субъекта описываются тензором размера D × K , где D — количество направлений HRTF, а K — количество интервалов частоты. Все H n , d , k соответствуют всем HRTF обучающего набора, уложены в новый тензор H ∈ R N × D × K , поэтому значение H n,d,k соответствует k -му частотному элементу для d -го направления HRTF n -го человека. Также Х ' d , k соответствует k -й частоте для каждого d-го направления HRTF синтезированного HRTF.
HRTF из геометрии
[ редактировать ]Накопление данных HRTF позволило компьютерной программе определить приблизительную HRTF на основе геометрии головы. Известно, что это делают две программы, обе с открытым исходным кодом: Mesh2HRTF, [ 12 ] который запускает физическое моделирование на полной 3D-сетке головы, и EAC, который использует нейронную сеть, обученную на основе существующих HRTF, и работает на основе фотографий и других грубых измерений. [ 13 ]
Технология записи и воспроизведения
[ редактировать ]Записи, обработанные с помощью HRTF, например, в компьютерной игровой среде (см. A3D , EAX и OpenAL ), который приблизительно соответствует HRTF слушателя, можно услышать через стереонаушники или динамики и интерпретировать так, как если бы они содержали звуки, исходящие со всех направлений. , а не просто две точки по обе стороны головы. Воспринимаемая точность результата зависит от того, насколько точно набор данных HRTF соответствует характеристикам собственных ушей, хотя общий HRTF может быть предпочтительнее точного, измеренного по одному уху. [ 14 ] Некоторые поставщики, такие как Apple и Sony, предлагают различные варианты HRTF, которые можно выбрать в зависимости от формы ушей пользователя. [ 15 ]
Windows 10 и более поздние версии поставляются с включенным Microsoft Spatial Sound — той же структурой пространственного звука, которая используется в Xbox One и Hololens 2 . На ПК с Windows или Xbox One платформа может использовать несколько различных нисходящих аудиопроцессоров, включая Windows Sonic для наушников , Dolby Atmos и DTS Headphone:X , для применения HRTF. Платформа может отображать как источники объемного звука с фиксированным положением , так и динамические «объектные» источники, которые могут перемещаться в пространстве. [ 16 ]
Apple также использует пространственный звук для своих устройств, используемых с наушниками Apple или Beats. Для воспроизведения музыки в наушниках можно включить Dolby Atmos и применить HRTF. [ 17 ] HRTF (или, скорее, положение объекта) может меняться в зависимости от отслеживания головы , чтобы сохранить иллюзию направления. [ 18 ] Qualcomm Snapdragon имеет аналогичную пространственную аудиосистему с отслеживанием головы, которая используется в некоторых марках телефонов Android. [ 19 ] YouTube использует HRTF с отслеживанием головы для просмотра 360-градусных и VR-видео. [ 20 ]
Linux в настоящее время не может напрямую обрабатывать ни один из проприетарных форматов пространственного звука (объемный звук плюс динамические объекты). SoundScape Renderer предлагает направленный синтез. [ 21 ] PulseAudio и PipeWire могут обеспечивать виртуальное объемное звучание (каналы с фиксированным местоположением) с использованием HRTF. Последние версии PipeWire также способны обеспечивать динамическую пространственную визуализацию с использованием HRTF. [ 22 ] однако интеграция с приложениями все еще продолжается. Пользователи могут настраивать свои собственные позиционные и динамические источники звука, а также моделировать настройку динамиков объемного звучания, используя существующие конфигурации.
Кросс-платформенный OpenAL Soft, реализация OpenAL , использует HRTF для улучшения локализации. [ 23 ]
Системы пространственного звука Windows и Linux поддерживают любую модель стереонаушников, в то время как Apple позволяет использовать пространственный звук только с Apple или Beats . Bluetooth-гарнитурами [ нужна ссылка ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Дэниел Старч (1908). Периметрия локализации звука . Государственный университет Айовы. п. 35 и далее.
- ^ Бего, Д.Р. (1994) 3D-звук для виртуальной реальности и мультимедиа. АП Профессионал.
- ^ Итак, RHY, Люнг, Н.М., Брааш, Дж. и Люнг, К.Л. (2006) Недорогая неиндивидуализированная система объемного звучания, основанная на функциях передачи, связанных с головой. Исследование эргономики и разработка прототипа. Прикладная эргономика, 37, стр. 695–707.
- ^ «Стандарт AES AES69-2015: стандарт AES для обмена файлами — формат файлов пространственных акустических данных» . www.aes.org . Проверено 30 декабря 2016 г.
- ^ «Веб-сайт диванных конвенций» . Научно-исследовательский институт акустики — научно-исследовательский институт Австрийской академии наук.
- ^ Блауэрт, Дж. (1997) Пространственный слух: психофизика локализации звука человека. МТИ Пресс.
- ^ Хофман, Пол М.; Ван Рисвик, JG; Ван Опстал, AJ (сентябрь 1998 г.). «Повторное обучение локализации звука новыми ушами» (PDF) . Природная неврология . 1 (5): 417–421. дои : 10.1038/1633 . ПМИД 10196533 . S2CID 10088534 .
- ^ Итак, RHY, Нган, Б., Хорнер, А., Люнг, К.Л., Брааш, Дж. и Блауерт, Дж. (2010) На пути к ортогональным неиндивидуализированным передаточным функциям, связанным с головой, для звука, направленного вперед и назад: кластерный анализ и экспериментальное исследование. Эргономика, 53(6), стр.767-781.
- ^ Jump up to: а б Карлайл, С. (1996). Виртуальное слуховое пространство: поколение и применение (1-е изд.). Берлин, Гейдельберг: Springer. ISBN 9783662225967 .
- ^ Jump up to: а б Ташев, Иван (2014). «Синтез фаз HRTF посредством разреженного представления антропометрических особенностей». 2014 Семинар по теории информации и приложениям (ITA) . стр. 1–5. дои : 10.1109/ITA.2014.6804239 . ISBN 978-1-4799-3589-5 . S2CID 13232557 .
- ^ Jump up to: а б Билинский, Петр; Аренс, Йенс; Томас, Марк Р.П.; Ташев Иван; Платт, Джон С. (2014). «Синтез величин HRTF посредством разреженного представления антропометрических особенностей» (PDF) . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) , 2014 г. IEEE ICASSP, Флоренция, Италия. стр. 4468–4472. дои : 10.1109/ICASSP.2014.6854447 . ISBN 978-1-4799-2893-4 . S2CID 5619011 .
- ^ Цигельвангер Х. и Кройцер В., Майдак П. (2015). «Mesh2HRTF: пакет программного обеспечения с открытым исходным кодом для численного расчета передаточных функций, связанных с головой», в материалах 22-го Международного конгресса по звуку и вибрации, Флоренция, Италия.
- ^ Карвальо, Дави (17 апреля 2023 г.). «EAC — Индивидуализированный синтез HRTF» . Гитхаб .
- ^ Армстронг, Кэл; Треш, Льюис; Мерфи, Дамиан; Кирни, Гэвин (23 октября 2018 г.). «Перцептуальная оценка индивидуальных и неиндивидуальных HRTF: пример базы данных SADIE II» . Прикладные науки . 8 (11): 2029. doi : 10.3390/app8112029 .
- ^ «Пространственное аудио: Часть 1 — Современные форматы и развитие HRTF — Радиовещательный мост — Подключение ИТ к вещанию» . Радиовещательный мост . 7 декабря 2022 г.
- ^ «Пространственный звук для разработчиков приложений для Windows, Xbox и Hololens 2 — приложения Win32» . Learn.microsoft.com . 27 апреля 2023 г.
- ^ «О пространственном звуке с Dolby Atmos в Apple Music» . Поддержка Apple . 27 марта 2023 г.
- ^ «Слушайте с пространственным звуком для AirPods и Beats» . Поддержка Apple . 19 июля 2023 г.
- ^ «Пространственное аудио» . www.qualcomm.com .
- ^ «Использование пространственного звука в 360-градусных и VR-видео – Справка YouTube» . support.google.com .
- ^ «Рендерер SoundScape» . www.spaceaudio.net . 9 января 2013 г.
- ^ «Цепочка фильтров» . gitlab.freedesktop.org/pipewire/pipewire . 14 апреля 2023 г.
- ^ «OpenAL Soft — Программное обеспечение 3D Audio» . openal-soft.org .
Внешние ссылки
[ редактировать ]
- Учебное пособие по пространственному звуку
- База данных CIPIC HRTF
- Прослушать базу данных HRTF
- База данных HRTF высокого разрешения и 3D-моделей ушей (48 субъектов)
- База данных AIR (база данных HRTF в реверберирующих средах)
- Полная сфера базы данных HRIR/HRTF Neumann KU100
- База данных MIT (один набор данных)
- База данных ARI (Научно-исследовательский институт акустики) (более 90 наборов данных)