Мощность управляемого отклика
Мощность управляемого отклика (SRP) — это семейство алгоритмов локализации акустического источника , которые можно интерпретировать как подход, основанный на формировании луча , который ищет кандидатское положение или направление, которое максимизирует выходную мощность управляемого формирователя луча с задержкой и суммированием . [ 1 ]
Мощность с управляемым откликом и фазовым преобразованием (SRP-PHAT) — это вариант, использующий «фазовое преобразование», чтобы сделать его более устойчивым в неблагоприятных акустических условиях. [ 2 ] [ 3 ]
Алгоритм
[ редактировать ]Мощность управляемого отклика
[ редактировать ]Рассмотрим систему микрофоны, где каждый микрофон обозначается субиндексом . Выходной сигнал дискретного времени с микрофона . (Невзвешенная) мощность управляемого отклика (SRP) в пространственной точке. может быть выражено как
где обозначает набор целых чисел и будет задержкой во времени из-за распространения от источника, расположенного в к -й микрофон.
(Взвешенное) SRP можно переписать как
где обозначает комплексное сопряжение, представляет Фурье дискретного времени преобразование и — это весовая функция в частотной области (обсуждается позже). Термин - это дискретная разница во времени прибытия (TDOA) сигнала, излучаемого в позиции к микрофонам и , заданный
где - частота дискретизации системы, скорость распространения звука , это позиция -й микрофон, является 2-нормой и обозначает оператор округления.
Обобщенная взаимная корреляция
[ редактировать ]Вышеупомянутая целевая функция SRP может быть выражена как сумма обобщенных взаимных корреляций (GCC) для различных пар микрофонов с задержкой по времени, соответствующей их TDOA.
где GCC для микрофонной пары определяется как
Фазовое преобразование (PHAT) — это эффективное взвешивание GCC для оценки временной задержки в реверберирующих средах, которое заставляет GCC учитывать только информацию о фазе задействованных сигналов:
Оценка местоположения источника
[ редактировать ]Алгоритм SRP-PHAT состоит из процедуры поиска по сетке, которая оценивает целевую функцию. в сетке потенциальных источников источников оценить пространственное расположение источника звука, , как точка сетки, обеспечивающая максимальную рекомендованную розничную цену:
Модифицированный SRP-PHAT
[ редактировать ]Модификации классического алгоритма SRP-PHAT были предложены для снижения вычислительных затрат на этапе поиска по сетке алгоритма и повышения надежности метода. В классической SRP-PHAT для каждой пары микрофонов и для каждой точки сетки выбирается уникальное целое значение TDOA, которое представляет собой акустическую задержку, соответствующую этой точке сетки. Эта процедура не гарантирует, что все TDOA связаны с точками сетки или что пространственная сетка непротиворечива, поскольку некоторые точки могут не соответствовать пересечению гиперболоидов. Эта проблема становится более проблематичной при использовании грубых сеток, поскольку при уменьшении количества точек часть информации TDOA теряется, поскольку большая часть задержек больше не связана ни с одной точкой сетки.
Модифицированный SRP-PHAT [ 4 ] собирает и использует информацию TDOA, связанную с объемом, окружающим каждую пространственную точку сетки поиска, рассматривая модифицированную целевую функцию:
где и – нижний и верхний пределы накопления задержек GCC, которые зависят от пространственного положения .
Лимиты накопления
[ редактировать ]Пределы накопления можно заранее точно рассчитать, исследуя границы, разделяющие области, соответствующие точкам сетки. В качестве альтернативы их можно выбрать, учитывая пространственный градиент TDOA. , где каждая компонента градиента:
Для прямоугольной сетки, где соседние точки разделены расстоянием , нижний и верхний пределы накопления определяются по формуле:
где а углы направления градиента определяются выражением
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Дон Х. Джонсон; Дэн Э. Даджен (1993). Обработка сигналов массива: концепции и методы . Прентис Холл. ISBN 978-0-13-048513-7 .
- ^ ДиБиасе, Дж. Х. (2000). Метод высокой точности и малой задержки для локализации говорящего в реверберирующей среде с использованием микрофонных решеток (PDF) (доктор философии). Брауновский университет.
- ^ Сильверман, Х.Ф.; Ю, Ю.; Сачар, Дж. М.; Паттерсон III, WR (2005). «Производительность средств оценки местоположения источника в реальном времени для микрофонной решетки с большой апертурой». IEEE Транс. Речевой аудиопроцесс . 13 (4). ИИЭР: 593–606. дои : 10.1109/TSA.2005.848875 . S2CID 9506719 .
- ^ Кобос, М.; Марти, А.; Лопес, Джей Джей (2011). «Модифицированный функционал SRP-PHAT для надежной локализации источника звука в реальном времени с масштабируемой пространственной дискретизацией». Письма об обработке сигналов IEEE . 18 (1). ИИЭР: 71–74. Бибкод : 2011ISPL...18...71C . дои : 10.1109/LSP.2010.2091502 . hdl : 10251/55953 . S2CID 18207534 .