Обнаружение голосовой активности

Обнаружение речевой активности ( VAD ), также известное как обнаружение речевой активности или обнаружение речи , — это обнаружение присутствия или отсутствия человеческой речи, используемое при обработке речи . ^[1] Основное применение VAD – диаризация говорящего , кодирование речи и распознавание речи . ^[2] Он может облегчить обработку речи, а также может использоваться для деактивации некоторых процессов во время неречевого участка аудиосеанса: он позволяет избежать ненужного кодирования /передачи пакетов молчания в приложениях передачи голоса по интернет-протоколу (VoIP), экономя на вычислениях и пропускная способность сети .

VAD является важной технологией, позволяющей использовать различные голосовые приложения. Поэтому были разработаны различные алгоритмы VAD, которые обеспечивают различные функции и компромисс между задержкой , чувствительностью , точностью и вычислительными затратами. Некоторые алгоритмы VAD также обеспечивают дополнительный анализ, например, является ли речь вокализованной , невокализованной или продолжительной . Обнаружение голосовой активности обычно не зависит от языка.

Впервые он был исследован для использования в системах интерполяции речи с временным распределением (TASI). ^[3]

Обзор алгоритма

Типичная конструкция алгоритма VAD выглядит следующим образом: ^{[ нужна ссылка ]}

Сначала может быть этап снижения шума, например, посредством спектрального вычитания .
Затем на основе участка входного сигнала рассчитываются некоторые характеристики или величины.
Правило классификации применяется для классификации раздела как речевого или неречевого — часто это правило классификации обнаруживает, когда значение превышает определенный порог.

В этой последовательности может быть некоторая обратная связь, в которой решение VAD используется для улучшения оценки шума на этапе снижения шума или для адаптивного изменения порога(ов). Эти операции обратной связи улучшают производительность VAD при нестационарном шуме (т. е. когда шум сильно меняется). ^{[ нужна ссылка ]}

Репрезентативный набор недавно опубликованных методов VAD формулирует правило принятия решений на основе кадра за кадром, используя мгновенные измерения расстояния расхождения между речью и шумом. ^{[ нужна ссылка ]} Различные меры, которые используются в методах VAD, включают спектральный наклон , коэффициенты корреляции, логарифмическое отношение правдоподобия, кепстральные, взвешенные кепстральные и модифицированные меры расстояния. ^{[ нужна ссылка ]}

Независимо от выбора алгоритма VAD необходимо найти компромисс между обнаружением голоса как шума или обнаружением шума как голоса (между ложноположительным и ложноотрицательным ). VAD, работающий в мобильном телефоне, должен быть способен обнаруживать речь в присутствии самых разных типов акустического фонового шума. В таких сложных условиях обнаружения зачастую предпочтительнее, чтобы VAD был отказоустойчивым и сигнализировал об обнаружении речи, когда решение вызывает сомнения, чтобы снизить вероятность потери речевых сегментов. Самой большой трудностью при обнаружении речи в этой среде является очень низкое отношение сигнал/шум (SNR). Может оказаться невозможным отличить речь от шума с помощью простых методов определения уровня, когда части речевого высказывания скрыты под шумом.

Приложения

VAD является неотъемлемой частью различных систем речевой связи, таких как аудиоконференции , эхоподавление , распознавание речи , кодирование речи , распознавание говорящего без помощи рук и телефонная связь .
В области мультимедийных приложений VAD позволяет одновременно использовать приложения голоса и данных.
Аналогичным образом, в универсальных системах мобильной связи (UMTS) он контролирует и снижает среднюю скорость передачи данных и повышает общее качество кодирования речи.
В системах сотовой радиосвязи (например, системах GSM и CDMA ), основанных на режиме прерывистой передачи (DTX), VAD необходим для повышения пропускной способности системы за счет снижения внутриканальных помех и энергопотребления в портативных цифровых устройствах.
В приложениях обработки речи обнаружение речевой активности играет важную роль, поскольку неречевые кадры часто отбрасываются.

Для широкого спектра приложений, таких как цифровая мобильная радиосвязь, цифровая одновременная передача речи и данных (DSVD) или хранение речи, желательно обеспечить прерывистую передачу параметров кодирования речи. Преимущества могут включать более низкое среднее энергопотребление мобильных телефонов, более высокую среднюю скорость передачи данных для одновременных услуг, таких как передача данных, или более высокую емкость микросхем хранения данных . Однако улучшение зависит главным образом от процента пауз во время речи и надежности VAD, используемого для обнаружения этих интервалов. С одной стороны, выгодно иметь низкий процент речевой активности. С другой стороны, для сохранения качества следует свести к минимуму обрезку, то есть потерю миллисекунд активной речи. Это ключевая проблема для алгоритма VAD в условиях сильного шума.

Использование в телемаркетинге

Одним из спорных применений VAD является использование программ предиктивного дозвона, используемых фирмами телемаркетинга. Чтобы максимизировать производительность агентов, фирмы телемаркетинга устанавливают устройства с функцией прогнозирования, чтобы звонить на большее количество номеров, чем у них есть в наличии у агентов, зная, что большинство звонков в конечном итоге окажутся либо на «Звонок - нет ответа», либо на автоответчиках. Когда человек отвечает, он обычно говорит коротко (« Привет », « Добрый вечер » и т. д.), а затем наступает короткий период молчания. Сообщения автоответчика обычно представляют собой 3–15 секунд непрерывной речи. Правильно установив параметры VAD, дозвонщики могут определить, ответил ли на вызов человек или машина, и, если это человек, перенаправить вызов доступному агенту. Если он обнаруживает сообщение автоответчика, дозвонщик зависает. Часто, даже если система правильно определяет человека, отвечающего на звонок, агент может быть недоступен, что приводит к « тихому вызову ». Фильтрация вызовов с помощью многосекундного сообщения типа «пожалуйста, скажите, кто вы, и я могу взять трубку» помешает таким автоматическим звонкам. ^{[ нужна ссылка ]}

Оценка эффективности

Чтобы оценить VAD, его выходные данные с использованием тестовых записей сравниваются с результатами «идеального» VAD, созданного путем ручного аннотирования присутствия или отсутствия голоса в записях. Производительность VAD обычно оценивается на основе следующих четырех параметров: ^[4]

FEC (Front End Clipping): ограничение, введенное при переходе от шума к речевой активности;
MSC (Mid Speech Clipping): клиппирование из-за того, что речь ошибочно классифицируется как шум;
OVER: шум интерпретируется как речь, поскольку флаг VAD остается активным при переходе от речевой активности к шуму;
NDS (шум, обнаруженный как речь): шум интерпретируется как речь в течение периода молчания.

Хотя описанный выше метод дает полезную объективную информацию о работе VAD, он является лишь приблизительной мерой субъективного эффекта. Например, эффекты ограничения речевого сигнала иногда могут быть скрыты наличием фонового шума, в зависимости от модели, выбранной для синтеза комфортного шума, поэтому часть ограничения, измеренного с помощью объективных тестов, в действительности не слышна. Поэтому важно провести субъективные тесты VAD, основная цель которых — убедиться в приемлемости воспринимаемого клиппирования. В приложениях VoIP ограничение внешнего интерфейса можно уменьшить путем перемотки на момент незадолго до обнаружения и отправки данных с небольшой задержкой.

Этот вид теста требует, чтобы определенное количество слушателей оценило записи, содержащие результаты обработки тестируемых VAD, выставив оценки нескольким речевым последовательностям по следующим характеристикам:

Качество;
Трудность понимания;
Слышимость обрезки.

Эти отметки затем используются для расчета средних результатов для каждой из перечисленных выше функций, обеспечивая тем самым глобальную оценку поведения тестируемого VAD.

В заключение, хотя объективные методы очень полезны на начальном этапе оценки качества VAD, субъективные методы более значимы. Поскольку они требуют участия нескольких человек в течение нескольких дней, что увеличивает стоимость, их обычно используют только тогда, когда предложение готовится к стандартизации.

Реализации

Одним из первых стандартов VAD является тот, который был разработан British Telecom для использования в общеевропейской цифровой сотовой мобильной телефонной службе в 1991 году. Он использует обратную фильтрацию, обученную на неречевых сегментах, для фильтрации фонового шума, чтобы затем можно было более надежно использовать простой порог мощности, чтобы определить, присутствует ли голос. ^[5]
Стандарт G.729 рассчитывает следующие характеристики для своего VAD: линейные спектральные частоты , энергию в полном диапазоне, энергию в нижнем диапазоне (<1 кГц) и скорость перехода через нуль . Он применяет простую классификацию с использованием фиксированной границы решения в пространстве, определенном этими функциями, а затем применяет сглаживание и адаптивную коррекцию для улучшения оценки. ^[6]
Стандарт GSM включает два варианта VAD, разработанные ETSI . ^[7] Вариант 1 вычисляет SNR в девяти диапазонах и применяет порог к этим значениям. Вариант 2 рассчитывает различные параметры: мощность канала, голосовые метрики и мощность шума. Затем он определяет пороговые значения голосовых показателей, используя пороговое значение, которое варьируется в зависимости от оцененного SNR.
Библиотека сжатия звука Speex , которая использует использует процедуру под названием Improved Minima Controlled Recursive Averaging сглаженное представление спектральной мощности, а затем просматривает минимумы сглаженной периодограммы . ^[8] С версии 1.2 его заменило то, что автор назвал кладджем . ^[9]
Lingua Libre , инструмент Викимедиа и проект языковой документации , использующий VAD для записи большого количества произношений за короткий промежуток времени.
Библиотека VAD для Android ^[10] использует комбинацию моделей GMM и DNN, таких как WebRTC GMM, Silero DNN и Yamnet DNN. Библиотека превосходит многие серийные модели как по качеству, так и по производительности.

См. также

Ссылки

^ Манодж Бхатия; Джонатан Дэвидсон; Сатиш Калидинди; Судипто Мукерджи; Джеймс Питерс (20 октября 2006 г.). «VoIP: углубленный анализ — обнаружение голосовой активности» . Циско .
^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
^ Рави Рамачандран; Ричард Маммоне (6 декабря 2012 г.). Современные методы обработки речи . Springer Science & Business Media. стр. 102–. ISBN 978-1-4615-2281-2 .
^ Берителли, Ф.; Казале, С.; Руджери, Г.; Серрано, С. (март 2002 г.). «Оценка производительности и сравнение детекторов речевой активности G.729/AMR/fuzzy». Письма об обработке сигналов IEEE . 9 (3): 85–88. Бибкод : 2002ISPL....9...85B . дои : 10.1109/97.995824 . S2CID 16724847 .
^ Фриман, ДК (май 1989 г.). «Детектор речевой активности для общеевропейской цифровой сотовой мобильной телефонной связи». Учеб. Международная конференция по акустике, речи и обработке сигналов (ICASSP-89) . Том. 1. С. 369–372. дои : 10.1109/ICASSP.1989.266442 .
^ Беньясин А.; Шломот, Э.; Хуан-юй Су; Массалу, Д.; Ламблин, К.; Пети, Ж.-П. (сентябрь 1997 г.). «Рекомендация ITU-T G.729 Приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений передачи голоса и данных V.70». Журнал коммуникаций IEEE . 35 (9): 64–73. дои : 10.1109/35.620527 .
^ ETSI (1999). «GSM 06.42, Система цифровой сотовой связи (Этап 2+); Речь половинная; Детектор речевой активности (VAD) для каналов речевого трафика половинной скорости» (Документ). ЕТСИ.
^ Коэн, И. (сентябрь 2003 г.). «Оценка спектра шума в неблагоприятных условиях: улучшенное рекурсивное усреднение, контролируемое минимумами». Транзакции IEEE по обработке речи и аудио . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . дои : 10.1109/TSA.2003.811544 .
^ «Алгоритм Speex VAD» . 30 сентября 2004 г.
^ «Библиотека обнаружения голосовой активности Android (VAD). Поддерживает модели WebRTC VAD GMM, Silero VAD DNN, Yamnet VAD DNN» . Гитхаб . Проверено 27 ноября 2019 г. .

Минимальные стандарты производительности DMA для прерывистой работы мобильных станций, документ TIA. и база данных ИС-727, июнь 1998 г.
М. Ю. Аппиа, М. Сасикат, Р. Макрикайте, М. Гусайте, « Надежный механизм обнаружения голосовой активности и шумоподавления ( PDF )», Институт электронных систем, Ольборгский университет
XL Лю, Ю. Лян, Ю. Х. Лу, Х. Ли, Б. С. Шан, Шумоустойчивый детектор речевой активности на основе скрытых полумарковских моделей , Proc. ICPR'10 , 81–84.

[1] Манодж Бхатия; Джонатан Дэвидсон; Сатиш Калидинди; Судипто Мукерджи; Джеймс Питерс (20 октября 2006 г.). «VoIP: углубленный анализ — обнаружение голосовой активности» . Циско .

[2] Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].

[RamachandranMammone2012-3] Рави Рамачандран; Ричард Маммоне (6 декабря 2012 г.). Современные методы обработки речи . Springer Science & Business Media. стр. 102–. ISBN 978-1-4615-2281-2 .

[beritellietal-4] Берителли, Ф.; Казале, С.; Руджери, Г.; Серрано, С. (март 2002 г.). «Оценка производительности и сравнение детекторов речевой активности G.729/AMR/fuzzy». Письма об обработке сигналов IEEE . 9 (3): 85–88. Бибкод : 2002ISPL....9...85B . дои : 10.1109/97.995824 . S2CID 16724847 .

[bt91-5] Фриман, ДК (май 1989 г.). «Детектор речевой активности для общеевропейской цифровой сотовой мобильной телефонной связи». Учеб. Международная конференция по акустике, речи и обработке сигналов (ICASSP-89) . Том. 1. С. 369–372. дои : 10.1109/ICASSP.1989.266442 .

[g279b-6] Беньясин А.; Шломот, Э.; Хуан-юй Су; Массалу, Д.; Ламблин, К.; Пети, Ж.-П. (сентябрь 1997 г.). «Рекомендация ITU-T G.729 Приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений передачи голоса и данных V.70». Журнал коммуникаций IEEE . 35 (9): 64–73. дои : 10.1109/35.620527 .

[gsmvad-7] ETSI (1999). «GSM 06.42, Система цифровой сотовой связи (Этап 2+); Речь половинная; Детектор речевой активности (VAD) для каналов речевого трафика половинной скорости» (Документ). ЕТСИ.

[speex-imcra-8] Коэн, И. (сентябрь 2003 г.). «Оценка спектра шума в неблагоприятных условиях: улучшенное рекурсивное усреднение, контролируемое минимумами». Транзакции IEEE по обработке речи и аудио . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . дои : 10.1109/TSA.2003.811544 .

[speexvad-9] «Алгоритм Speex VAD» . 30 сентября 2004 г.

[10] «Библиотека обнаружения голосовой активности Android (VAD). Поддерживает модели WebRTC VAD GMM, Silero VAD DNN, Yamnet VAD DNN» . Гитхаб . Проверено 27 ноября 2019 г. .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]