Мел-частотный кепстр
В обработке звука мел -частотный кепстр ( MFC ) представляет собой представление кратковременного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности в нелинейной мел-шкале частоты.
Мел-частотные кепстральные коэффициенты ( MFCC ) — это коэффициенты, которые в совокупности составляют MFC. [1] Они получены из типа кепстрального представления аудиоклипа (нелинейный «спектр-спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC полосы частот равномерно распределены по шкале мел, что более точно аппроксимирует реакцию слуховой системы человека, чем линейно разнесенные полосы частот, используемые в нормальном спектре. Такое искажение частоты может обеспечить лучшее представление звука, например, при сжатии звука , что потенциально может уменьшить полосу пропускания передачи и требования к хранению аудиосигналов.
MFCC обычно получают следующим образом: [2] [3]
- Возьмите преобразование Фурье (выдержка из окна) сигнала.
- Сопоставьте мощности спектра, полученного выше, с масштабом mel , используя треугольные перекрывающиеся окна или, альтернативно, косинусные перекрывающиеся окна .
- Возьмите журналы мощностей на каждой из мел-частот.
- Возьмите дискретное косинусное преобразование списка меллогарифмических степеней, как если бы это был сигнал.
- MFCC — это амплитуды результирующего спектра.
Могут быть вариации этого процесса, например: различия в форме или расстоянии между окнами, используемыми для отображения масштаба, [4] или добавление динамических характеристик, таких как коэффициенты «дельта» и «дельта-дельта» (разница между кадрами первого и второго порядка). [5]
Европейский институт телекоммуникационных стандартов в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . [6]
Приложения
[ редактировать ]MFCC обычно используются в качестве функций распознавания речи. [7] системы, такие как системы, которые могут автоматически распознавать номера, произнесенные по телефону.
MFCC также все чаще находят применение в приложениях поиска музыкальной информации , таких как классификация жанров , меры сходства аудио и т. Д. [8]
MFCC для распознавания говорящего
[ редактировать ]Этот раздел может сбивать с толку или быть неясным для читателей . ( Август 2022 г. ) |
Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по определенной теме. ( Март 2023 г. ) |
Поскольку полосы частот Mel распределены в MFCC равномерно и они очень похожи на голосовую систему человека, MFCC можно эффективно использовать для характеристики говорящих. Например, его можно использовать для распознавания деталей модели мобильного телефона говорящего и дополнительных сведений о говорящем. [4]
Этот тип распознавания мобильных устройств возможен, поскольку при производстве электронных компонентов телефона существуют допуски, поскольку разные реализации электронных схем не имеют одинаковых передаточных функций . Различия в передаточной функции от одной реализации к другой становятся более заметными, если схемы, выполняющие задачу, от разных производителей. Следовательно, каждый сотовый телефон вносит сверточное искажение во входную речь, что оказывает уникальное влияние на записи с мобильного телефона. Таким образом, конкретный телефон можно идентифицировать по записанной речи путем умножения исходного частотного спектра на дальнейшее умножение передаточных функций, специфичных для каждого телефона, с последующими методами обработки сигнала. Таким образом, с помощью MFCC можно охарактеризовать записи мобильного телефона, чтобы идентифицировать марку и модель телефона. [5]
Рассматривая раздел записи мобильного телефона как линейный, не зависящий от времени ( LTI ) фильтр:
Импульсная характеристика - h(n) , записанный речевой сигнал y(n) как выходной сигнал фильтра в ответ на входной сигнал x(n).
Следовательно, (свертка)
Поскольку речь не является стационарным сигналом, она разбивается на перекрывающиеся кадры, внутри которых сигнал считается стационарным. Итак, Кратковременный сегмент (кадр) записанной входной речи – это:
- ,
где w(n) : оконная функция длины W.
Следовательно, как указано, след мобильного телефона записанной речи представляет собой сверточное искажение, которое помогает идентифицировать записывающий телефон.
Встроенная идентичность сотового телефона требует преобразования в более легко идентифицируемую форму, следовательно, требуется кратковременное преобразование Фурье:
можно рассматривать как объединенную передаточную функцию, которая создает входную речь и записанную речь. может быть воспринято как оригинальная речь с мобильного телефона.
Таким образом, в качестве исходного источника записанной речи рассматривается эквивалентная передаточная функция речевого тракта и диктофона сотового телефона. Поэтому,
где Xew(f) – функция возбуждения, – передаточная функция голосового тракта для речи в рама и — это эквивалентная передаточная функция, характеризующая сотовый телефон.
Этот подход может быть полезен для распознавания говорящего, поскольку идентификация устройства и идентификация говорящего очень тесно связаны.
Принимая во внимание важность огибающей спектра, который умножается на банк фильтров (подходящий кепстр с банком фильтров мел-масштаба), после сглаживания банка фильтров с передаточной функцией U (f) логарифмическая операция над выходными энергиями выглядит следующим образом:
Представляя
MFCC успешен благодаря этому нелинейному преобразованию с аддитивными свойствами.
Преобразование обратно во временную область:
где cy(j), ce(j), cw(j) — записанный речевой кепстр и взвешенная эквивалентная импульсная характеристика записывающего устройства сотового телефона, характеризующая сотовый телефон, соответственно, а j — количество фильтров в банке фильтров.
Точнее, специфичная для устройства информация находится в записанной речи, которая преобразуется в аддитивную форму, подходящую для идентификации.
cy(j) может быть дополнительно обработан для идентификации записывающего телефона.
Часто используемые длины кадров — 20 или 20 мс.
Часто используемые оконные функции — окна Хэмминга и Хэннинга.
Следовательно, Mel-шкала — это широко используемая шкала частот, линейная до 1000 Гц и логарифмическая выше нее.
Расчет центральных частот фильтров в Mel-шкале:
- , основание 10.
Основная процедура расчета MFCC:
- Выходные данные банка логарифмических фильтров умножаются на 20 для получения огибающих спектра в децибелах.
- MFCC получаются путем дискретного косинусного преобразования (DCT) огибающей спектра.
- Коэффициенты кепстра получаются как:
, ,
где соответствует -й коэффициент MFCC, количество треугольных фильтров в банке фильтров, - это логарифм выходной энергии -й коэффициент фильтра, и — количество коэффициентов MFCC, которые мы хотим вычислить.
Инверсия
[ редактировать ]MFCC можно приблизительно инвертировать в аудио в четыре этапа: (a1) обратное DCT для получения спектрограммы мел-логарифмической мощности [дБ], (a2) преобразование в мощность для получения мел-спектрограммы мощности, (b1) изменение масштаба для получения короткого сигнала величины временного преобразования Фурье и, наконец, (b2) фазовая реконструкция и синтез звука с использованием Griffin-Lim. Каждый шаг соответствует одному шагу расчета MFCC. [9]
Чувствительность к шуму
[ редактировать ]Значения MFCC не очень устойчивы в присутствии аддитивного шума, поэтому их значения обычно нормализуют в системах распознавания речи, чтобы уменьшить влияние шума. Некоторые исследователи предлагают модификации базового алгоритма MFCC для повышения надежности, например, путем повышения логарифмических амплитуд до подходящей степени (около 2 или 3) перед выполнением дискретного косинусного преобразования (DCT), что снижает влияние низких частот. энергетические компоненты. [10]
История
[ редактировать ]Пол Мермельштейн [11] [12] обычно приписывают развитие MFC. Мермельштейн благодарит Брайдла и Брауна [13] за идею:
Брайдл и Браун использовали набор из 19 взвешенных коэффициентов формы спектра, определяемых косинусным преобразованием выходных сигналов набора неравномерно расположенных полосовых фильтров. Шаг фильтра выбирается логарифмическим выше 1 кГц, и там также увеличивается полоса пропускания фильтра. Поэтому мы будем называть их кепстральными параметрами на основе мела. [11]
Иногда цитируются оба ранних создателя. [14]
Многие авторы, в том числе Дэвис и Мермельштейн, [12] отметили, что спектральные базисные функции косинусного преобразования в MFC очень похожи на основные компоненты логарифмических спектров, которые гораздо раньше применялись к представлению и распознаванию речи Полсом и его коллегами. [15] [16]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Мин Сюй; и др. (2004). «Генерация ключевых слов для аудио на основе HMM» (PDF) . В Киёхару Айзава; Юичи Накамура; Шиничи Сато (ред.). Достижения в области обработки мультимедийной информации – PCM 2004: 5-я Тихоокеанская конференция по мультимедиа . Спрингер. ISBN 978-3-540-23985-7 . Архивировано из оригинала (PDF) 10 мая 2007 г.
- ^ Сахидулла, штат Мэриленд; Саха, Гутам (май 2012 г.). «Разработка, анализ и экспериментальная оценка блочного преобразования в вычислениях MFCC для распознавания говорящего». Речевое общение . 54 (4): 543–565. дои : 10.1016/j.specom.2011.11.004 . S2CID 14985832 .
- ^ Абдулсатар, Ассим Ара; Давыдов В.В.; Юшкова В.В.; Глинушкин А.П.; Рудь, В Ю (01.12.2019). «Распознавание возраста и пола по речевым сигналам» . Физический журнал: серия конференций . 1410 (1): 012073. Бибкод : 2019JPhCS1410a2073A . дои : 10.1088/1742-6596/1410/1/012073 . ISSN 1742-6588 . S2CID 213065622 .
- ^ Jump up to: а б Фан Чжэн, Гуолян Чжан и Чжаньцзян Сун (2001), « Сравнение различных реализаций MFCC », J. Computer Science & Technology, 16 (6): 582–589.
- ^ Jump up to: а б С. Фуруи (1986), «Независимое от говорящего распознавание отдельных слов на основе подчеркнутой спектральной динамики»
- ^ Европейский институт телекоммуникационных стандартов (2003), Аспекты обработки, передачи и качества речи (STQ); Распределенное распознавание речи; Алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия . Технический стандарт ES 201 108, v1.1.3.
- ^ Т. Ганчев, Н. Факотакис и Г. Коккинакис (2005), « Сравнительная оценка различных реализаций MFCC для задачи проверки говорящего. Архивировано 17 июля 2011 г. на Wayback Machine », на 10-й Международной конференции по речи и компьютеру ( СПЕКОМ 2005), Том. 1, стр. 191–194.
- ^ Мейнард Мюллер (2007). Поиск информации о музыке и движении . Спрингер. п. 65. ИСБН 978-3-540-74047-6 .
- ^ «librosa.feature.inverse.mfcc_to_audio — документация booka 0.10.0» . книги.орг .
- ^ В. Тьяги и К. Веллекенс (2005), О снижении чувствительности Mel-Цепстра к ложным спектральным компонентам для надежного распознавания речи , в журнале «Акустика, речь и обработка сигналов», 2005. Труды. (ICASSP '05). Международная конференция IEEE, вып. 1, стр. 529–532.
- ^ Jump up to: а б П. Мермельштейн (1976), « Измерения расстояния для распознавания речи, психологического и инструментального», в книге «Распознавание образов и искусственный интеллект» , CH Chen, Ed., стр. 374–388. Академический, Нью-Йорк.
- ^ Jump up to: а б С. Б. Дэвис и П. Мермельштейн (1980), « Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях », в IEEE Transactions on Acoustics, Speech and Signal Processing , 28 (4), стр. 357–366.
- ^ Дж. С. Бридл и доктор медицинских наук Браун (1974), «Экспериментальная автоматическая система распознавания слов», отчет JSRU № 1003, Объединенное подразделение исследования речи, Руислип, Англия.
- ^ Нельсон Морган ; Эрве Бурлар и Хинек Германский (2004). «Автоматическое распознавание речи: слуховая перспектива» . Стивен Гринберг и Уильям А. Эйнсворт (ред.). Обработка речи в слуховой системе . Спрингер. п. 315. ИСБН 978-0-387-00590-4 .
- ^ LCW Pols (1966), «Спектральный анализ и идентификация голландских гласных в односложных словах», докторская диссертация, Свободный университет, Амстердам, Нидерланды.
- ^ Р. Пломп, LCW Полс и Дж. П. ван де Гир (1967). « Размерный анализ спектров гласных ». Дж. Акустическое общество Америки, 41(3):707–712.