Мел-частотный кепстр

В обработке звука мел -частотный кепстр ( MFC ) представляет собой представление кратковременного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности в нелинейной мел-шкале частоты.

Мел-частотные кепстральные коэффициенты ( MFCC ) — это коэффициенты, которые в совокупности составляют MFC. ^[1] Они получены из типа кепстрального представления аудиоклипа (нелинейный «спектр-спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC полосы частот равномерно распределены по шкале мел, что более точно аппроксимирует реакцию слуховой системы человека, чем линейно разнесенные полосы частот, используемые в нормальном спектре. Такое искажение частоты может обеспечить лучшее представление звука, например, при сжатии звука , что потенциально может уменьшить полосу пропускания передачи и требования к хранению аудиосигналов.

MFCC обычно получают следующим образом: ^[2]^[3]

Возьмите преобразование Фурье (выдержка из окна) сигнала.
Сопоставьте мощности спектра, полученного выше, с масштабом mel , используя треугольные перекрывающиеся окна или, альтернативно, косинусные перекрывающиеся окна .
Возьмите журналы мощностей на каждой из мел-частот.
Возьмите дискретное косинусное преобразование списка меллогарифмических степеней, как если бы это был сигнал.
MFCC — это амплитуды результирующего спектра.

Могут быть вариации этого процесса, например: различия в форме или расстоянии между окнами, используемыми для отображения масштаба, ^[4] или добавление динамических характеристик, таких как коэффициенты «дельта» и «дельта-дельта» (разница между кадрами первого и второго порядка). ^[5]

Европейский институт телекоммуникационных стандартов в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . ^[6]

Приложения

MFCC обычно используются в качестве функций распознавания речи. ^[7] системы, такие как системы, которые могут автоматически распознавать номера, произнесенные по телефону.

MFCC также все чаще находят применение в приложениях поиска музыкальной информации , таких как классификация жанров , меры сходства аудио и т. Д. ^[8]

MFCC для распознавания говорящего

Поскольку полосы частот Mel распределены в MFCC равномерно и они очень похожи на голосовую систему человека, MFCC можно эффективно использовать для характеристики говорящих. Например, его можно использовать для распознавания деталей модели мобильного телефона говорящего и дополнительных сведений о говорящем. ^[4]

Этот тип распознавания мобильных устройств возможен, поскольку при производстве электронных компонентов телефона существуют допуски, поскольку разные реализации электронных схем не имеют одинаковых передаточных функций . Различия в передаточной функции от одной реализации к другой становятся более заметными, если схемы, выполняющие задачу, от разных производителей. Следовательно, каждый сотовый телефон вносит сверточное искажение во входную речь, что оказывает уникальное влияние на записи с мобильного телефона. Таким образом, конкретный телефон можно идентифицировать по записанной речи путем умножения исходного частотного спектра на дальнейшее умножение передаточных функций, специфичных для каждого телефона, с последующими методами обработки сигнала. Таким образом, с помощью MFCC можно охарактеризовать записи мобильного телефона, чтобы идентифицировать марку и модель телефона. ^[5]

Рассматривая раздел записи мобильного телефона как линейный, не зависящий от времени ( LTI ) фильтр:

Импульсная характеристика - h(n) , записанный речевой сигнал y(n) как выходной сигнал фильтра в ответ на входной сигнал x(n).

Следовательно, $y(n)=x(n)*h(n)$ (свертка)

Поскольку речь не является стационарным сигналом, она разбивается на перекрывающиеся кадры, внутри которых сигнал считается стационарным. Итак, $p^{th}$ Кратковременный сегмент (кадр) записанной входной речи – это:

y_{p}w(n)=[x(n)w(pW-n)]*h(n)

,

где w(n) : оконная функция длины W.

Следовательно, как указано, след мобильного телефона записанной речи представляет собой сверточное искажение, которое помогает идентифицировать записывающий телефон.

Встроенная идентичность сотового телефона требует преобразования в более легко идентифицируемую форму, следовательно, требуется кратковременное преобразование Фурье:

Y_{p}w(f)=X_{p}w(f)H(f)

$H(f)$ можно рассматривать как объединенную передаточную функцию, которая создает входную речь и записанную речь. $Y_{p}w(f)$ может быть воспринято как оригинальная речь с мобильного телефона.

Таким образом, в качестве исходного источника записанной речи рассматривается эквивалентная передаточная функция речевого тракта и диктофона сотового телефона. Поэтому,

X_{p}w(f)=Xe_{p}w(f)X_{v}(f),H'(f)=H(f)X_{v}(f),

где Xew(f) – функция возбуждения, $X_{v}(f)$ – передаточная функция голосового тракта для речи в $p^{th}$ рама и $H'(f)$ — это эквивалентная передаточная функция, характеризующая сотовый телефон.

Y_{p}w(f)=Xe_{p}w(f)H'(f)

Этот подход может быть полезен для распознавания говорящего, поскольку идентификация устройства и идентификация говорящего очень тесно связаны.

Принимая во внимание важность огибающей спектра, который умножается на банк фильтров (подходящий кепстр с банком фильтров мел-масштаба), после сглаживания банка фильтров с передаточной функцией U (f) логарифмическая операция над выходными энергиями выглядит следующим образом:

\log[|Y_{p}w(f)|]=\log[|U(f)||Xe_{p}w(f)||H'(f)|]

Представляя $H_{w}(f)=U(f)H'(f)$

\log[|Y_{p}w(f)|]=\log[|Xe_{p}w(f)|]+\log[|H_{w}(f)|]

MFCC успешен благодаря этому нелинейному преобразованию с аддитивными свойствами.

Преобразование обратно во временную область:

c_{y}(j)=c_{e}(j)+c_{w}(j)

где cy(j), ce(j), cw(j) — записанный речевой кепстр и взвешенная эквивалентная импульсная характеристика записывающего устройства сотового телефона, характеризующая сотовый телефон, соответственно, а j — количество фильтров в банке фильтров.

Точнее, специфичная для устройства информация находится в записанной речи, которая преобразуется в аддитивную форму, подходящую для идентификации.

cy(j) может быть дополнительно обработан для идентификации записывающего телефона.

Часто используемые длины кадров — 20 или 20 мс.

Часто используемые оконные функции — окна Хэмминга и Хэннинга.

Следовательно, Mel-шкала — это широко используемая шкала частот, линейная до 1000 Гц и логарифмическая выше нее.

Расчет центральных частот фильтров в Mel-шкале:

f_{mel}=1000\log(1+f/1000)/\log 2

, основание 10.

Основная процедура расчета MFCC:

Выходные данные банка логарифмических фильтров умножаются на 20 для получения огибающих спектра в децибелах.
MFCC получаются путем дискретного косинусного преобразования (DCT) огибающей спектра.
Коэффициенты кепстра получаются как:

$c_{i}=\sum _{n=1}^{N_{f}}S_{n}\cos \left(i(n-0.5)\left({\frac {\pi }{N_{f}}}\right)\right)$ , $i=1,\dots ,L$ ,

где $c_{i}=c_{y}(i)$ соответствует $i$ -й коэффициент MFCC, $N_{f}$ количество треугольных фильтров в банке фильтров, $S_{n}$ - это логарифм выходной энергии $n$ -й коэффициент фильтра, и $L$ — количество коэффициентов MFCC, которые мы хотим вычислить.

Инверсия

MFCC можно приблизительно инвертировать в аудио в четыре этапа: (a1) обратное DCT для получения спектрограммы мел-логарифмической мощности [дБ], (a2) преобразование в мощность для получения мел-спектрограммы мощности, (b1) изменение масштаба для получения короткого сигнала величины временного преобразования Фурье и, наконец, (b2) фазовая реконструкция и синтез звука с использованием Griffin-Lim. Каждый шаг соответствует одному шагу расчета MFCC. ^[9]

Чувствительность к шуму

Значения MFCC не очень устойчивы в присутствии аддитивного шума, поэтому их значения обычно нормализуют в системах распознавания речи, чтобы уменьшить влияние шума. Некоторые исследователи предлагают модификации базового алгоритма MFCC для повышения надежности, например, путем повышения логарифмических амплитуд до подходящей степени (около 2 или 3) перед выполнением дискретного косинусного преобразования (DCT), что снижает влияние низких частот. энергетические компоненты. ^[10]

История

Пол Мермельштейн ^[11]^[12] обычно приписывают развитие MFC. Мермельштейн благодарит Брайдла и Брауна ^[13] за идею:

Брайдл и Браун использовали набор из 19 взвешенных коэффициентов формы спектра, определяемых косинусным преобразованием выходных сигналов набора неравномерно расположенных полосовых фильтров. Шаг фильтра выбирается логарифмическим выше 1 кГц, и там также увеличивается полоса пропускания фильтра. Поэтому мы будем называть их кепстральными параметрами на основе мела. ^[11]

Иногда цитируются оба ранних создателя. ^[14]

Многие авторы, в том числе Дэвис и Мермельштейн, ^[12] отметили, что спектральные базисные функции косинусного преобразования в MFC очень похожи на основные компоненты логарифмических спектров, которые гораздо раньше применялись к представлению и распознаванию речи Полсом и его коллегами. ^[15]^[16]

См. также

Ссылки

^ Мин Сюй; и др. (2004). «Генерация ключевых слов для аудио на основе HMM» (PDF) . В Киёхару Айзава; Юичи Накамура; Шиничи Сато (ред.). Достижения в области обработки мультимедийной информации – PCM 2004: 5-я Тихоокеанская конференция по мультимедиа . Спрингер. ISBN 978-3-540-23985-7 . Архивировано из оригинала (PDF) 10 мая 2007 г.
^ Сахидулла, штат Мэриленд; Саха, Гутам (май 2012 г.). «Разработка, анализ и экспериментальная оценка блочного преобразования в вычислениях MFCC для распознавания говорящего». Речевое общение . 54 (4): 543–565. дои : 10.1016/j.specom.2011.11.004 . S2CID 14985832 .
^ Абдулсатар, Ассим Ара; Давыдов В.В.; Юшкова В.В.; Глинушкин А.П.; Рудь, В Ю (01.12.2019). «Распознавание возраста и пола по речевым сигналам» . Физический журнал: серия конференций . 1410 (1): 012073. Бибкод : 2019JPhCS1410a2073A . дои : 10.1088/1742-6596/1410/1/012073 . ISSN 1742-6588 . S2CID 213065622 .
^ Jump up to: ^а ^б Фан Чжэн, Гуолян Чжан и Чжаньцзян Сун (2001), « Сравнение различных реализаций MFCC », J. Computer Science & Technology, 16 (6): 582–589.
^ Jump up to: ^а ^б С. Фуруи (1986), «Независимое от говорящего распознавание отдельных слов на основе подчеркнутой спектральной динамики»
^ Европейский институт телекоммуникационных стандартов (2003), Аспекты обработки, передачи и качества речи (STQ); Распределенное распознавание речи; Алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия . Технический стандарт ES 201 108, v1.1.3.
^ Т. Ганчев, Н. Факотакис и Г. Коккинакис (2005), « Сравнительная оценка различных реализаций MFCC для задачи проверки говорящего. Архивировано 17 июля 2011 г. на Wayback Machine », на 10-й Международной конференции по речи и компьютеру ( СПЕКОМ 2005), Том. 1, стр. 191–194.
^ Мейнард Мюллер (2007). Поиск информации о музыке и движении . Спрингер. п. 65. ИСБН 978-3-540-74047-6 .
^ «librosa.feature.inverse.mfcc_to_audio — документация booka 0.10.0» . книги.орг .
^ В. Тьяги и К. Веллекенс (2005), О снижении чувствительности Mel-Цепстра к ложным спектральным компонентам для надежного распознавания речи , в журнале «Акустика, речь и обработка сигналов», 2005. Труды. (ICASSP '05). Международная конференция IEEE, вып. 1, стр. 529–532.
^ Jump up to: ^а ^б П. Мермельштейн (1976), « Измерения расстояния для распознавания речи, психологического и инструментального», в книге «Распознавание образов и искусственный интеллект» , CH Chen, Ed., стр. 374–388. Академический, Нью-Йорк.
^ Jump up to: ^а ^б С. Б. Дэвис и П. Мермельштейн (1980), « Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях », в IEEE Transactions on Acoustics, Speech and Signal Processing , 28 (4), стр. 357–366.
^ Дж. С. Бридл и доктор медицинских наук Браун (1974), «Экспериментальная автоматическая система распознавания слов», отчет JSRU № 1003, Объединенное подразделение исследования речи, Руислип, Англия.
^ Нельсон Морган ; Эрве Бурлар и Хинек Германский (2004). «Автоматическое распознавание речи: слуховая перспектива» . Стивен Гринберг и Уильям А. Эйнсворт (ред.). Обработка речи в слуховой системе . Спрингер. п. 315. ИСБН 978-0-387-00590-4 .
^ LCW Pols (1966), «Спектральный анализ и идентификация голландских гласных в односложных словах», докторская диссертация, Свободный университет, Амстердам, Нидерланды.
^ Р. Пломп, LCW Полс и Дж. П. ван де Гир (1967). « Размерный анализ спектров гласных ». Дж. Акустическое общество Америки, 41(3):707–712.

Внешние ссылки

[1] Мин Сюй; и др. (2004). «Генерация ключевых слов для аудио на основе HMM» (PDF) . В Киёхару Айзава; Юичи Накамура; Шиничи Сато (ред.). Достижения в области обработки мультимедийной информации – PCM 2004: 5-я Тихоокеанская конференция по мультимедиа . Спрингер. ISBN 978-3-540-23985-7 . Архивировано из оригинала (PDF) 10 мая 2007 г.

[2] Сахидулла, штат Мэриленд; Саха, Гутам (май 2012 г.). «Разработка, анализ и экспериментальная оценка блочного преобразования в вычислениях MFCC для распознавания говорящего». Речевое общение . 54 (4): 543–565. дои : 10.1016/j.specom.2011.11.004 . S2CID 14985832 .

[3] Абдулсатар, Ассим Ара; Давыдов В.В.; Юшкова В.В.; Глинушкин А.П.; Рудь, В Ю (01.12.2019). «Распознавание возраста и пола по речевым сигналам» . Физический журнал: серия конференций . 1410 (1): 012073. Бибкод : 2019JPhCS1410a2073A . дои : 10.1088/1742-6596/1410/1/012073 . ISSN 1742-6588 . S2CID 213065622 .

[:0-4] Jump up to: ^а ^б Фан Чжэн, Гуолян Чжан и Чжаньцзян Сун (2001), « Сравнение различных реализаций MFCC », J. Computer Science & Technology, 16 (6): 582–589.

[:1-5] Jump up to: ^а ^б С. Фуруи (1986), «Независимое от говорящего распознавание отдельных слов на основе подчеркнутой спектральной динамики»

[etsi01-6] Европейский институт телекоммуникационных стандартов (2003), Аспекты обработки, передачи и качества речи (STQ); Распределенное распознавание речи; Алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия . Технический стандарт ES 201 108, v1.1.3.

[7] Т. Ганчев, Н. Факотакис и Г. Коккинакис (2005), « Сравнительная оценка различных реализаций MFCC для задачи проверки говорящего. Архивировано 17 июля 2011 г. на Wayback Machine », на 10-й Международной конференции по речи и компьютеру ( СПЕКОМ 2005), Том. 1, стр. 191–194.

[8] Мейнард Мюллер (2007). Поиск информации о музыке и движении . Спрингер. п. 65. ИСБН 978-3-540-74047-6 .

[9] «librosa.feature.inverse.mfcc_to_audio — документация booka 0.10.0» . книги.орг .

[10] В. Тьяги и К. Веллекенс (2005), О снижении чувствительности Mel-Цепстра к ложным спектральным компонентам для надежного распознавания речи , в журнале «Акустика, речь и обработка сигналов», 2005. Труды. (ICASSP '05). Международная конференция IEEE, вып. 1, стр. 529–532.

[merm76-11] Jump up to: ^а ^б П. Мермельштейн (1976), « Измерения расстояния для распознавания речи, психологического и инструментального», в книге «Распознавание образов и искусственный интеллект» , CH Chen, Ed., стр. 374–388. Академический, Нью-Йорк.

[merm80-12] Jump up to: ^а ^б С. Б. Дэвис и П. Мермельштейн (1980), « Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях », в IEEE Transactions on Acoustics, Speech and Signal Processing , 28 (4), стр. 357–366.

[13] Дж. С. Бридл и доктор медицинских наук Браун (1974), «Экспериментальная автоматическая система распознавания слов», отчет JSRU № 1003, Объединенное подразделение исследования речи, Руислип, Англия.

[14] Нельсон Морган ; Эрве Бурлар и Хинек Германский (2004). «Автоматическое распознавание речи: слуховая перспектива» . Стивен Гринберг и Уильям А. Эйнсворт (ред.). Обработка речи в слуховой системе . Спрингер. п. 315. ИСБН 978-0-387-00590-4 .

[15] LCW Pols (1966), «Спектральный анализ и идентификация голландских гласных в односложных словах», докторская диссертация, Свободный университет, Амстердам, Нидерланды.

[16] Р. Пломп, LCW Полс и Дж. П. ван де Гир (1967). « Размерный анализ спектров гласных ». Дж. Акустическое общество Америки, 41(3):707–712.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]