Jump to content

Мел-частотный кепстр

В обработке звука мел -частотный кепстр ( MFC ) представляет собой представление кратковременного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности в нелинейной мел-шкале частоты.

Мел-частотные кепстральные коэффициенты ( MFCC ) — это коэффициенты, которые в совокупности составляют MFC. [1] Они получены из типа кепстрального представления аудиоклипа (нелинейный «спектр-спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC полосы частот равномерно распределены по шкале мел, что более точно аппроксимирует реакцию слуховой системы человека, чем линейно разнесенные полосы частот, используемые в нормальном спектре. Такое искажение частоты может обеспечить лучшее представление звука, например, при сжатии звука , что потенциально может уменьшить полосу пропускания передачи и требования к хранению аудиосигналов.

MFCC обычно получают следующим образом: [2] [3]

  1. Возьмите преобразование Фурье (выдержка из окна) сигнала.
  2. Сопоставьте мощности спектра, полученного выше, с масштабом mel , используя треугольные перекрывающиеся окна или, альтернативно, косинусные перекрывающиеся окна .
  3. Возьмите журналы мощностей на каждой из мел-частот.
  4. Возьмите дискретное косинусное преобразование списка меллогарифмических степеней, как если бы это был сигнал.
  5. MFCC — это амплитуды результирующего спектра.

Могут быть вариации этого процесса, например: различия в форме или расстоянии между окнами, используемыми для отображения масштаба, [4] или добавление динамических характеристик, таких как коэффициенты «дельта» и «дельта-дельта» (разница между кадрами первого и второго порядка). [5]

Европейский институт телекоммуникационных стандартов в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . [6]

Приложения

[ редактировать ]

MFCC обычно используются в качестве функций распознавания речи. [7] системы, такие как системы, которые могут автоматически распознавать номера, произнесенные по телефону.

MFCC также все чаще находят применение в приложениях поиска музыкальной информации , таких как классификация жанров , меры сходства аудио и т. Д. [8]

MFCC для распознавания говорящего

[ редактировать ]

Поскольку полосы частот Mel распределены в MFCC равномерно и они очень похожи на голосовую систему человека, MFCC можно эффективно использовать для характеристики говорящих. Например, его можно использовать для распознавания деталей модели мобильного телефона говорящего и дополнительных сведений о говорящем. [4]

Этот тип распознавания мобильных устройств возможен, поскольку при производстве электронных компонентов телефона существуют допуски, поскольку разные реализации электронных схем не имеют одинаковых передаточных функций . Различия в передаточной функции от одной реализации к другой становятся более заметными, если схемы, выполняющие задачу, от разных производителей. Следовательно, каждый сотовый телефон вносит сверточное искажение во входную речь, что оказывает уникальное влияние на записи с мобильного телефона. Таким образом, конкретный телефон можно идентифицировать по записанной речи путем умножения исходного частотного спектра на дальнейшее умножение передаточных функций, специфичных для каждого телефона, с последующими методами обработки сигнала. Таким образом, с помощью MFCC можно охарактеризовать записи мобильного телефона, чтобы идентифицировать марку и модель телефона. [5]

Рассматривая раздел записи мобильного телефона как линейный, не зависящий от времени ( LTI ) фильтр:

Импульсная характеристика - h(n) , записанный речевой сигнал y(n) как выходной сигнал фильтра в ответ на входной сигнал x(n).

Следовательно, (свертка)

Поскольку речь не является стационарным сигналом, она разбивается на перекрывающиеся кадры, внутри которых сигнал считается стационарным. Итак, Кратковременный сегмент (кадр) записанной входной речи – это:

,

где w(n) : оконная функция длины W.

Следовательно, как указано, след мобильного телефона записанной речи представляет собой сверточное искажение, которое помогает идентифицировать записывающий телефон.

Встроенная идентичность сотового телефона требует преобразования в более легко идентифицируемую форму, следовательно, требуется кратковременное преобразование Фурье:

можно рассматривать как объединенную передаточную функцию, которая создает входную речь и записанную речь. может быть воспринято как оригинальная речь с мобильного телефона.

Таким образом, в качестве исходного источника записанной речи рассматривается эквивалентная передаточная функция речевого тракта и диктофона сотового телефона. Поэтому,

где Xew(f) – функция возбуждения, – передаточная функция голосового тракта для речи в рама и — это эквивалентная передаточная функция, характеризующая сотовый телефон.

Этот подход может быть полезен для распознавания говорящего, поскольку идентификация устройства и идентификация говорящего очень тесно связаны.

Принимая во внимание важность огибающей спектра, который умножается на банк фильтров (подходящий кепстр с банком фильтров мел-масштаба), после сглаживания банка фильтров с передаточной функцией U (f) логарифмическая операция над выходными энергиями выглядит следующим образом:

Представляя

MFCC успешен благодаря этому нелинейному преобразованию с аддитивными свойствами.

Преобразование обратно во временную область:

где cy(j), ce(j), cw(j) — записанный речевой кепстр и взвешенная эквивалентная импульсная характеристика записывающего устройства сотового телефона, характеризующая сотовый телефон, соответственно, а j — количество фильтров в банке фильтров.

Точнее, специфичная для устройства информация находится в записанной речи, которая преобразуется в аддитивную форму, подходящую для идентификации.

cy(j) может быть дополнительно обработан для идентификации записывающего телефона.

Часто используемые длины кадров — 20 или 20 мс.

Часто используемые оконные функции — окна Хэмминга и Хэннинга.

Следовательно, Mel-шкала — это широко используемая шкала частот, линейная до 1000 Гц и логарифмическая выше нее.

Расчет центральных частот фильтров в Mel-шкале:

, основание 10.

Основная процедура расчета MFCC:

  1. Выходные данные банка логарифмических фильтров умножаются на 20 для получения огибающих спектра в децибелах.
  2. MFCC получаются путем дискретного косинусного преобразования (DCT) огибающей спектра.
  3. Коэффициенты кепстра получаются как:

, ,

где соответствует -й коэффициент MFCC, количество треугольных фильтров в банке фильтров, - это логарифм выходной энергии -й коэффициент фильтра, и — количество коэффициентов MFCC, которые мы хотим вычислить.

Инверсия

[ редактировать ]

MFCC можно приблизительно инвертировать в аудио в четыре этапа: (a1) обратное DCT для получения спектрограммы мел-логарифмической мощности [дБ], (a2) преобразование в мощность для получения мел-спектрограммы мощности, (b1) изменение масштаба для получения короткого сигнала величины временного преобразования Фурье и, наконец, (b2) фазовая реконструкция и синтез звука с использованием Griffin-Lim. Каждый шаг соответствует одному шагу расчета MFCC. [9]

Чувствительность к шуму

[ редактировать ]

Значения MFCC не очень устойчивы в присутствии аддитивного шума, поэтому их значения обычно нормализуют в системах распознавания речи, чтобы уменьшить влияние шума. Некоторые исследователи предлагают модификации базового алгоритма MFCC для повышения надежности, например, путем повышения логарифмических амплитуд до подходящей степени (около 2 или 3) перед выполнением дискретного косинусного преобразования (DCT), что снижает влияние низких частот. энергетические компоненты. [10]

Пол Мермельштейн [11] [12] обычно приписывают развитие MFC. Мермельштейн благодарит Брайдла и Брауна [13] за идею:

Брайдл и Браун использовали набор из 19 взвешенных коэффициентов формы спектра, определяемых косинусным преобразованием выходных сигналов набора неравномерно расположенных полосовых фильтров. Шаг фильтра выбирается логарифмическим выше 1 кГц, и там также увеличивается полоса пропускания фильтра. Поэтому мы будем называть их кепстральными параметрами на основе мела. [11]

Иногда цитируются оба ранних создателя. [14]

Многие авторы, в том числе Дэвис и Мермельштейн, [12] отметили, что спектральные базисные функции косинусного преобразования в MFC очень похожи на основные компоненты логарифмических спектров, которые гораздо раньше применялись к представлению и распознаванию речи Полсом и его коллегами. [15] [16]

См. также

[ редактировать ]
  1. ^ Мин Сюй; и др. (2004). «Генерация ключевых слов для аудио на основе HMM» (PDF) . В Киёхару Айзава; Юичи Накамура; Шиничи Сато (ред.). Достижения в области обработки мультимедийной информации – PCM 2004: 5-я Тихоокеанская конференция по мультимедиа . Спрингер. ISBN  978-3-540-23985-7 . Архивировано из оригинала (PDF) 10 мая 2007 г.
  2. ^ Сахидулла, штат Мэриленд; Саха, Гутам (май 2012 г.). «Разработка, анализ и экспериментальная оценка блочного преобразования в вычислениях MFCC для распознавания говорящего». Речевое общение . 54 (4): 543–565. дои : 10.1016/j.specom.2011.11.004 . S2CID   14985832 .
  3. ^ Абдулсатар, Ассим Ара; Давыдов В.В.; Юшкова В.В.; Глинушкин А.П.; Рудь, В Ю (01.12.2019). «Распознавание возраста и пола по речевым сигналам» . Физический журнал: серия конференций . 1410 (1): 012073. Бибкод : 2019JPhCS1410a2073A . дои : 10.1088/1742-6596/1410/1/012073 . ISSN   1742-6588 . S2CID   213065622 .
  4. ^ Jump up to: а б Фан Чжэн, Гуолян Чжан и Чжаньцзян Сун (2001), « Сравнение различных реализаций MFCC », J. Computer Science & Technology, 16 (6): 582–589.
  5. ^ Jump up to: а б С. Фуруи (1986), «Независимое от говорящего распознавание отдельных слов на основе подчеркнутой спектральной динамики»
  6. ^ Европейский институт телекоммуникационных стандартов (2003), Аспекты обработки, передачи и качества речи (STQ); Распределенное распознавание речи; Алгоритм извлечения функций внешнего интерфейса; Алгоритмы сжатия . Технический стандарт ES 201 108, v1.1.3.
  7. ^ Т. Ганчев, Н. Факотакис и Г. Коккинакис (2005), « Сравнительная оценка различных реализаций MFCC для задачи проверки говорящего. Архивировано 17 июля 2011 г. на Wayback Machine », на 10-й Международной конференции по речи и компьютеру ( СПЕКОМ 2005), Том. 1, стр. 191–194.
  8. ^ Мейнард Мюллер (2007). Поиск информации о музыке и движении . Спрингер. п. 65. ИСБН  978-3-540-74047-6 .
  9. ^ «librosa.feature.inverse.mfcc_to_audio — документация booka 0.10.0» . книги.орг .
  10. ^ В. Тьяги и К. Веллекенс (2005), О снижении чувствительности Mel-Цепстра к ложным спектральным компонентам для надежного распознавания речи , в журнале «Акустика, речь и обработка сигналов», 2005. Труды. (ICASSP '05). Международная конференция IEEE, вып. 1, стр. 529–532.
  11. ^ Jump up to: а б П. Мермельштейн (1976), « Измерения расстояния для распознавания речи, психологического и инструментального», в книге «Распознавание образов и искусственный интеллект» , CH Chen, Ed., стр. 374–388. Академический, Нью-Йорк.
  12. ^ Jump up to: а б С. Б. Дэвис и П. Мермельштейн (1980), « Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях », в IEEE Transactions on Acoustics, Speech and Signal Processing , 28 (4), стр. 357–366.
  13. ^ Дж. С. Бридл и доктор медицинских наук Браун (1974), «Экспериментальная автоматическая система распознавания слов», отчет JSRU № 1003, Объединенное подразделение исследования речи, Руислип, Англия.
  14. ^ Нельсон Морган ; Эрве Бурлар и Хинек Германский (2004). «Автоматическое распознавание речи: слуховая перспектива» . Стивен Гринберг и Уильям А. Эйнсворт (ред.). Обработка речи в слуховой системе . Спрингер. п. 315. ИСБН  978-0-387-00590-4 .
  15. ^ LCW Pols (1966), «Спектральный анализ и идентификация голландских гласных в односложных словах», докторская диссертация, Свободный университет, Амстердам, Нидерланды.
  16. ^ Р. Пломп, LCW Полс и Дж. П. ван де Гир (1967). « Размерный анализ спектров гласных ». Дж. Акустическое общество Америки, 41(3):707–712.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 78b801b5c363dd795468a31f4ce76bc1__1720519500
URL1:https://arc.ask3.ru/arc/aa/78/c1/78b801b5c363dd795468a31f4ce76bc1.html
Заголовок, (Title) документа по адресу, URL1:
Mel-frequency cepstrum - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)