Jump to content

Аудио майнинг

Добыча аудио — это метод, с помощью которого содержимое аудиосигнала можно автоматически анализировать и искать. Чаще всего он используется в области автоматического распознавания речи , где анализ пытается идентифицировать любую речь в аудио. Термин «интеллектуальный анализ аудио» иногда используется взаимозаменяемо с индексированием аудио, фонетическим поиском, фонетическим индексированием, индексированием речи, аудиоаналитикой, речевым анализом , обнаружением слов и поиском информации . Однако индексирование аудио в основном используется для описания предварительного процесса интеллектуального анализа аудио, при котором аудиофайл разбивается на индекс слов с возможностью поиска.

Академические исследования в области анализа аудио начались в конце 1970-х годов в таких школах, как Университет Карнеги-Меллон, Колумбийский университет, Технологический институт Джорджии и Техасский университет. [1] Индексирование и поиск аудиоданных начали привлекать внимание и требоваться в начале 1990-х годов, когда начал развиваться мультимедийный контент и объем аудиоконтента значительно увеличился. [2] До того, как интеллектуальный анализ аудио стал основным методом, письменные расшифровки аудиоконтента создавались и анализировались вручную. [3]

Интеллектуальный анализ аудио обычно делится на четыре компонента: индексирование аудио, системы обработки и распознавания речи, извлечение признаков и классификация аудио. [4] Звук обычно обрабатывается системой распознавания речи, чтобы идентифицировать единицы слов или фонем , которые могут встречаться в произнесенном контенте. Эта информация может быть либо немедленно использована при заранее заданном поиске по ключевым словам или фразам (система «определения слов» в реальном времени), либо выходные данные распознавателя речи могут быть сохранены в индексном файле. Позднее можно загрузить один или несколько индексных файлов интеллектуального анализа аудио, чтобы выполнить поиск по ключевым словам или фразам.Результаты поиска обычно выражаются в виде совпадений, то есть областей внутри файлов, которые хорошо соответствуют выбранным ключевым словам. Затем пользователь может прослушать аудио, соответствующее этим попаданиям, чтобы проверить, было ли найдено правильное совпадение.

Индексирование аудио

[ редактировать ]

В аудио есть основная проблема поиска информации – необходимость найти текстовые документы, содержащие ключ поиска. В отличие от людей, компьютер не способен различать различные типы аудио, такие как скорость, настроение, шум, музыка или человеческая речь — необходим эффективный метод поиска. Следовательно, индексирование аудио позволяет эффективно искать информацию путем анализа всего файла с использованием распознавания речи. Затем создается индекс контента, включающий слова и их расположение, выполняемый посредством поиска аудио на основе контента с упором на извлеченные аудиофункции.

Это делается в основном с помощью двух методов: распознавание непрерывной речи с большим словарным запасом (LVCSR) и индексирование на фонетической основе.

Распознаватель непрерывной речи с большим словарным запасом (LVCSR)

[ редактировать ]

При индексировании текста или распознавании непрерывной речи с большим словарным запасом (LVCSR) аудиофайл сначала разбивается на распознаваемые фонемы. Затем он просматривается в словаре , который может содержать несколько сотен тысяч статей, и сопоставляется со словами и фразами для получения полной текстовой расшифровки. Затем пользователь может просто выполнить поиск по нужному словесному термину, и ему будет возвращена соответствующая часть аудиоконтента.Если текст или слово не удалось найти в словаре, система выберет следующую наиболее похожую запись, которую сможет найти. Система использует модель понимания языка, чтобы создать уровень достоверности для совпадений. Если уровень достоверности будет ниже 100 процентов, система предоставит варианты всех найденных совпадений. [5]

Преимущества и недостатки
[ редактировать ]

Основным преимуществом LVCSR является его высокая точность и высокая скорость поиска. В LVCSR статистические методы используются для прогнозирования вероятности различных последовательностей слов, поэтому точность намного выше, чем при фонетическом поиске по одному слову. Если слово можно найти, вероятность произнесения слова очень высока. [6] Между тем, хотя первоначальная обработка аудио занимает немало времени, поиск выполняется быстро, поскольку необходима простая проверка на соответствие текста.

С другой стороны, LVCSR подвержен общим проблемам распознавания речи . Присущая звуку случайная природа и проблемы внешнего шума влияют на точность индексации текста.

Еще одна проблема с LVCSR — чрезмерная зависимость от словарной базы данных. LVCSR распознает только слова, которые встречаются в их словарных базах данных, и эти словари и базы данных не могут идти в ногу с постоянным развитием новой терминологии , имен и слов. Если словарь не содержит слова, система не сможет его идентифицировать или предсказать. Это снижает точность и надежность системы. Это называется проблемой отсутствия словарного запаса (OOV). Системы интеллектуального анализа аудио пытаются справиться с OOV, постоянно обновляя используемый словарь и языковую модель, но проблема по-прежнему остается серьезной и требует поиска альтернатив. [7]

Кроме того, из-за необходимости постоянно обновлять и поддерживать знания, основанные на задачах, и большие базы данных обучения для решения проблемы OOV, возникают высокие вычислительные затраты. Это делает LVCSR дорогостоящим подходом к майнингу аудио.

Фонетическое индексирование

[ редактировать ]

Индексирование на основе фонетики также разбивает аудиофайл на распознаваемые фонемы, но вместо преобразования их в текстовый индекс они сохраняются в исходном виде и анализируются для создания фонетического индекса.Процесс фонетической индексации можно разделить на два этапа. Первый этап – индексация. Он начинается с преобразования входного носителя в стандартный формат представления звука ( PCM ). Затем к речи применяется акустическая модель. Эта акустическая модель представляет характеристики как акустического канала (среды, в которой была произнесена речь, так и преобразователя, через который она была записана), и естественного языка (на котором люди выражали входную речь). В результате создается соответствующая дорожка фонетического поиска или фонетическая звуковая дорожка (PAT), сильно сжатое представление фонетического содержания входного мультимедиа. Второй этап – поиск. Термин поискового запроса пользователя анализируется в возможную строку фонемы с использованием фонетического словаря. Затем несколько файлов PAT можно сканировать с высокой скоростью во время одного поиска вероятных фонетических последовательностей, которые точно соответствуют соответствующим строкам фонем в термине запроса. [8] [9]

Преимущества и недостатки
[ редактировать ]

Фонетическое индексирование наиболее привлекательно, поскольку на него практически не влияют лингвистические проблемы, такие как нераспознанные слова и орфографические ошибки. Фонетическая предварительная обработка поддерживает открытый словарь, который не требует обновления. Это делает его особенно полезным для поиска специализированной терминологии или слов на иностранных языках, которые обычно не встречаются в словарях. Он также более эффективен для поиска аудиофайлов с мешающим фоновым шумом и/или нечеткими высказываниями, поскольку он может компилировать результаты на основе звуков, которые он может различить, и, если пользователь пожелает, он может выполнять поиск по параметрам, пока не найдет нужный элемент. . [10]

Кроме того, в отличие от LVCSR, он может обрабатывать аудиофайлы очень быстро, поскольку в разных языках очень мало уникальных фонем. Однако фонемы не могут быть эффективно проиндексированы, как целое слово, поэтому поиск в фонетической системе происходит медленно. [11]

Проблема фонетического индексирования заключается в его низкой точности. Поиск на основе фонем приводит к большему количеству ложных совпадений, чем индексация на основе текста. Это особенно распространено для коротких поисковых запросов, которые с большей вероятностью будут звучать похоже на другие слова или быть частью более крупных слов. Он также может возвращать нерелевантные результаты из других языков. Если система не распознает точно все слово или не понимает фонетические последовательности языков, фонетическому индексированию будет сложно дать точные результаты. [12]

Система обработки и распознавания речи

[ редактировать ]

Распознавание речи, которое считается наиболее важным и сложным компонентом интеллектуального анализа звука, требует знания системы производства человеческой речи и ее моделирования.

Чтобы соответствовать системе производства человеческой речи, разработана электрическая система производства речи, состоящая из:

  • Генерация речи
  • Восприятие речи
  • Звонкая и невокализованная речь
  • Модель человеческой речи

Электрическая система производства речи преобразует акустический сигнал в соответствующее представление разговорной речи с помощью акустических моделей в своем программном обеспечении, в которых представлены все фонемы. Статистическая языковая модель помогает в этом процессе, определяя, насколько вероятно, что слова будут следовать друг за другом в определенных языках. В сочетании со сложным вероятностным анализом система распознавания речи способна брать неизвестный речевой сигнал и транскрибировать его в слова на основе словаря программы. [13] [14]

Система ASR (автоматическое распознавание речи) включает в себя:

  • Акустический анализ : форма входного звукового сигнала преобразуется в объект.
  • Акустическая модель : устанавливает связь между речевым сигналом и фонемами, моделью произношения и моделью языка. Алгоритмы обучения применяются к речевой базе данных для создания статистического представления каждой фонемы, таким образом генерируя акустическую модель с набором фонем и мерами их вероятности.
  • Модель произношения : фонемы сопоставлены с конкретными словами.
  • Языковая модель : слова организованы в значимые предложения.

Некоторые приложения обработки речи включают распознавание речи, кодирование речи, аутентификацию говорящего, улучшение речи и синтез речи.

Извлечение признаков

[ редактировать ]

Обязательным условием всего процесса распознавания речи является извлечение признаков, которое сначала должно быть установлено в системе. Аудиофайлы должны быть обработаны от начала до конца, чтобы не потерять важную информацию.

Путем дифференциации источников звука по высоте, тембральным особенностям, ритмическим особенностям, негармоничности, автокорреляции и другим характеристикам, основанным на предсказуемости сигнала, статистической закономерности и динамических характеристиках.

Обеспечение стандартизации при извлечении признаков регулируется международными стандартными функциями MPEG-7 , где функции классификации аудио или речевых сигналов фиксируются с точки зрения методов, используемых для анализа и представления необработанных данных с точки зрения определенных функций.

Стандартные методы извлечения речи:

  • Линейное прогнозирующее кодирование (LPC) оценивает текущий образец речи путем анализа предыдущего образца речи.
  • Кепстральный коэффициент Mel-частоты (MFCC) представляет речевой сигнал в параметрической форме с использованием шкалы Mel.
  • Перцептивное линейное прогнозирование (PLP) учитывает человеческую речь.

Однако эти три метода не идеальны, поскольку нестационарные сигналы игнорируются. Нестационарные сигналы можно анализировать с помощью Фурье и кратковременного Фурье , а изменяющиеся во времени сигналы анализировать с помощью вейвлет- и дискретного вейвлет-преобразования (DWT) .

Классификация аудио

[ редактировать ]

Классификация аудио — это форма обучения с учителем , которая включает в себя анализ аудиозаписей. Он разделен на несколько категорий: классификация акустических данных, классификация звуков окружающей среды, музыкальная классификация и классификация произнесений на естественном языке. [15] Для этого процесса часто используются следующие характеристики: высота тона , тембральные характеристики , ритмические характеристики, негармоничность и корреляция звука, хотя могут использоваться и другие характеристики. Существует несколько методов классификации аудио с использованием существующих классификаторов, таких как k-Nearest Neighbours или наивный классификатор Байеса . Используя аннотированные аудиоданные, машины учатся распознавать и классифицировать звуки.

Также проводились исследования по использованию глубоких нейронных сетей для распознавания речи и классификации аудио из-за их эффективности в других областях, таких как классификация изображений. [16] Одним из методов использования DNN является преобразование аудиофайлов в файлы изображений с помощью спектрограмм для выполнения классификации. [ нужна ссылка ]

Применение аудио-майнинга

[ редактировать ]

Анализ аудио используется в таких областях, как анализ музыкального аудио (также известный как поиск музыкальной информации ), который связан с выявлением важных для восприятия характеристик музыкального произведения, таких как мелодическая, гармоническая или ритмическая структура. Затем можно выполнить поиск музыкальных произведений, схожих по своим мелодическим, гармоническим и/или ритмическим характеристикам.

В области лингвистики интеллектуальный анализ аудио использовался для фонетической обработки и семантического анализа. [17] Эффективность анализа звука при обработке аудиовизуальных данных помогает идентифицировать и сегментировать говорящего, а также транскрибировать текст. Благодаря этому процессу речь можно классифицировать, чтобы идентифицировать информацию или извлечь информацию с помощью ключевых слов, произнесенных в аудио. В частности, это использовалось для речевой аналитики . Колл-центры использовали эту технологию для проведения анализа в реальном времени, выявляя, среди прочего, изменения в тоне, настроении или высоте голоса, которые затем обрабатываются механизмом принятия решений или искусственным интеллектом для принятия дальнейших мер. [18] Дальнейшее использование было замечено в областях распознавания речи и приложений преобразования текста в речь.

Он также использовался в сочетании с интеллектуальным анализом видео, в таких проектах, как анализ данных фильмов.

См. также

[ редактировать ]
  1. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  2. ^ Чжан, Чжунфэй; Чжан, Руофэй (2008). Мультимедийный анализ данных: систематическое введение в концепции и теорию . ЦРК Пресс. ISBN  9781584889670 .
  3. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  4. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  5. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  6. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  7. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  8. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  9. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  10. ^ Кардилло, П.; Клементс, М.; Миллер, М. (2002). «Фонетический поиск против LVCSR: как найти в аудиоархивах то, что вам действительно нужно» . Международный журнал речевых технологий . 5 (1): 9–22. дои : 10.1023/А:1013670312989 . S2CID   36313454 . Проверено 23 апреля 2020 г.
  11. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  12. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  13. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .
  14. ^ Ливитт, Нил (2002). «Давайте послушаем это для майнинга аудио». Компьютер . 35 (10): 23–25. дои : 10.1109/MC.2002.1039511 .
  15. ^ Лим, Хенгти. «Что такое аудиоклассификация?» . Лайонбридж . Проверено 20 апреля 2020 г.
  16. ^ Смейлс, Майк. «Классификация звука с использованием глубокого обучения» . Середина . Проверено 20 апреля 2020 г.
  17. ^ Эззат, Сурайя; Эль-Гайар, Неамат; Ганем, Мустафа М. (2012). «Анализ тональности аудиоразговоров колл-центра с использованием классификации текста» (PDF) . Международный журнал компьютерных информационных систем и приложений промышленного управления . 4 : 619–627.
  18. ^ Кли, Леонард. «Век речевой аналитики близок» . Место назначенияCRM.com . Проверено 12 апреля 2020 г.

Дальнейшее чтение

[ редактировать ]

Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Спрингер. ISBN  978-981-13-6098-5 .

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b259371baf45c8669ce5ad31146cc778__1718064180
URL1:https://arc.ask3.ru/arc/aa/b2/78/b259371baf45c8669ce5ad31146cc778.html
Заголовок, (Title) документа по адресу, URL1:
Audio mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)