Семантическое аудио

Семантическое аудио — это извлечение смысла из звуковых сигналов . Область семантического аудио в первую очередь основана на анализе аудио для создания значимых метаданных, которые затем можно использовать различными способами.

Семантический анализ

Семантический анализ звука выполняется для более глубокого понимания аудиосигнала. высокого уровня, Обычно это приводит к созданию дескрипторов метаданных таких как музыкальные аккорды и темп, или идентификации говорящего, чтобы облегчить управление аудиозаписями на основе контента. В последние годы значительно возросло распространение методов автоматического анализа данных.

Поиск музыкальной информации
Распознавание звука
Сегментация речи
Автоматическая транскрипция музыки
Слепое разделение источников
Музыкальное сходство
Индексирование аудио, хеширование, поиск
Мониторинг вещания
Анализ музыкального исполнения

Приложения

С развитием приложений, которые используют эту семантическую информацию для поддержки пользователя в идентификации, организации и исследовании аудиосигналов, а также взаимодействии с ними. Эти приложения включают поиск музыкальной информации, семантические веб-технологии, производство звука, воспроизведение звука, образование и игры. Семантическая технология предполагает определенное понимание значения информации, с которой она имеет дело, и с этой целью может включать машинное обучение, цифровую обработку сигналов, обработку речи, разделение источников, модели восприятия слуха, музыковедческие знания, метаданные и онтологии.

Помимо технологий поиска и рекомендаций аудио, семантика аудиосигналов также становится все более важной, например, при объектно-ориентированном кодировании аудио, а также интеллектуальном редактировании и обработке аудио. Недавние выпуски продуктов уже в значительной степени демонстрируют это, однако неизбежны более инновационные функциональные возможности, основанные на семантическом анализе и управлении аудио. Эти функциональные возможности могут использовать, например, (информированное) разделение источников звука, сегментацию и идентификацию говорящих, структурную сегментацию музыки или технологии социальной и семантической сети , включая онтологии и связанные открытые данные.

Распознавание речи является важным семантическим аудиоприложением. Но для речи другие семантические операции включают идентификацию языка , идентификацию говорящего или идентификацию пола. Для более общего звука или музыки он включает в себя идентификацию музыкального произведения (например, Shazam (музыкальное приложение) ) или саундтрека к фильму.

Области исследований семантического звука включают в себя способность маркировать форму звукового сигнала, указывая, где и каковы гармонии, а также где материал повторяется и на каких инструментах играют.

Семантическое аудио и семантическая сеть

Семантическая сеть предоставляет мощную основу для выражения и повторного использования структурированных данных. Использование и хранение дескрипторов семантического аудио в структуре семантической сети обеспечивает гораздо больший охват и унификацию стандарта для хранения и управления связанными метаданными семантического аудио. Для хранения и управления аудио в семантической сети был разработан ряд онтологий, в том числе (Музыкальная онтология) [1] , (Студийная онтология) [2] и (Онтология аудиофункций) [3].

Семантический слух

Семантический слух был предложен для гарнитур, чтобы пользователи могли выбирать, какие звуки они хотят слышать в своей среде, на основе их семантического описания. ^[1] Эта технология наушников с шумоподавлением использует нейронные сети в реальном времени , чтобы позволить пользователям снова включить определенные звуки, которые они хотели бы слышать, например плач младенцев, щебетание птиц или звон будильника. ^[2] Подобные возможности наушников и вкладышей могут предоставить пользователям определенную степень контроля над звуками, которые их окружают. Это может принести пользу людям, которым для работы требуется целенаправленное слушание, например медицинским работникам, военным и инженерам, а также работникам заводов или строителей, а также при разработке интеллектуальных слуховых аппаратов. ^[2]

См. также

Аудио анализ

Ссылки

^ Велури, Бандхав; Итани, Малек; Чан, Джастин; Ёсиока, Такуя; Голлакота, Шьямнатх (29 октября 2023 г.). «Семантический слух: программирование акустических сцен с помощью бинауральных наушников» . Материалы 36-го ежегодного симпозиума ACM по программному обеспечению и технологиям пользовательского интерфейса . УИСТ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–15. arXiv : 2311.00320 . дои : 10.1145/3586183.3606779 . ISBN 979-8-4007-0132-0 .
^ Перейти обратно: ^а ^б «Наушники с шумоподавлением позволят вам выбирать те звуки, которые вы хотите слышать» . Обзор технологий Массачусетского технологического института . Проверено 11 ноября 2023 г.

Внешние ссылки

[1] Велури, Бандхав; Итани, Малек; Чан, Джастин; Ёсиока, Такуя; Голлакота, Шьямнатх (29 октября 2023 г.). «Семантический слух: программирование акустических сцен с помощью бинауральных наушников» . Материалы 36-го ежегодного симпозиума ACM по программному обеспечению и технологиям пользовательского интерфейса . УИСТ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–15. arXiv : 2311.00320 . дои : 10.1145/3586183.3606779 . ISBN 979-8-4007-0132-0 .

[:0-2] Перейти обратно: ^а ^б «Наушники с шумоподавлением позволят вам выбирать те звуки, которые вы хотите слышать» . Обзор технологий Массачусетского технологического института . Проверено 11 ноября 2023 г.

[1]

[2]