Семантическое аудио
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2024 г. ) |
![]() | Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по определенной теме. ( февраль 2024 г. ) |
Семантическое аудио — это извлечение смысла из звуковых сигналов . Область семантического аудио в первую очередь основана на анализе аудио для создания значимых метаданных, которые затем можно использовать различными способами.
Семантический анализ
[ редактировать ]Семантический анализ звука выполняется для более глубокого понимания аудиосигнала. высокого уровня, Обычно это приводит к созданию дескрипторов метаданных таких как музыкальные аккорды и темп, или идентификации говорящего, чтобы облегчить управление аудиозаписями на основе контента. В последние годы значительно возросло распространение методов автоматического анализа данных.
- Поиск музыкальной информации
- Распознавание звука
- Сегментация речи
- Автоматическая транскрипция музыки
- Слепое разделение источников
- Музыкальное сходство
- Индексирование аудио, хеширование, поиск
- Мониторинг вещания
- Анализ музыкального исполнения
Приложения
[ редактировать ]С развитием приложений, которые используют эту семантическую информацию для поддержки пользователя в идентификации, организации и исследовании аудиосигналов, а также взаимодействии с ними. Эти приложения включают поиск музыкальной информации, семантические веб-технологии, производство звука, воспроизведение звука, образование и игры. Семантическая технология предполагает определенное понимание значения информации, с которой она имеет дело, и с этой целью может включать машинное обучение, цифровую обработку сигналов, обработку речи, разделение источников, модели восприятия слуха, музыковедческие знания, метаданные и онтологии.
Помимо технологий поиска и рекомендаций аудио, семантика аудиосигналов также становится все более важной, например, при объектно-ориентированном кодировании аудио, а также интеллектуальном редактировании и обработке аудио. Недавние выпуски продуктов уже в значительной степени демонстрируют это, однако неизбежны более инновационные функциональные возможности, основанные на семантическом анализе и управлении аудио. Эти функциональные возможности могут использовать, например, (информированное) разделение источников звука, сегментацию и идентификацию говорящих, структурную сегментацию музыки или технологии социальной и семантической сети , включая онтологии и связанные открытые данные.
Распознавание речи является важным семантическим аудиоприложением. Но для речи другие семантические операции включают идентификацию языка , идентификацию говорящего или идентификацию пола. Для более общего звука или музыки он включает в себя идентификацию музыкального произведения (например, Shazam (музыкальное приложение) ) или саундтрека к фильму.
Области исследований семантического звука включают в себя способность маркировать форму звукового сигнала, указывая, где и каковы гармонии, а также где материал повторяется и на каких инструментах играют.
Семантическое аудио и семантическая сеть
[ редактировать ]Семантическая сеть предоставляет мощную основу для выражения и повторного использования структурированных данных. Использование и хранение дескрипторов семантического аудио в структуре семантической сети обеспечивает гораздо больший охват и унификацию стандарта для хранения и управления связанными метаданными семантического аудио. Для хранения и управления аудио в семантической сети был разработан ряд онтологий, в том числе (Музыкальная онтология) [1] , (Студийная онтология) [2] и (Онтология аудиофункций) [3].
Семантический слух
[ редактировать ]Семантический слух был предложен для гарнитур, чтобы пользователи могли выбирать, какие звуки они хотят слышать в своей среде, на основе их семантического описания. [1] Эта технология наушников с шумоподавлением использует нейронные сети в реальном времени , чтобы позволить пользователям снова включить определенные звуки, которые они хотели бы слышать, например плач младенцев, щебетание птиц или звон будильника. [2] Подобные возможности наушников и вкладышей могут предоставить пользователям определенную степень контроля над звуками, которые их окружают. Это может принести пользу людям, которым для работы требуется целенаправленное слушание, например медицинским работникам, военным и инженерам, а также работникам заводов или строителей, а также при разработке интеллектуальных слуховых аппаратов. [2]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Велури, Бандхав; Итани, Малек; Чан, Джастин; Ёсиока, Такуя; Голлакота, Шьямнатх (29 октября 2023 г.). «Семантический слух: программирование акустических сцен с помощью бинауральных наушников» . Материалы 36-го ежегодного симпозиума ACM по программному обеспечению и технологиям пользовательского интерфейса . УИСТ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–15. arXiv : 2311.00320 . дои : 10.1145/3586183.3606779 . ISBN 979-8-4007-0132-0 .
- ^ Перейти обратно: а б «Наушники с шумоподавлением позволят вам выбирать те звуки, которые вы хотите слышать» . Обзор технологий Массачусетского технологического института . Проверено 11 ноября 2023 г.