Jump to content

Компьютерное прослушивание

Компьютерное прослушивание ( CA ) или машинное прослушивание — это общая область изучения алгоритмов и систем машинной интерпретации звука. [1] [2] Поскольку представление о том, что значит для машины «слышать», очень широкое и несколько расплывчатое, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально занимались конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис , в интервью журналу Technology Review , рассказывает об этих системах — «программном обеспечении, которое использует звук для определения местоположения людей, перемещающихся по помещениям, контролирует машины на предмет надвигающихся поломок или активирует дорожные камеры для регистрации аварий». [3]

Вдохновленный моделями человеческого слуха , CA занимается вопросами представления, преобразования , группировки, использования музыкальных знаний и общей звуковой семантики с целью выполнения компьютером интеллектуальных операций над аудио и музыкальными сигналами. Технически это требует сочетания методов из области обработки сигналов , слухового моделирования , восприятия и познания музыки , распознавания образов и машинного обучения , а также более традиционных методов искусственного интеллекта для представления музыкальных знаний. [4] [5]

Приложения

[ редактировать ]

Подобно компьютерному зрению и обработке изображений, компьютерное прослушивание и аудиоинженерия связаны с пониманием звука, а не с его обработкой. Он также отличается от задач машинного понимания речи, поскольку имеет дело с общими звуковыми сигналами, такими как звуки природы и музыкальные записи.

Применение компьютерного прослушивания широко варьируется и включает в себя поиск звуков , распознавание жанров , акустический мониторинг, транскрипцию музыки , отслеживание партитуры, звуковую текстуру , музыкальную импровизацию , эмоции в аудио и так далее.

[ редактировать ]

Компьютерное прослушивание пересекается со следующими дисциплинами:

  • Поиск музыкальной информации : методы поиска и анализа сходства между музыкальными сигналами.
  • Анализ слуховой сцены : понимание и описание источников звука и событий.
  • Вычислительная музыковедение и математическая теория музыки: использование алгоритмов, использующих музыкальные знания для анализа музыкальных данных.
  • Компьютерная музыка : использование компьютеров в творческих музыкальных приложениях.
  • Машинная музыкальность: интерактивные музыкальные системы, управляемые прослушиванием.

Области обучения

[ редактировать ]

Поскольку аудиосигналы интерпретируются системой «ухо-мозг» человека, этот сложный механизм восприятия должен быть каким-то образом смоделирован в программном обеспечении для «машинного прослушивания». Другими словами, чтобы работать наравне с людьми, компьютер должен слышать и понимать аудиоконтент так же, как это делают люди. Точный анализ звука включает в себя несколько областей: электротехника (спектральный анализ, фильтрация и преобразование звука); искусственный интеллект (машинное обучение и звуковая классификация); [6] психоакустика (звуковое восприятие); когнитивные науки (нейронауки и искусственный интеллект); [7] акустика (физика звукоизвлечения); и музыка (гармония, ритм и тембр). Более того, аудиопреобразования, такие как сдвиг высоты тона, растяжение времени и фильтрация звуковых объектов, должны быть значимыми с точки зрения восприятия и музыки. Для достижения наилучших результатов эти преобразования требуют перцептивного понимания спектральных моделей, извлечения признаков высокого уровня и звукового анализа/синтеза. Наконец, структурирование и кодирование содержимого аудиофайла (звука и метаданных) может выиграть от эффективных схем сжатия, которые отбрасывают неслышимую информацию в звуке. [8] Вычислительные модели музыки, восприятия и познания звука могут привести к более значимому представлению, более интуитивному цифровому манипулированию и генерации звука и музыки в музыкальных человеко-машинных интерфейсах.

Исследование ЦА можно условно разделить на следующие подзадачи:

  1. Представление: сигнальное и символическое. Этот аспект касается частотно-временных представлений как в виде нот, так и в виде спектральных моделей, включая воспроизведение паттернов и текстуру звука.
  2. Извлечение признаков : звуковые дескрипторы, сегментация, начало, высоты и огибающей обнаружение , цветность и слуховые представления.
  3. Структуры музыкальных знаний: анализ тональности , ритма и гармонии .
  4. Звуковое сходство: методы сравнения звуков, идентификации звука, обнаружения новизны, сегментации и кластеризации.
  5. Моделирование последовательностей: сопоставление и выравнивание сигналов и последовательностей нот.
  6. Разделение источников: методы группировки одновременных звуков, такие как обнаружение нескольких тонов и методы частотно-временной кластеризации.
  7. Слуховое познание: моделирование эмоций, предвкушение и знакомство, слуховое удивление и анализ музыкальной структуры.
  8. Мультимодальный анализ: поиск соответствий между текстовыми, визуальными и звуковыми сигналами.

Проблемы представительства

[ редактировать ]

Компьютерное прослушивание имеет дело с аудиосигналами, которые могут быть представлены различными способами: от прямого кодирования цифрового звука в двух или более каналах до символически представленных инструкций синтеза. Аудиосигналы обычно представляются в виде аналоговых или цифровых записей. Цифровые записи представляют собой образцы акустических сигналов или параметры алгоритмов сжатия звука . Одним из уникальных свойств музыкальных сигналов является то, что они часто сочетают в себе различные типы представлений, такие как графические партитуры и последовательности исполнительских действий, закодированные в виде MIDI- файлов.

Поскольку аудиосигналы обычно содержат несколько источников звука, в отличие от речевых сигналов, которые можно эффективно описать с помощью конкретных моделей (например, модели исходного фильтра), сложно разработать параметрическое представление для общего звука. Параметрические представления звука обычно используют банки фильтров или синусоидальные модели для захвата нескольких параметров звука, иногда увеличивая размер представления, чтобы уловить внутреннюю структуру сигнала. Дополнительными типами данных, которые важны для компьютерного прослушивания, являются текстовые описания аудиоконтента, такие как аннотации, обзоры и визуальная информация в случае аудиовизуальных записей.

Описание содержания общих аудиосигналов обычно требует выделения признаков, которые отражают конкретные аспекты аудиосигнала. Вообще говоря, можно разделить характеристики на сигнальные или математические дескрипторы, такие как энергия, описание формы спектра и т. д., статистические характеристики, такие как обнаружение изменений или новизны, специальные представления, которые лучше адаптированы к природе музыкальных сигналов или слуховой системы, такие как логарифмический рост чувствительности ( полосы пропускания ) по частоте или октавная инвариантность (цветность).

Поскольку параметрические модели аудио обычно требуют очень большого количества параметров, эти функции используются для суммирования свойств нескольких параметров в более компактном или существенном представлении.

Музыкальные знания

[ редактировать ]

Найти конкретные музыкальные структуры можно, используя музыкальные знания, а также методы машинного обучения с учителем и без учителя. Примеры этого включают обнаружение тональности в соответствии с распределением частот, которые соответствуют закономерностям появления нот в музыкальных гаммах, распределение времени начала нот для обнаружения структуры ударов, распределение энергий на разных частотах для обнаружения музыкальных аккордов и так далее.

Звуковое сходство и моделирование последовательностей

[ редактировать ]

Сравнение звуков можно проводить путем сравнения характеристик с привязкой ко времени или без нее. В некоторых случаях общее сходство можно оценить по близким значениям признаков между двумя звуками. В других случаях, когда временная структура важна, необходимо применять методы динамического искажения времени для «коррекции» акустических событий в разных временных масштабах. Поиск повторов и подобных подпоследовательностей звуковых событий важен для таких задач, как синтез текстур и машинная импровизация .

Разделение источников

[ редактировать ]

Поскольку одной из основных характеристик общего звука является то, что он включает в себя несколько одновременно звучащих источников, таких как несколько музыкальных инструментов, разговоры людей, шумы машин или вокалы животных, способность идентифицировать и разделять отдельные источники очень желательна. К сожалению, не существует методов, которые могли бы надежно решить эту проблему . Существующие методы разделения источников иногда полагаются на корреляцию между различными аудиоканалами в многоканальных записях . Возможность отделять источники от стереосигналов требует иных методов, чем те, которые обычно применяются в средствах связи, где доступно несколько датчиков. Другие методы разделения источников основаны на обучении или кластеризации функций монозаписи, таких как отслеживание гармонически связанных частей для обнаружения нескольких тонов. Некоторые методы перед явным распознаванием полагаются на выявление структур данных без знания структур (например, распознавание объектов на абстрактных изображениях без присвоения им значимых меток) путем поиска наименее сложных представлений данных, например, описания аудиосцен, сгенерированных несколькими тональными шаблонами. и их траектории (полифонические голоса) и акустические контуры, нарисованные тоном (аккорды). [9]

Слуховое познание

[ редактировать ]

Прослушивание музыки и других аудиоматериалов обычно не является деятельностью, направленной на выполнение задачи. Люди наслаждаются музыкой по разным, малопонятным причинам, которые обычно относят к эмоциональному воздействию музыки, обусловленному созданием ожиданий и их реализацией или нарушением. Животные обращают внимание на признаки опасности в звуках, которые могут быть как конкретными, так и общими представлениями об удивительных и неожиданных изменениях. В целом это создает ситуацию, когда компьютерное аудирование не может полагаться исключительно на обнаружение конкретных особенностей или свойств звука и вынуждено разрабатывать общие методы адаптации к изменяющейся слуховой среде и наблюдения за ее структурой. Это состоит из анализа более крупных структур повторения и самоподобия в аудио для обнаружения инноваций, а также способности прогнозировать динамику локальных особенностей.

Мультимодальный анализ

[ редактировать ]

Среди доступных данных для описания музыки есть текстовые представления, такие как аннотации, рецензии и критические замечания, которые описывают аудиосодержание словами. В других случаях человеческие реакции, такие как эмоциональные суждения или психофизиологические измерения, могут дать представление о содержании и структуре аудио. Computer Audition пытается найти связь между этими различными представлениями, чтобы обеспечить дополнительное понимание аудиоконтента.

См. также

[ редактировать ]
[ редактировать ]
  1. ^ Машинное прослушивание: принципы, алгоритмы и системы . IGI Global. 2011. ISBN  9781615209194 .
  2. ^ «Машинное прослушивание: принципы, алгоритмы и системы» (PDF) .
  3. ^ Пэрис Смарагдис научила компьютеры воспроизводить более реалистичную музыку.
  4. ^ Тангиан (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. Том. 746. Берлин-Гейдельберг: Шпрингер. ISBN  978-3-540-57394-4 .
  5. ^ Тангиан (Tanguiane), Андраник (1994). «Принцип корреляции восприятия и его применение к распознаванию музыки». Музыкальное восприятие . 11 (4): 465–502. дои : 10.2307/40285634 . JSTOR   40285634 .
  6. ^ Келли, Дэниел; Колфилд, Брайан (февраль 2015 г.). «Повсеместное восприятие звука: подход к обучению со слабым контролем» . Транзакции IEEE по кибернетике . 46 (1): 123–135. дои : 10.1109/TCYB.2015.2396291 . hdl : 10197/6853 . ПМИД   25675471 . S2CID   16042016 .
  7. ^ Хендрик Пурвинс, Перфекто Эррера, Маартен Грахтен, Амори Хазан, Рикар Марксер и Ксавье Серра. Вычислительные модели восприятия и познания музыки I: Цепочка перцептивной и когнитивной обработки. Обзоры физики жизни, том. 5, нет. 3, стр. 151–168, 2008. [1]
  8. ^ Веб-страница курса машинного прослушивания в Массачусетском технологическом институте
  9. ^ Тангиан (Тангиан), Андраник (1995). «К аксиоматизации музыкального восприятия». Журнал исследований новой музыки . 24 (3): 247–281. дои : 10.1080/09298219508570685 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: eac104060c1eab0a6878c536de21ead4__1709789580
URL1:https://arc.ask3.ru/arc/aa/ea/d4/eac104060c1eab0a6878c536de21ead4.html
Заголовок, (Title) документа по адресу, URL1:
Computer audition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)