Jump to content

Аудио рисование

Зарисовка звука (также известная как интерполяция звука ) — это задача восстановления звука , которая занимается восстановлением отсутствующих или поврежденных частей цифрового аудиосигнала . [ 1 ] Методы перерисовки используются, когда части звука были потеряны из-за различных факторов, таких как ошибки передачи, повреждение данных или ошибки во время записи. [ 2 ]

Целью аудиодорисовки является плавное заполнение пробелов (т.е. недостающих частей) в аудиосигнале, делая реконструированные части неотличимыми от исходного контента и избегая внесения слышимых искажений или изменений. [ 3 ]

Для решения проблемы рисования звука было предложено множество методов, и это обычно достигается путем анализа временного [ 1 ] [ 4 ] [ 5 ] и спектральный [ 3 ] [ 2 ] информация, окружающая каждую недостающую часть рассматриваемого аудиосигнала.

Поврежденная спектрограмма (вверху) и ее реконструкция после выполнения аудиозарисовки (внизу)

Классические методы используют статистические модели или цифровой обработки сигналов . алгоритмы [ 1 ] [ 4 ] [ 5 ] прогнозировать и синтезировать недостающие или поврежденные разделы. Вместо этого в недавних решениях используются преимущества моделей глубокого обучения благодаря растущей тенденции использования методов, основанных на данных, в контексте восстановления звука. [ 3 ] [ 2 ] [ 6 ]

В зависимости от объема утраченной информации задачи рисования можно разделить на три категории. Короткая зарисовка подразумевает восстановление пропущенного сигнала в течение нескольких миллисекунд (приблизительно менее 10) и происходит в случае коротких искажений, таких как щелчки или клиппирование . [ 7 ] В этом случае целью реконструкции является точное восстановление утраченной информации. Вместо этого при длительном рисовании с промежутками порядка сотен миллисекунд или даже секунд эта цель становится нереальной, поскольку методы восстановления не могут полагаться на локальную информацию. [ 8 ] Следовательно, помимо обеспечения последовательной реконструкции, алгоритмам необходимо генерировать новую информацию, которая должна быть семантически совместима с окружающим контекстом (т. е. звуковым сигналом, окружающим пробелы). [ 3 ] Случай гэпов средней продолжительности находится между короткой и длительной зарисовкой. Это относится к восстановлению десятков миллисекунд недостающих данных, масштаба, в котором нестационарные характеристики звука уже становятся важными. [ 9 ]

Определение

[ редактировать ]

Рассмотрим цифровой аудиосигнал . Поврежденная версия , который представляет собой аудиосигнал, представляющий недостающие пробелы для восстановления, может быть определен как , где это бинарная маска, кодирующая достоверные или отсутствующие образцы , и представляет поэлементный продукт . [ 2 ] Аудиорисование направлено на поиск (т.е. реконструкция), которая представляет собой оценку . Это некорректная обратная задача , для которой характерно неединственное множество решений. [ 2 ] По этой причине, аналогично формулировке, используемой для задачи закрашивания в других областях, [ 10 ] [ 11 ] [ 12 ] восстановленный аудиосигнал можно найти с помощью задачи оптимизации , которая формально выражается как

.

В частности, – оптимальный восстановленный аудиосигнал и — это термин , измеряющий расстояние , который вычисляет точность восстановления между искаженным аудиосигналом и предполагаемым. [ 10 ] Например, этот термин можно выразить с помощью среднеквадратической ошибки или аналогичных показателей .

С вычисляется только на надежных кадрах, существует множество решений, которые могут минимизировать . Таким образом, необходимо добавить ограничение к минимизации, чтобы ограничить результаты только допустимыми решениями. [ 12 ] [ 11 ] Это выражается через регуляризации член который вычисляется на основе восстановленного аудиосигнала . Этот термин кодирует некоторую априорную информацию об аудиоданных. Например, может выражать предположения о стационарности сигнала, о разреженности его представления или может быть получено из данных. [ 12 ] [ 11 ]

Существуют различные методы выполнения аудиозарисовки. Они могут существенно различаться под влиянием таких факторов, как требования конкретного приложения, длина пробелов и доступные данные. [ 3 ] В литературе эти методы широко делятся на методы, основанные на моделях (иногда их также называют методами обработки сигналов). [ 3 ] и методы, основанные на данных. [ 2 ]

Методы, основанные на моделях

[ редактировать ]

Методы, основанные на моделях, включают использование математических моделей или предположений о базовой структуре аудиосигнала. Эти модели могут быть основаны на предварительном знании аудиоконтента или статистических свойствах, наблюдаемых в данных. Используя эти модели, можно сделать вывод или оценить недостающие или поврежденные части аудиосигнала. [ 1 ]

Примером методов, основанных на моделях, являются авторегрессионные модели . [ 5 ] [ 13 ] Эти методы интерполируют или экстраполируют недостающие выборки на основе соседних значений, используя математические функции для аппроксимации недостающих данных. В частности, в авторегрессионных моделях недостающие выборки восполняются посредством линейного прогнозирования. [ 14 ] Коэффициенты авторегрессии, необходимые для этого прогноза, извлекаются из окружающих аудиоданных, в частности из данных, прилегающих к каждому пробелу. [ 5 ] [ 13 ]

Некоторые более поздние методы подходят к рисованию звука, представляя аудиосигналы как разреженные линейные комбинации ограниченного числа базисных функций (как, например, в кратковременном преобразовании Фурье ). [ 1 ] [ 15 ] В этом контексте цель состоит в том, чтобы найти разреженное представление недостающей части сигнала, которое наиболее точно соответствует окружающему незатронутому сигналу. [ 1 ]

Вышеупомянутые методы демонстрируют оптимальную производительность при применении к заполнению относительно коротких промежутков, длительностью всего несколько десятков миллисекунд, и, таким образом, их можно включить в контекст короткой зарисовки. Однако эти методы обработки сигналов имеют тенденцию давать сбои при работе с более длинными промежутками. [ 2 ] Причина этого ограничения заключается в нарушении условия стационарности, так как после перерыва сигнал часто претерпевает существенные изменения, существенно отличающиеся от сигнала, предшествующего пропуску. [ 2 ]

Чтобы преодолеть эти ограничения, некоторые подходы добавляют сильные предположения о фундаментальной структуре самого зазора, используя синусоидальное моделирование. [ 16 ] или графики сходства [ 8 ] для выполнения дорисовки более длинных недостающих частей аудиосигналов.

Методы, основанные на данных

[ редактировать ]

Методы, основанные на данных, основаны на анализе и использовании доступных аудиоданных. В этих методах часто используются алгоритмы глубокого обучения , которые изучают закономерности и взаимосвязи непосредственно на основе предоставленных данных. Они включают в себя обучающие модели на больших наборах данных аудиопримеров, что позволяет им фиксировать статистические закономерности, присутствующие в аудиосигналах. После обучения эти модели можно использовать для генерации недостающих частей аудиосигнала на основе изученных представлений, не ограничиваясь предположениями о стационарности. [ 3 ] Методы, основанные на данных, также предлагают преимущество адаптивности и гибкости, поскольку они могут учиться на различных наборах аудиоданных и потенциально обрабатывать сложные сценарии рисования. [ 3 ]

На сегодняшний день такие методы представляют собой новейшую технологию рисования звука, способную восстанавливать промежутки в сотни миллисекунд или даже секунд. Эти характеристики стали возможными благодаря использованию генеративных моделей , которые способны генерировать новый контент для заполнения недостающих частей. Например, генеративно-состязательные сети , которые являются новейшими генеративными моделями во многих областях, полагаются на две конкурирующие нейронные сети, для двух игроков обучаемые одновременно в минимакс-игре : генератор генерирует новые данные из выборок случайных чисел. переменной, дискриминатор пытается отличить сгенерированные и реальные данные. [ 17 ] Во время обучения цель генератора — обмануть дискриминатор, в то время как дискриминатор пытается научиться лучше классифицировать реальные и поддельные данные. [ 17 ]

В методах инпанитирования на основе GAN генератор действует как кодировщик контекста и производит правдоподобное завершение пробела только с учетом доступной информации, окружающей его. [ 3 ] Дискриминатор используется для обучения генератора и проверки согласованности создаваемого окрашенного звука. [ 3 ]

также В последнее время диффузионные модели зарекомендовали себя как самые современные генеративные модели во многих областях, часто превосходя даже решения на основе GAN. По этой причине их также использовали для решения проблемы рисования звука, получая достоверные результаты. [ 2 ] Эти модели генерируют новые экземпляры данных путем инвертирования процесса диффузии, при котором выборки данных постепенно преобразуются в гауссов шум. [ 2 ]

Одним из недостатков генеративных моделей является то, что им обычно требуется огромное количество обучающих данных . Это необходимо для того, чтобы сеть хорошо обобщала и могла выдавать связную аудиоинформацию, что также представляет собой некоторую структурную сложность. [ 6 ] Тем не менее, некоторые работы продемонстрировали, что уловить суть аудиосигнала также возможно, используя всего лишь несколько десятков секунд одного обучающего образца. [ 6 ] [ 18 ] [ 19 ] Это делается путем адаптации генеративной нейронной сети к одному обучающему аудиосигналу. Таким образом, исследователи смогли выполнить рисование звука, не используя большие наборы данных. [ 6 ] [ 19 ]

Приложения

[ редактировать ]

Аудио-живопись находит применение в широком спектре областей, включая восстановление звука и судебно-медицинскую экспертизу . В этих областях аудиозапись может использоваться для устранения шума, сбоев или нежелательных искажений в аудиозаписи, тем самым повышая ее качество и разборчивость. Его также можно использовать для восстановления испорченных старых записей, на которые повлияли локальные модификации или в которых отсутствуют аудиосэмплы из-за царапин на компакт-дисках . [ 2 ]

Окрашивание звука также тесно связано с маскировкой потери пакетов (PLC). В задаче ПЛК необходимо компенсировать потери аудиопакетов в сетях связи. Хотя обе проблемы направлены на заполнение недостающих пробелов в аудиосигнале, ПЛК имеет больше ограничений по времени вычислений, и только пакеты, предшествующие пробелу, считаются надежными (процесс называется причинно-следственным). [ 20 ] [ 2 ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж Мокры, Ондржей; Раймич, Павел (2020). «Аудио-рисование: пересмотр и новый вес». Транзакции IEEE/ACM по обработке звука, речи и языка . 28 : 2906–2918. arXiv : 2001.02480 . дои : 10.1109/TASLP.2020.3030486 . S2CID   210064378 .
  2. ^ Jump up to: а б с д и ж г час я дж к л Молинер, Элои (2024). «Аудиопись на основе диффузии». Журнал Общества аудиоинженеров . 72 (3): 100–113. arXiv : 2305.15266 . дои : 10.17743/jaes.2022.0129 .
  3. ^ Jump up to: а б с д и ж г час я дж Марафиоти, Андрес; Майдак, Петр; Холигхаус, Ники; Перроден, Натаниэль (январь 2021 г.). «GACELA: генеративно-состязательный кодировщик контекста для длинной звуковой обработки музыки». Журнал IEEE по избранным темам обработки сигналов . 15 (1): 120–131. arXiv : 2005.05032 . Бибкод : 2021ISTSP..15..120M . дои : 10.1109/JSTSP.2020.3037506 . S2CID   218581410 .
  4. ^ Jump up to: а б Адлер, Амир; Эмия, Валентин; Джафари, Мария Г.; Элад, Майкл; Грибонваль, Реми; Пламбли, Марк Д. (март 2012 г.). «Аудиоживопись» . Транзакции IEEE по обработке звука, речи и языка . 20 (3): 922–932. дои : 10.1109/TASL.2011.2168211 . S2CID   11136245 .
  5. ^ Jump up to: а б с д Янссен, А.; Вельдхейс, Р.; Врис, Л. (апрель 1986 г.). «Адаптивная интерполяция сигналов дискретного времени, которые можно моделировать как авторегрессионные процессы» (PDF) . Транзакции IEEE по акустике, речи и обработке сигналов . 34 (2): 317–330. дои : 10.1109/ТАССП.1986.1164824 . S2CID   17149340 .
  6. ^ Jump up to: а б с д Грешлер, Гал; Шахам, Тамар; Михаэли, Томер (2021). «Catch-A-Waveform: учимся генерировать аудио на основе одного короткого примера» . Достижения в области нейронных систем обработки информации . 34 . Curran Associates, Inc.: 20916–20928. arXiv : 2106.06426 .
  7. ^ Применение цифровой обработки сигналов в аудио и акустике (6-е изд.). Бостон, Массачусетс: Клувер. 2003. стр. 133–194. ISBN  978-0-7923-8130-3 .
  8. ^ Jump up to: а б Перроден, Натанаэль; Холигхаус, Ники; Майдак, Петр; Балаж, Питер (июнь 2018 г.). «Отрисовка длинных аудиосегментов с помощью графов сходства». Транзакции IEEE/ACM по обработке звука, речи и языка . 26 (6): 1083–1094. arXiv : 1607.06667 . дои : 10.1109/TASLP.2018.2809864 . S2CID   3532979 .
  9. ^ Марафиоти, Андрес; Перроден, Натанаэль; Холигхаус, Ники; Майдак, Петр (декабрь 2019 г.). «Контекстный кодер для рисования аудио». Транзакции IEEE/ACM по обработке звука, речи и языка . 27 (12): 2362–2372. дои : 10.1109/TASLP.2019.2947232 . S2CID   53102801 .
  10. ^ Jump up to: а б Ульянов Дмитрий; Ведальди, Андреа; Лемпицкий, Виктор (1 июля 2020 г.). «Глубокий образ Приор». Международный журнал компьютерного зрения . 128 (7): 1867–1888. arXiv : 1711.10925 . дои : 10.1007/s11263-020-01303-4 . S2CID   4531078 .
  11. ^ Jump up to: а б с Пеццоли, Мирко; Перини, Давиде; Бернардини, Альберто; Борра, Федерико; Антоначчи, Фабио; Сарти, Аугусто (январь 2022 г.). «Глубокий априорный подход к реконструкции импульсного ответа помещения» . Датчики . 22 (7): 2710. Бибкод : 2022Senso..22.2710P . дои : 10.3390/s22072710 . ПМК   9003306 . ПМИД   35408325 .
  12. ^ Jump up to: а б с Конг, Фантонг; Пикетти, Франческо; Липари, Винченцо; Бестагини, Паоло; Тан, Сяомин; Тубаро, Стефано (2022). «Глубокая неконтролируемая реконструкция сейсмических данных с нерегулярной выборкой на основе априорных данных». Письма IEEE по геонаукам и дистанционному зондированию . 19 : 1–5. Бибкод : 2022IGRSL..1944455K . дои : 10.1109/LGRS.2020.3044455 . hdl : 11311/1201461 . S2CID   234970208 .
  13. ^ Jump up to: а б Эттер, В. (май 1996 г.). «Восстановление сегмента сигнала дискретного времени путем интерполяции на основе левосторонних и правосторонних параметров авторегрессии». Транзакции IEEE по обработке сигналов . 44 (5): 1124–1135. Бибкод : 1996ITSP...44.1124E . дои : 10.1109/78.502326 .
  14. ^ О'Шонесси, Д. (февраль 1988 г.). «Линейное предсказательное кодирование». Возможности IEEE . 7 (1): 29–32. дои : 10.1109/45.1890 . S2CID   12786562 .
  15. ^ Мокры, Ондрей; Зависка, Павел; Раймич, Павел; Веселый, Витезслав (сентябрь 2019 г.). «Представляем ИСПАНИЮ (SParse Audio INpainter)». 2019 27-я Европейская конференция по обработке сигналов (EUSIPCO) . стр. 1–5. arXiv : 1810.13137 . дои : 10.23919/EUSIPCO.2019.8902560 . ISBN  978-9-0827-9703-9 . S2CID   53109833 .
  16. ^ Лагранж, Матье; Маршан, Сильвен; Ра, Жан-Бернар (15 октября 2005 г.). «Длинная интерполяция аудиосигналов с использованием линейного прогнозирования в синусоидальном моделировании» . Журнал Общества аудиоинженеров . 53 (10): 891–905.
  17. ^ Jump up to: а б Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети . Том. 27. Карран Ассошиэйтс, Инк.
  18. ^ , Динцзю (2019 Тянь, Япэн ; ) Сюй , Чэньлян .
  19. ^ Jump up to: а б Турецкий, Арнон; Майкельсон, Цви; Ади, Йосси; Пелег, Шмуэль (18 сентября 2022 г.). «Приоритет глубокой звуковой волны». Интерспич 2022 : 2938–2942. arXiv : 2207.10441 . doi : 10.21437/Interspeech.2022-10735 . S2CID   250920681 .
  20. ^ Динер, Лоренц; Сутла, Стен; Бранец, Соломия; Саабас, Андо; Айхнер, Роберт; Катлер, Росс (18 сентября 2022 г.). «Вызов по глубокому сокрытию потерь аудиопакетов INTERSPEECH 2022» . Интерспич 2022 . стр. 580–584. arXiv : 2204.05222 . doi : 10.21437/Interspeech.2022-10829 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e49844ee0c55af8d73f80f2032064bd0__1723120560
URL1:https://arc.ask3.ru/arc/aa/e4/d0/e49844ee0c55af8d73f80f2032064bd0.html
Заголовок, (Title) документа по адресу, URL1:
Audio inpainting - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)