Аудио рисование
Зарисовка звука (также известная как интерполяция звука ) — это задача восстановления звука , которая занимается восстановлением отсутствующих или поврежденных частей цифрового аудиосигнала . [ 1 ] Методы перерисовки используются, когда части звука были потеряны из-за различных факторов, таких как ошибки передачи, повреждение данных или ошибки во время записи. [ 2 ]
Целью аудиодорисовки является плавное заполнение пробелов (т.е. недостающих частей) в аудиосигнале, делая реконструированные части неотличимыми от исходного контента и избегая внесения слышимых искажений или изменений. [ 3 ]
Для решения проблемы рисования звука было предложено множество методов, и это обычно достигается путем анализа временного [ 1 ] [ 4 ] [ 5 ] и спектральный [ 3 ] [ 2 ] информация, окружающая каждую недостающую часть рассматриваемого аудиосигнала.
Классические методы используют статистические модели или цифровой обработки сигналов . алгоритмы [ 1 ] [ 4 ] [ 5 ] прогнозировать и синтезировать недостающие или поврежденные разделы. Вместо этого в недавних решениях используются преимущества моделей глубокого обучения благодаря растущей тенденции использования методов, основанных на данных, в контексте восстановления звука. [ 3 ] [ 2 ] [ 6 ]
В зависимости от объема утраченной информации задачи рисования можно разделить на три категории. Короткая зарисовка подразумевает восстановление пропущенного сигнала в течение нескольких миллисекунд (приблизительно менее 10) и происходит в случае коротких искажений, таких как щелчки или клиппирование . [ 7 ] В этом случае целью реконструкции является точное восстановление утраченной информации. Вместо этого при длительном рисовании с промежутками порядка сотен миллисекунд или даже секунд эта цель становится нереальной, поскольку методы восстановления не могут полагаться на локальную информацию. [ 8 ] Следовательно, помимо обеспечения последовательной реконструкции, алгоритмам необходимо генерировать новую информацию, которая должна быть семантически совместима с окружающим контекстом (т. е. звуковым сигналом, окружающим пробелы). [ 3 ] Случай гэпов средней продолжительности находится между короткой и длительной зарисовкой. Это относится к восстановлению десятков миллисекунд недостающих данных, масштаба, в котором нестационарные характеристики звука уже становятся важными. [ 9 ]
Определение
[ редактировать ]Рассмотрим цифровой аудиосигнал . Поврежденная версия , который представляет собой аудиосигнал, представляющий недостающие пробелы для восстановления, может быть определен как , где это бинарная маска, кодирующая достоверные или отсутствующие образцы , и представляет поэлементный продукт . [ 2 ] Аудиорисование направлено на поиск (т.е. реконструкция), которая представляет собой оценку . Это некорректная обратная задача , для которой характерно неединственное множество решений. [ 2 ] По этой причине, аналогично формулировке, используемой для задачи закрашивания в других областях, [ 10 ] [ 11 ] [ 12 ] восстановленный аудиосигнал можно найти с помощью задачи оптимизации , которая формально выражается как
.
В частности, – оптимальный восстановленный аудиосигнал и — это термин , измеряющий расстояние , который вычисляет точность восстановления между искаженным аудиосигналом и предполагаемым. [ 10 ] Например, этот термин можно выразить с помощью среднеквадратической ошибки или аналогичных показателей .
С вычисляется только на надежных кадрах, существует множество решений, которые могут минимизировать . Таким образом, необходимо добавить ограничение к минимизации, чтобы ограничить результаты только допустимыми решениями. [ 12 ] [ 11 ] Это выражается через регуляризации член который вычисляется на основе восстановленного аудиосигнала . Этот термин кодирует некоторую априорную информацию об аудиоданных. Например, может выражать предположения о стационарности сигнала, о разреженности его представления или может быть получено из данных. [ 12 ] [ 11 ]
Техники
[ редактировать ]Существуют различные методы выполнения аудиозарисовки. Они могут существенно различаться под влиянием таких факторов, как требования конкретного приложения, длина пробелов и доступные данные. [ 3 ] В литературе эти методы широко делятся на методы, основанные на моделях (иногда их также называют методами обработки сигналов). [ 3 ] и методы, основанные на данных. [ 2 ]
Методы, основанные на моделях
[ редактировать ]Методы, основанные на моделях, включают использование математических моделей или предположений о базовой структуре аудиосигнала. Эти модели могут быть основаны на предварительном знании аудиоконтента или статистических свойствах, наблюдаемых в данных. Используя эти модели, можно сделать вывод или оценить недостающие или поврежденные части аудиосигнала. [ 1 ]
Примером методов, основанных на моделях, являются авторегрессионные модели . [ 5 ] [ 13 ] Эти методы интерполируют или экстраполируют недостающие выборки на основе соседних значений, используя математические функции для аппроксимации недостающих данных. В частности, в авторегрессионных моделях недостающие выборки восполняются посредством линейного прогнозирования. [ 14 ] Коэффициенты авторегрессии, необходимые для этого прогноза, извлекаются из окружающих аудиоданных, в частности из данных, прилегающих к каждому пробелу. [ 5 ] [ 13 ]
Некоторые более поздние методы подходят к рисованию звука, представляя аудиосигналы как разреженные линейные комбинации ограниченного числа базисных функций (как, например, в кратковременном преобразовании Фурье ). [ 1 ] [ 15 ] В этом контексте цель состоит в том, чтобы найти разреженное представление недостающей части сигнала, которое наиболее точно соответствует окружающему незатронутому сигналу. [ 1 ]
Вышеупомянутые методы демонстрируют оптимальную производительность при применении к заполнению относительно коротких промежутков, длительностью всего несколько десятков миллисекунд, и, таким образом, их можно включить в контекст короткой зарисовки. Однако эти методы обработки сигналов имеют тенденцию давать сбои при работе с более длинными промежутками. [ 2 ] Причина этого ограничения заключается в нарушении условия стационарности, так как после перерыва сигнал часто претерпевает существенные изменения, существенно отличающиеся от сигнала, предшествующего пропуску. [ 2 ]
Чтобы преодолеть эти ограничения, некоторые подходы добавляют сильные предположения о фундаментальной структуре самого зазора, используя синусоидальное моделирование. [ 16 ] или графики сходства [ 8 ] для выполнения дорисовки более длинных недостающих частей аудиосигналов.
Методы, основанные на данных
[ редактировать ]Методы, основанные на данных, основаны на анализе и использовании доступных аудиоданных. В этих методах часто используются алгоритмы глубокого обучения , которые изучают закономерности и взаимосвязи непосредственно на основе предоставленных данных. Они включают в себя обучающие модели на больших наборах данных аудиопримеров, что позволяет им фиксировать статистические закономерности, присутствующие в аудиосигналах. После обучения эти модели можно использовать для генерации недостающих частей аудиосигнала на основе изученных представлений, не ограничиваясь предположениями о стационарности. [ 3 ] Методы, основанные на данных, также предлагают преимущество адаптивности и гибкости, поскольку они могут учиться на различных наборах аудиоданных и потенциально обрабатывать сложные сценарии рисования. [ 3 ]
На сегодняшний день такие методы представляют собой новейшую технологию рисования звука, способную восстанавливать промежутки в сотни миллисекунд или даже секунд. Эти характеристики стали возможными благодаря использованию генеративных моделей , которые способны генерировать новый контент для заполнения недостающих частей. Например, генеративно-состязательные сети , которые являются новейшими генеративными моделями во многих областях, полагаются на две конкурирующие нейронные сети, для двух игроков обучаемые одновременно в минимакс-игре : генератор генерирует новые данные из выборок случайных чисел. переменной, дискриминатор пытается отличить сгенерированные и реальные данные. [ 17 ] Во время обучения цель генератора — обмануть дискриминатор, в то время как дискриминатор пытается научиться лучше классифицировать реальные и поддельные данные. [ 17 ]
В методах инпанитирования на основе GAN генератор действует как кодировщик контекста и производит правдоподобное завершение пробела только с учетом доступной информации, окружающей его. [ 3 ] Дискриминатор используется для обучения генератора и проверки согласованности создаваемого окрашенного звука. [ 3 ]
также В последнее время диффузионные модели зарекомендовали себя как самые современные генеративные модели во многих областях, часто превосходя даже решения на основе GAN. По этой причине их также использовали для решения проблемы рисования звука, получая достоверные результаты. [ 2 ] Эти модели генерируют новые экземпляры данных путем инвертирования процесса диффузии, при котором выборки данных постепенно преобразуются в гауссов шум. [ 2 ]
Одним из недостатков генеративных моделей является то, что им обычно требуется огромное количество обучающих данных . Это необходимо для того, чтобы сеть хорошо обобщала и могла выдавать связную аудиоинформацию, что также представляет собой некоторую структурную сложность. [ 6 ] Тем не менее, некоторые работы продемонстрировали, что уловить суть аудиосигнала также возможно, используя всего лишь несколько десятков секунд одного обучающего образца. [ 6 ] [ 18 ] [ 19 ] Это делается путем адаптации генеративной нейронной сети к одному обучающему аудиосигналу. Таким образом, исследователи смогли выполнить рисование звука, не используя большие наборы данных. [ 6 ] [ 19 ]
Приложения
[ редактировать ]Аудио-живопись находит применение в широком спектре областей, включая восстановление звука и судебно-медицинскую экспертизу . В этих областях аудиозапись может использоваться для устранения шума, сбоев или нежелательных искажений в аудиозаписи, тем самым повышая ее качество и разборчивость. Его также можно использовать для восстановления испорченных старых записей, на которые повлияли локальные модификации или в которых отсутствуют аудиосэмплы из-за царапин на компакт-дисках . [ 2 ]
Окрашивание звука также тесно связано с маскировкой потери пакетов (PLC). В задаче ПЛК необходимо компенсировать потери аудиопакетов в сетях связи. Хотя обе проблемы направлены на заполнение недостающих пробелов в аудиосигнале, ПЛК имеет больше ограничений по времени вычислений, и только пакеты, предшествующие пробелу, считаются надежными (процесс называется причинно-следственным). [ 20 ] [ 2 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж Мокры, Ондржей; Раймич, Павел (2020). «Аудио-рисование: пересмотр и новый вес». Транзакции IEEE/ACM по обработке звука, речи и языка . 28 : 2906–2918. arXiv : 2001.02480 . дои : 10.1109/TASLP.2020.3030486 . S2CID 210064378 .
- ^ Jump up to: а б с д и ж г час я дж к л Молинер, Элои (2024). «Аудиопись на основе диффузии». Журнал Общества аудиоинженеров . 72 (3): 100–113. arXiv : 2305.15266 . дои : 10.17743/jaes.2022.0129 .
- ^ Jump up to: а б с д и ж г час я дж Марафиоти, Андрес; Майдак, Петр; Холигхаус, Ники; Перроден, Натаниэль (январь 2021 г.). «GACELA: генеративно-состязательный кодировщик контекста для длинной звуковой обработки музыки». Журнал IEEE по избранным темам обработки сигналов . 15 (1): 120–131. arXiv : 2005.05032 . Бибкод : 2021ISTSP..15..120M . дои : 10.1109/JSTSP.2020.3037506 . S2CID 218581410 .
- ^ Jump up to: а б Адлер, Амир; Эмия, Валентин; Джафари, Мария Г.; Элад, Майкл; Грибонваль, Реми; Пламбли, Марк Д. (март 2012 г.). «Аудиоживопись» . Транзакции IEEE по обработке звука, речи и языка . 20 (3): 922–932. дои : 10.1109/TASL.2011.2168211 . S2CID 11136245 .
- ^ Jump up to: а б с д Янссен, А.; Вельдхейс, Р.; Врис, Л. (апрель 1986 г.). «Адаптивная интерполяция сигналов дискретного времени, которые можно моделировать как авторегрессионные процессы» (PDF) . Транзакции IEEE по акустике, речи и обработке сигналов . 34 (2): 317–330. дои : 10.1109/ТАССП.1986.1164824 . S2CID 17149340 .
- ^ Jump up to: а б с д Грешлер, Гал; Шахам, Тамар; Михаэли, Томер (2021). «Catch-A-Waveform: учимся генерировать аудио на основе одного короткого примера» . Достижения в области нейронных систем обработки информации . 34 . Curran Associates, Inc.: 20916–20928. arXiv : 2106.06426 .
- ^ Применение цифровой обработки сигналов в аудио и акустике (6-е изд.). Бостон, Массачусетс: Клувер. 2003. стр. 133–194. ISBN 978-0-7923-8130-3 .
- ^ Jump up to: а б Перроден, Натанаэль; Холигхаус, Ники; Майдак, Петр; Балаж, Питер (июнь 2018 г.). «Отрисовка длинных аудиосегментов с помощью графов сходства». Транзакции IEEE/ACM по обработке звука, речи и языка . 26 (6): 1083–1094. arXiv : 1607.06667 . дои : 10.1109/TASLP.2018.2809864 . S2CID 3532979 .
- ^ Марафиоти, Андрес; Перроден, Натанаэль; Холигхаус, Ники; Майдак, Петр (декабрь 2019 г.). «Контекстный кодер для рисования аудио». Транзакции IEEE/ACM по обработке звука, речи и языка . 27 (12): 2362–2372. дои : 10.1109/TASLP.2019.2947232 . S2CID 53102801 .
- ^ Jump up to: а б Ульянов Дмитрий; Ведальди, Андреа; Лемпицкий, Виктор (1 июля 2020 г.). «Глубокий образ Приор». Международный журнал компьютерного зрения . 128 (7): 1867–1888. arXiv : 1711.10925 . дои : 10.1007/s11263-020-01303-4 . S2CID 4531078 .
- ^ Jump up to: а б с Пеццоли, Мирко; Перини, Давиде; Бернардини, Альберто; Борра, Федерико; Антоначчи, Фабио; Сарти, Аугусто (январь 2022 г.). «Глубокий априорный подход к реконструкции импульсного ответа помещения» . Датчики . 22 (7): 2710. Бибкод : 2022Senso..22.2710P . дои : 10.3390/s22072710 . ПМК 9003306 . ПМИД 35408325 .
- ^ Jump up to: а б с Конг, Фантонг; Пикетти, Франческо; Липари, Винченцо; Бестагини, Паоло; Тан, Сяомин; Тубаро, Стефано (2022). «Глубокая неконтролируемая реконструкция сейсмических данных с нерегулярной выборкой на основе априорных данных». Письма IEEE по геонаукам и дистанционному зондированию . 19 : 1–5. Бибкод : 2022IGRSL..1944455K . дои : 10.1109/LGRS.2020.3044455 . hdl : 11311/1201461 . S2CID 234970208 .
- ^ Jump up to: а б Эттер, В. (май 1996 г.). «Восстановление сегмента сигнала дискретного времени путем интерполяции на основе левосторонних и правосторонних параметров авторегрессии». Транзакции IEEE по обработке сигналов . 44 (5): 1124–1135. Бибкод : 1996ITSP...44.1124E . дои : 10.1109/78.502326 .
- ^ О'Шонесси, Д. (февраль 1988 г.). «Линейное предсказательное кодирование». Возможности IEEE . 7 (1): 29–32. дои : 10.1109/45.1890 . S2CID 12786562 .
- ^ Мокры, Ондрей; Зависка, Павел; Раймич, Павел; Веселый, Витезслав (сентябрь 2019 г.). «Представляем ИСПАНИЮ (SParse Audio INpainter)». 2019 27-я Европейская конференция по обработке сигналов (EUSIPCO) . стр. 1–5. arXiv : 1810.13137 . дои : 10.23919/EUSIPCO.2019.8902560 . ISBN 978-9-0827-9703-9 . S2CID 53109833 .
- ^ Лагранж, Матье; Маршан, Сильвен; Ра, Жан-Бернар (15 октября 2005 г.). «Длинная интерполяция аудиосигналов с использованием линейного прогнозирования в синусоидальном моделировании» . Журнал Общества аудиоинженеров . 53 (10): 891–905.
- ^ Jump up to: а б Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети . Том. 27. Карран Ассошиэйтс, Инк.
- ^ , Динцзю (2019 Тянь, Япэн ; ) Сюй , Чэньлян .
- ^ Jump up to: а б Турецкий, Арнон; Майкельсон, Цви; Ади, Йосси; Пелег, Шмуэль (18 сентября 2022 г.). «Приоритет глубокой звуковой волны». Интерспич 2022 : 2938–2942. arXiv : 2207.10441 . doi : 10.21437/Interspeech.2022-10735 . S2CID 250920681 .
- ^ Динер, Лоренц; Сутла, Стен; Бранец, Соломия; Саабас, Андо; Айхнер, Роберт; Катлер, Росс (18 сентября 2022 г.). «Вызов по глубокому сокрытию потерь аудиопакетов INTERSPEECH 2022» . Интерспич 2022 . стр. 580–584. arXiv : 2204.05222 . doi : 10.21437/Interspeech.2022-10829 .