Формат аудиокодирования
Формат аудиокодирования [1] (или иногда формат сжатия звука ) — это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении , цифровом радио , а также в аудио- и видеофайлах). Примеры форматов аудиокодирования включают MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная сжимать и распаковывать звук в/из определенного формата кодирования звука, называется аудиокодеком ; примером аудиокодека является LAME реализуют кодирование и декодирование звука в формате аудиокодирования MP3 , который является одним из нескольких различных кодеков, которые программно .
Некоторые форматы кодирования звука документированы в подробной технической спецификации , известной как спецификация кодирования звука . Некоторые такие спецификации написаны и одобрены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт кодирования звука . Термин «стандарт» также иногда используется как для де-факто, стандартов так и для формальных стандартов.
Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в формат контейнера . Таким образом, у пользователя обычно нет необработанного файла AAC , а есть аудиофайл .m4a , который представляет собой контейнер MPEG-4 Part 14, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные , такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. [2] Заметным исключением являются файлы MP3 , которые представляют собой необработанное аудиокодирование без контейнерного формата. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в MP3-файлы, такие как ID3 , представляют собой хаки , которые работают путем добавления тегов в MP3, а затем полагаются на то, что MP3-плеер распознает фрагмент как неправильное аудиокодирование и, следовательно, пропускает его. . В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате видеокодирования ) внутри формата мультимедийного контейнера .
Формат аудиокодирования не определяет все алгоритмы, используемые кодеком, реализующим этот формат. важной частью работы сжатия звука с потерями является удаление данных способами, которые люди не могут услышать В соответствии с психоакустической моделью ; разработчик кодера имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).
Форматы кодирования звука без потерь, с потерями и без сжатия
[ редактировать ]Формат кодирования звука без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную несжатую форму. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука помимо сжатия, что приводит к гораздо меньшему количеству данных за счет безвозвратно потерянной информации.
Передаваемый (потоковое) аудио чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемыми форматами кодирования звука являются MP3 и Advanced Audio Coding (AAC), оба из которых представляют собой форматы с потерями, основанные на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцепционного кодирования .
Форматы аудиокодирования без потерь, такие как FLAC и Apple Lossless, иногда доступны, но за счет файлов большего размера.
несжатые аудиоформаты , такие как импульсно-кодовая модуляция Иногда также используются (PCM или .wav). PCM был стандартным форматом для компакт-дисков Digital Audio (CDDA).
История
[ редактировать ]В 1950 году Bell Labs подала патент на дифференциальную импульсно-кодовую модуляцию (DPCM). [3] Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [4] [5]
Перцептивное кодирование было впервые использовано для кодирования речи сжатия с помощью кодирования с линейным предсказанием (LPC). [6] Первоначальные концепции LPC восходят к работе Фумитады Итакура ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. [7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер из Bell Labs разработали форму LPC, названную адаптивным предсказательным кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовало алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной для своего времени степени сжатия. [6] Перцептивное кодирование используется в современных форматах сжатия звука, таких как MP3. [6] и ААК .
Дискретное косинусное преобразование (ДКП), разработанное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году, [8] послужил основой для модифицированного дискретного косинусного преобразования (MDCT), используемого в современных форматах сжатия звука, таких как MP3. [9] и ААК. MDCT был предложен Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 г. [10] после более ранней работы Принсена и Брэдли в 1986 году. [11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital , [12] [13] MP3 , [9] и расширенное кодирование звука (AAC). [14]
Список форматов с потерями
[ редактировать ]Общий
[ редактировать ]Базовый алгоритм сжатия | Стандарт аудиокодирования | Аббревиатура | Введение | Доля рынка (2019 г.) [15] | Ссылка |
---|---|---|---|---|---|
Модифицированное дискретное косинусное преобразование (MDCT) | Долби Цифровой (AC-3) | AC3 | 1991 | 58% | [12] [16] |
Адаптивное преобразование акустического кодирования | АТРАК | 1992 | Unknown | [12] | |
MPEG-уровень III | MP3 | 1993 | 49% | [9] [17] | |
Расширенное кодирование звука ( MPEG-2 / MPEG-4 ) | ААС | 1997 | 88% | [14] [12] | |
Windows Медиа Аудио | WMA | 1999 | Unknown | [12] | |
Огг Ворбис | Огг | 2000 | 7% | [18] [12] | |
Преобразование с ограниченной энергией с перекрытием | КЕЛЬТ | 2011 | — | [19] | |
Опус | Опус | 2012 | 8% | [20] | |
ЛДАК | ЛДАК | 2015 | Unknown | [21] [22] | |
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM) | aptX / aptX-HD | aptX | 1989 | Unknown | [23] |
Цифровые театральные системы | ДТС | 1990 | 14% | [24] [25] | |
Мастер качество подтверждено | контроль качества | 2014 | Unknown | ||
Поддиапазонное кодирование (SBC) | Аудио MPEG-1, уровень II | МП2 | 1993 | Unknown | |
Музпак | ПДК | 1997 |
Речь
[ редактировать ]- Линейное прогнозирующее кодирование (LPC)
- Адаптивное прогнозирующее кодирование (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Линейное предсказание с возбуждением алгебраического кода (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с низкой задержкой (LD-CELP)
- Адаптивная многоскоростная передача (используется в GSM и 3GPP )
- Кодек 2 (известен отсутствием патентных ограничений)
- Speex (известен отсутствием патентных ограничений)
- Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Преобразование с ограниченной энергией (CELT)
- Opus (в основном для приложений реального времени)
Список форматов без потерь
[ редактировать ]- Apple Lossless (ALAC — аудиокодек Apple Lossless)
- Акустическое кодирование с адаптивным преобразованием (ATRAC)
- Кодирование звука без потерь (также известное как MPEG-4 ALS)
- Прямая потоковая передача (DST)
- Dolby TrueHD
- DTS-HD Мастер Аудио
- Бесплатный аудиокодек без потерь (FLAC)
- Дискретное косинусное преобразование без потерь (LDCT)
- Меридианная упаковка без потерь (MLP)
- Аудио Обезьяны (Аудио Обезьяны)
- MPEG-4 SLS (также известный как HD-AAC)
- ОптимФРОГ
- Исходное качество звука (OSQ)
- RealPlayer (RealAudio без потерь)
- Укоротить (SHN)
- ТТА (настоящий звук без потерь)
- WavPack (WavPack без потерь)
- WMA без потерь (Windows Media без потерь)
См. также
[ редактировать ]- Сравнение форматов кодирования звука
- Сжатие данных # Аудио
- Формат аудиофайла
- Список форматов сжатия звука
Ссылки
[ редактировать ]- ^ Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину «кодирование видео».
- ^ «Видео. Где хранится информация о синхронизации в форматах контейнеров?» .
- ^ Патент США 2605361 , К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г.
- ^ Каммиски, П.; Джаянт, Н.С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном PCM-кодировании речи» . Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x .
- ^ Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .
- ^ Jump up to: а б с Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609 .
- ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .
- ^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784 . S2CID 149806273 . Архивировано из оригинала (PDF) 8 декабря 2016 г. Проверено 20 октября 2019 г.
- ^ Jump up to: а б с Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 г.
- ^ Принсен, Дж.; Джонсон, А.; Брэдли, А. (1987). «Кодирование поддиапазонов/преобразований с использованием конструкций банка фильтров на основе отмены псевдонимов во временной области» . ИКАССП '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 12. С. 2161–2164. дои : 10.1109/ICASSP.1987.1169405 . S2CID 58446992 .
- ^ Принсен, Дж.; Брэдли, А. (1986). «Разработка банка фильтров анализа/синтеза на основе отмены псевдонимов во временной области» . Транзакции IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. дои : 10.1109/ТАССП.1986.1164954 .
- ^ Jump up to: а б с д и ж Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ИСБН 9780387782638 .
- ^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .
- ^ Jump up to: а б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
- ^ «Отчет разработчиков видео за 2019 год» (PDF) . Битмовин . 2019 . Проверено 5 ноября 2019 г.
- ^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .
- ^ Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в DCT: интервью с К.Р. Рао» (PDF) . Отпечатки первых дней информационных наук . 60 . Проверено 13 октября 2019 г.
- ^ Фонд Xiph.Org (2 июня 2009 г.). «Спецификация Vorbis I – 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 г.
- ^ Терриберри, Тимоти Б. Презентация кодека CELT . Презентация (PDF) .
- ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
- ^ Дарко, Джон Х. (29 марта 2017 г.). «Неудобная правда о Bluetooth-аудио» . ДАР__КО . Архивировано из оригинала 14 января 2018 г. Проверено 13 января 2018 г.
- ^ Форд, Джез (24 августа 2015 г.). «Что такое Sony LDAC и как она это делает?» . AVHub . Проверено 13 января 2018 г.
- ^ Форд, Джез (22 ноября 2016 г.). «aptX HD — без потерь или с потерями?» . AVHub . Проверено 13 января 2018 г.
- ^ «Аудиоформаты цифровых театральных систем» . Библиотека Конгресса . 27 декабря 2011 года . Проверено 10 ноября 2019 г. .
- ^ Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов . Джон Уайли и сыновья . п. 338. ИСБН 9780470041963 .