Формат аудиокодирования

Формат аудиокодирования ^[1] (или иногда формат сжатия звука ) — это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении , цифровом радио , а также в аудио- и видеофайлах). Примеры форматов аудиокодирования включают MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная сжимать и распаковывать звук в/из определенного формата кодирования звука, называется аудиокодеком ; примером аудиокодека является LAME реализуют кодирование и декодирование звука в формате аудиокодирования MP3 , который является одним из нескольких различных кодеков, которые программно .

Некоторые форматы кодирования звука документированы в подробной технической спецификации , известной как спецификация кодирования звука . Некоторые такие спецификации написаны и одобрены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт кодирования звука . Термин «стандарт» также иногда используется как для де-факто, стандартов так и для формальных стандартов.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в формат контейнера . Таким образом, у пользователя обычно нет необработанного файла AAC , а есть аудиофайл .m4a , который представляет собой контейнер MPEG-4 Part 14, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные , такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. ^[2] Заметным исключением являются файлы MP3 , которые представляют собой необработанное аудиокодирование без контейнерного формата. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в MP3-файлы, такие как ID3 , представляют собой хаки , которые работают путем добавления тегов в MP3, а затем полагаются на то, что MP3-плеер распознает фрагмент как неправильное аудиокодирование и, следовательно, пропускает его. . В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате видеокодирования ) внутри формата мультимедийного контейнера .

Формат аудиокодирования не определяет все алгоритмы, используемые кодеком, реализующим этот формат. важной частью работы сжатия звука с потерями является удаление данных способами, которые люди не могут услышать В соответствии с психоакустической моделью ; разработчик кодера имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).

Форматы кодирования звука без потерь, с потерями и без сжатия

Формат кодирования звука без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную несжатую форму. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука помимо сжатия, что приводит к гораздо меньшему количеству данных за счет безвозвратно потерянной информации.

Передаваемый (потоковое) аудио чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемыми форматами кодирования звука являются MP3 и Advanced Audio Coding (AAC), оба из которых представляют собой форматы с потерями, основанные на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцепционного кодирования .

Форматы аудиокодирования без потерь, такие как FLAC и Apple Lossless, иногда доступны, но за счет файлов большего размера.

несжатые аудиоформаты , такие как импульсно-кодовая модуляция Иногда также используются (PCM или .wav). PCM был стандартным форматом для компакт-дисков Digital Audio (CDDA).

История

Solidyne 922: первая в мире коммерческая звуковая карта с битовым сжатием звука для ПК, 1990 г.

В 1950 году Bell Labs подала патент на дифференциальную импульсно-кодовую модуляцию (DPCM). ^[3] Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. ^[4]^[5]

Перцептивное кодирование было впервые использовано для кодирования речи сжатия с помощью кодирования с линейным предсказанием (LPC). ^[6] Первоначальные концепции LPC восходят к работе Фумитады Итакура ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. ^[7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер из Bell Labs разработали форму LPC, названную адаптивным предсказательным кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовало алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной для своего времени степени сжатия. ^[6] Перцептивное кодирование используется в современных форматах сжатия звука, таких как MP3. ^[6] и ААК .

Дискретное косинусное преобразование (ДКП), разработанное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году, ^[8] послужил основой для модифицированного дискретного косинусного преобразования (MDCT), используемого в современных форматах сжатия звука, таких как MP3. ^[9] и ААК. MDCT был предложен Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 г. ^[10] после более ранней работы Принсена и Брэдли в 1986 году. ^[11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital , ^[12]^[13] MP3 , ^[9] и расширенное кодирование звука (AAC). ^[14]

Список форматов с потерями

Общий

Базовый алгоритм сжатия	Стандарт аудиокодирования	Аббревиатура	Введение	Доля рынка (2019 г.) ^[15]	Ссылка
Модифицированное дискретное косинусное преобразование (MDCT)	Долби Цифровой (AC-3)	AC3	1991	58%	^[12]^[16]
	Адаптивное преобразование акустического кодирования	АТРАК	1992	Unknown	^[12]
	MPEG-уровень III	MP3	1993	49%	^[9]^[17]
	Расширенное кодирование звука ( MPEG-2 / MPEG-4 )	ААС	1997	88%	^[14]^[12]
	Windows Медиа Аудио	WMA	1999	Unknown	^[12]
	Огг Ворбис	Огг	2000	7%	^[18]^[12]
	Преобразование с ограниченной энергией с перекрытием	КЕЛЬТ	2011	—	^[19]
	Опус	Опус	2012	8%	^[20]
	ЛДАК	ЛДАК	2015	Unknown	^[21]^[22]
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)	aptX / aptX-HD	aptX	1989	Unknown	^[23]
	Цифровые театральные системы	ДТС	1990	14%	^[24]^[25]
	Мастер качество подтверждено	контроль качества	2014	Unknown
Поддиапазонное кодирование (SBC)	Аудио MPEG-1, уровень II	МП2	1993	Unknown
Поддиапазонное кодирование (SBC)	Музпак	ПДК	1997	Unknown

Речь

Линейное прогнозирующее кодирование (LPC)
- Адаптивное прогнозирующее кодирование (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Линейное предсказание с возбуждением алгебраического кода (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с низкой задержкой (LD-CELP)
- Адаптивная многоскоростная передача (используется в GSM и 3GPP )
- Кодек 2 (известен отсутствием патентных ограничений)
- Speex (известен отсутствием патентных ограничений)
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Преобразование с ограниченной энергией (CELT)
- Opus (в основном для приложений реального времени)

Список форматов без потерь

Apple Lossless (ALAC — аудиокодек Apple Lossless)
Акустическое кодирование с адаптивным преобразованием (ATRAC)
Кодирование звука без потерь (также известное как MPEG-4 ALS)
Прямая потоковая передача (DST)
Dolby TrueHD
DTS-HD Мастер Аудио
Бесплатный аудиокодек без потерь (FLAC)
Дискретное косинусное преобразование без потерь (LDCT)
Меридианная упаковка без потерь (MLP)
Аудио Обезьяны (Аудио Обезьяны)
MPEG-4 SLS (также известный как HD-AAC)
ОптимФРОГ
Исходное качество звука (OSQ)
RealPlayer (RealAudio без потерь)
Укоротить (SHN)
ТТА (настоящий звук без потерь)
WavPack (WavPack без потерь)
WMA без потерь (Windows Media без потерь)

См. также

Ссылки

^ Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину «кодирование видео».
^ «Видео. Где хранится информация о синхронизации в форматах контейнеров?» .
^ Патент США 2605361 , К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г.
^ Каммиски, П.; Джаянт, Н.С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном PCM-кодировании речи» . Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x .
^ Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .
^ Jump up to: ^а ^б ^с Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609 .
^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .
^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784 . S2CID 149806273 . Архивировано из оригинала (PDF) 8 декабря 2016 г. Проверено 20 октября 2019 г.
^ Jump up to: ^а ^б ^с Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 г.
^ Принсен, Дж.; Джонсон, А.; Брэдли, А. (1987). «Кодирование поддиапазонов/преобразований с использованием конструкций банка фильтров на основе отмены псевдонимов во временной области» . ИКАССП '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 12. С. 2161–2164. дои : 10.1109/ICASSP.1987.1169405 . S2CID 58446992 .
^ Принсен, Дж.; Брэдли, А. (1986). «Разработка банка фильтров анализа/синтеза на основе отмены псевдонимов во временной области» . Транзакции IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. дои : 10.1109/ТАССП.1986.1164954 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ИСБН 9780387782638 .
^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .
^ Jump up to: ^а ^б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
^ «Отчет разработчиков видео за 2019 год» (PDF) . Битмовин . 2019 . Проверено 5 ноября 2019 г.
^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .
^ Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в DCT: интервью с К.Р. Рао» (PDF) . Отпечатки первых дней информационных наук . 60 . Проверено 13 октября 2019 г.
^ Фонд Xiph.Org (2 июня 2009 г.). «Спецификация Vorbis I – 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 г.
^ Терриберри, Тимоти Б. Презентация кодека CELT . Презентация (PDF) .
^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
^ Дарко, Джон Х. (29 марта 2017 г.). «Неудобная правда о Bluetooth-аудио» . ДАР__КО . Архивировано из оригинала 14 января 2018 г. Проверено 13 января 2018 г.
^ Форд, Джез (24 августа 2015 г.). «Что такое Sony LDAC и как она это делает?» . AVHub . Проверено 13 января 2018 г.
^ Форд, Джез (22 ноября 2016 г.). «aptX HD — без потерь или с потерями?» . AVHub . Проверено 13 января 2018 г.
^ «Аудиоформаты цифровых театральных систем» . Библиотека Конгресса . 27 декабря 2011 года . Проверено 10 ноября 2019 г. .
^ Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов . Джон Уайли и сыновья . п. 338. ИСБН 9780470041963 .

[1] Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину «кодирование видео».

[2] «Видео. Где хранится информация о синхронизации в форматах контейнеров?» .

[DPCM-3] Патент США 2605361 , К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г.

[4] Каммиски, П.; Джаянт, Н.С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном PCM-кодировании речи» . Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x .

[5] Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. дои : 10.1002/j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .

[Schroeder2014-6] Jump up to: ^а ^б ^с Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609 .

[7] Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .

[DCT-8] Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784 . S2CID 149806273 . Архивировано из оригинала (PDF) 8 декабря 2016 г. Проверено 20 октября 2019 г.

[Guckert-9] Jump up to: ^а ^б ^с Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 г.

[10] Принсен, Дж.; Джонсон, А.; Брэдли, А. (1987). «Кодирование поддиапазонов/преобразований с использованием конструкций банка фильтров на основе отмены псевдонимов во временной области» . ИКАССП '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 12. С. 2161–2164. дои : 10.1109/ICASSP.1987.1169405 . S2CID 58446992 .

[11] Принсен, Дж.; Брэдли, А. (1986). «Разработка банка фильтров анализа/синтеза на основе отмены псевдонимов во временной области» . Транзакции IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. дои : 10.1109/ТАССП.1986.1164954 .

[Luo-12] Jump up to: ^а ^б ^с ^д ^и ^ж Ло, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ИСБН 9780387782638 .

[13] Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .

[brandenburg-14] Jump up to: ^а ^б Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.

[Bitmovin-15] «Отчет разработчиков видео за 2019 год» (PDF) . Битмовин . 2019 . Проверено 5 ноября 2019 г.

[Britanak2011-16] Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755 . S2CID 897622 .

[Stankovic-17] Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в DCT: интервью с К.Р. Рао» (PDF) . Отпечатки первых дней информационных наук . 60 . Проверено 13 октября 2019 г.

[vorbis-mdct-18] Фонд Xiph.Org (2 июня 2009 г.). «Спецификация Vorbis I – 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 г.

[presentation-19] Терриберри, Тимоти Б. Презентация кодека CELT . Презентация (PDF) .

[20] Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .

[Darko_2017-21] Дарко, Джон Х. (29 марта 2017 г.). «Неудобная правда о Bluetooth-аудио» . ДАР__КО . Архивировано из оригинала 14 января 2018 г. Проверено 13 января 2018 г.

[AVHub_2015-22] Форд, Джез (24 августа 2015 г.). «Что такое Sony LDAC и как она это делает?» . AVHub . Проверено 13 января 2018 г.

[AVHub_2016-23] Форд, Джез (22 ноября 2016 г.). «aptX HD — без потерь или с потерями?» . AVHub . Проверено 13 января 2018 г.

[24] «Аудиоформаты цифровых театральных систем» . Библиотека Конгресса . 27 декабря 2011 года . Проверено 10 ноября 2019 г. .

[25] Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов . Джон Уайли и сыновья . п. 338. ИСБН 9780470041963 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]