Jump to content

Теорема Шеннона о кодировании исходного кода

В информации теории теорема Шеннона о кодировании источника (или теорема бесшумного кодирования ) устанавливает статистические пределы возможного сжатия данных для данных, источником которых является независимая одинаково распределенная случайная величина , а также рабочий смысл энтропии Шеннона .

Названная в честь Клода Шеннона , теорема исходного кодирования показывает, что в пределе, когда длина потока независимых и одинаково распределенных данных случайной величины (iid) стремится к бесконечности, невозможно сжать такие данные так, чтобы скорость кода (среднее число битов на символ) меньше энтропии Шеннона источника, при этом практически нет уверенности в том, что информация будет потеряна. Однако можно получить скорость кода, сколь угодно близкую к энтропии Шеннона, с незначительной вероятностью потерь.

Теорема исходного кодирования для кодов символов устанавливает верхнюю и нижнюю границы минимально возможной ожидаемой длины кодовых слов как функцию энтропии входного слова (которое рассматривается как случайная величина ) и размера целевого алфавита.

Обратите внимание, что для данных, которые демонстрируют больше зависимостей (источником которых не является случайная величина iid), сложность Колмогорова , которая количественно определяет минимальную длину описания объекта, более подходит для описания пределов сжатия данных. Энтропия Шеннона учитывает только частотные закономерности, тогда как сложность Колмогорова учитывает все алгоритмические закономерности, поэтому последняя, ​​как правило, меньше. С другой стороны, если объект генерируется случайным процессом таким образом, что он имеет только частотные закономерности, энтропия с высокой вероятностью близка к сложности (Шен и др., 2017). [ 1 ]

Заявления

[ редактировать ]

Исходное кодирование — это отображение символов (последовательности) из источника информации в последовательность символов алфавита (обычно битов), так что исходные символы могут быть точно восстановлены из двоичных битов (исходное кодирование без потерь) или восстановлены с некоторым искажением ( исходное кодирование с потерями). Это один из подходов к сжатию данных .

Теорема исходного кодирования

[ редактировать ]

В теории информации теорема исходного кодирования (Шеннон, 1948) [ 2 ] неофициально утверждает, что (MacKay 2003, стр. 81, [ 3 ] Обложка 2006 г., Глава 5 [ 4 ] ):

N i.id случайных величин, каждая с энтропией H ( X ), можно сжать более чем в N H ( X ) бит с незначительным риском потери информации, при N → ∞ ; но и наоборот, если они сжимаются менее чем в N H ( X ) бит, практически наверняка информация будет потеряна.

The кодированная последовательность представляет сжатое сообщение двузначным образом, при условии, что декодер знает источник. С практической точки зрения эта гипотеза не всегда верна. Следовательно, когда применяется энтропийное кодирование, передаваемое сообщение . Обычно информация, характеризующая источник, вставляется в начало передаваемого сообщения.

Теорема исходного кодирования для кодов символов

[ редактировать ]

Пусть Σ 1 , Σ 2 обозначают два конечных алфавита и пусть Σ
1
и С
2
обозначают множество всех конечных слов из этих алфавитов (соответственно).

Предположим, что X — случайная величина, принимающая значения из Σ 1 , и пусть f однозначно декодируемый код из Σ
от 1
до Σ
2
где 2 | = а . Пусть S обозначает случайную величину, заданную длиной кодового слова f ( X ) .

Если f оптимален в том смысле, что он имеет минимальную ожидаемую длину слова для X , то (Шеннон 1948):

Где обозначает оператор ожидаемого значения .

Доказательство: теорема о кодировании исходного кода.

[ редактировать ]

Учитывая, что X является iid- источником, его временной ряд X 1 , ..., X n является iid с энтропией H ( X ) в случае с дискретными значениями и дифференциальной энтропией в случае с непрерывными значениями. Теорема исходного кодирования утверждает, что для любого ε > 0 , т.е. для любой скорости H ( X ) + ε, большей, чем энтропия источника, существует достаточно большое n и кодер, который принимает n iid повторений источника, X 1: н и отображает его в n ( H ( X ) + ε ) двоичных битов так, что исходные символы X 1: н восстанавливаются из двоичных битов с вероятностью не менее 1 − ε .

Доказательство достижимости. Зафиксируем некоторое ε > 0 и пусть

Типовой набор , А е
n
определяется следующим образом:

Свойство асимптотического равнораспределения (AEP) показывает, что при достаточно большом n вероятность того, что последовательность, сгенерированная источником, лежит в типичном наборе A е
n
, как определено, приближается к единице. В частности, для достаточно n больших можно сделать сколь угодно близким к 1 и, в частности, больше, чем (Видеть АЭП за доказательство).

Определение типичных наборов подразумевает, что те последовательности, которые лежат в типичном наборе, удовлетворяют:


  • Вероятность последовательности извлекается из А е
    n
    больше 1 - ε .
  • , что следует из левой части (нижней оценки) для .
  • , что следует из верхней оценки для и нижняя граница полной вероятности всего множества A е
    н
    .

С бит достаточно, чтобы указать на любую строку в этом наборе.

Алгоритм кодирования: кодер проверяет, лежит ли входная последовательность в пределах типового набора; если да, он выводит индекс входной последовательности в типичном наборе; в противном случае кодер выводит произвольное число из n ( H ( X ) + ε ) цифр. Пока входная последовательность лежит в пределах типичного набора (с вероятностью не менее 1 - ε ), кодер не допускает ошибок. Итак, вероятность ошибки кодера ограничена сверху величиной ε .

Доказательство обратного : обратное доказывается, показывая, что любое множество размера меньше A е
n
(в смысле показателя степени) будет охватывать набор вероятностей, отделенный от 1 .

Доказательство: Теорема исходного кодирования для кодов символов.

[ редактировать ]

Для 1 ≤ i n пусть s i обозначает длину слова каждого возможного x i . Определять , где C выбран так, что q 1 + ... + q n = 1 . Затем

где вторая строка следует из неравенства Гиббса , а пятая строка следует из неравенства Крафта :

поэтому журнал C ≤ 0 .

Для второго неравенства можно положить

так что

и так

и

и поэтому согласно неравенству Крафта существует код без префиксов, имеющий такую ​​длину слова. Таким образом, минимальное S удовлетворяет

Распространение на нестационарные независимые источники.

[ редактировать ]

Кодирование источника без потерь с фиксированной скоростью для нестационарных независимых источников с дискретным временем

[ редактировать ]

Определите типовой набор A е
н
как:

Тогда для заданного δ > 0 и n достаточно большого Pr( A е
п
) > 1 - δ
. Сейчас мы просто кодируем последовательности в типичном наборе, а обычные методы кодирования исходников показывают, что мощность этого набора меньше, чем . Таким образом, в среднем H n ( X ) + ε битов достаточно для кодирования с вероятностью большей, чем 1 − δ , где ε и δ можно сделать сколь угодно малыми, увеличив n .

См. также

[ редактировать ]
  1. ^ Шен А., Успенский В.А. и Верещагин Н. (2017). «Глава 7.3.: Сложность и энтропия». Колмогоровская сложность и алгоритмическая случайность . Американское математическое общество. п. 226. ИСБН  9781470431822 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ CE Шеннон , « Математическая теория связи, заархивировано 16 февраля 2009 г. в Wayback Machine », Технический журнал Bell System , том. 27, стр. 379–423, 623–656, июль, октябрь 1948 г.
  3. ^ Дэвид Дж. К. Маккей. Теория информации, вывод и алгоритмы обучения. Кембридж: Издательство Кембриджского университета, 2003. ISBN   0-521-64298-1
  4. ^ Обложка, Томас М. (2006). «Глава 5: Сжатие данных». Элементы теории информации . Джон Уайли и сыновья. стр. 103–142. ISBN  0-471-24195-4 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 64fb2971b1013adf256635d2f2d7f577__1714631400
URL1:https://arc.ask3.ru/arc/aa/64/77/64fb2971b1013adf256635d2f2d7f577.html
Заголовок, (Title) документа по адресу, URL1:
Shannon's source coding theorem - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)