Объясните понятие энтропии Шеннона на конкретном примере источника символов с неравномерным распределением вероятностей (например, p(a)=0.5, p(b)=0.25, p(c)=0.125, p(d)=0.125) и покажите, как это влияет на оптимальное кодирование
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Объясните понятие эн...

21 Ноя в 10:47

2 +2

0

Коротко — что такое энтропия и как она влияет на кодирование, на конкретном примере.
Определение: энтропия источника

X

с распределением

p (x)

— среднее количество информации в символе

-\sum_x p(x)\log_2 p(x).

Дано:

p(d)=0.125p(a)=0.5,\; p(b)=0.25,\; p(c)=0.125,\; p(d)=0.125

.
Вычислим вклад каждого символа:

p(a)\log_2 p(a) = -0.5\log_2 0.5 = 0.5,

p(b)\log_2 p(b) = -0.25\log_2 0.25 = 0.5,

p(c)\log_2 p(c) = -0.125\log_2 0.125 = 0.375,

p(d)\log_2 p(d) = 0.125\cdot 3 = 0.375.

Сумма даёт энтропию

H(X)=0.5+0.5+0.375+0.375=1.75\ \text{bits}.

Влияние на кодирование: теоретически средняя длина любого префиксного (безамбигуозного) кода

Lˉ\bar{L}

удовлетворяет

\le \bar{L} < H(X) + 1.

Для частот, которые являются степенями

1/2

(диадические), можно построить префиксный код с целочисленными длинами, дающий

Lˉ=H(X)\bar{L}=H(X)

.
Построим оптимальный (Хаффмана) код для данного распределения: сначала объединяем

c

и

d

(оба по

0.125

), затем объединяем их с

b

(

0.25

), затем с

a

(

0.5

). Один возможный префиксный код:

\mapsto 0,\quad b \mapsto 10,\quad c \mapsto 110,\quad d \mapsto 111.

Длины кодов:

l(d)=3l(a)=1,\; l(b)=2,\; l(c)=3,\; l(d)=3

. Средняя длина

\bar{L} = 0.5\cdot1 + 0.25\cdot2 + 0.125\cdot3 + 0.125\cdot3 = 1.75\ \text{bits}.

Здесь

Lˉ=H(X)\bar{L}=H(X)

, то есть код оптимален и без избыточности, потому что распределение диадическое.
Сравнение с равномерным 4-символьным источником: при равномерном распределении

Huniform=−4⋅14log⁡214=2H_{\text{uniform}} = -4\cdot\frac14\log_2\frac14 = 2

bits, т.е. неравномерность снизила среднюю длину на

2 - 1.75 = 0.25

bits в среднем на символ.
Вывод: энтропия даёт нижнюю границу средней длины кода; для диадических вероятностей можно добиться равенства

\bar{L}=H

. В общем случае оптимизация кодов (например, Хаффмана) стремится приблизить

Lˉ\bar{L}

к

H (X)

.

Ответить

21 Ноя в 11:31

Похожие вопросы

Система команд исполнителя Конструктор состоит из двух команд, которым присвоены номера: 1 - приписать 2;…

Информатика

21 Ноя

1

Ответить

Мальчик зашифровал слово русского языка, заменив каждую букву её порядковым номером в алфавите. В результате…

Информатика

21 Ноя

1

Ответить

Три одноклассника — Влад, Тимур и Владимир, встретились спустя 11 лет после окончания школы. Выяснилось, что…

Информатика

21 Ноя

1

Ответить

Предметы

Ответы экспертов

Показать ещё

Новые вопросы

Прямой эфир