Дана дискретная случайная величина X с распределением P(X=0)=0.5, P(X=1)=0.3, P(X=2)=0.2 — вычислите энтропию H(X) в битах, объясните смысл полученного значения и как оно влияет на сжатие данных

24 Ноя в 12:26
2 +2
0
Ответы
1
Формула энтропии:
H(X)=−∑ipilog⁡2piH(X) = -\sum_i p_i\log_2 p_iH(X)=i pi log2 pi .
Подставим:
H(X)=−(0.5log⁡20.5+0.3log⁡20.3+0.2log⁡20.2)=0.5+0.5210897+0.4643856≈1.48548 бит. H(X) = -\big(0.5\log_2 0.5 + 0.3\log_2 0.3 + 0.2\log_2 0.2\big)
= 0.5 + 0.5210897 + 0.4643856 \approx 1.48548\ \text{бит}.
H(X)=(0.5log2 0.5+0.3log2 0.3+0.2log2 0.2)=0.5+0.5210897+0.46438561.48548 бит.

Смысл результата: H(X)H(X)H(X) — среднее количество бит неопределённости (информации) на одно наблюдение этой величины; это нижняя граница средней длины кодирования без потерь (по Шеннону). Для данного распределения минимальная возможная средняя длина кода ≈ 1.4851.4851.485 бит/символ.
Влияние на сжатие: оптимальные методы (арифметическое кодирование) могут приближать среднюю длину к H(X)H(X)H(X); например Huffman-код для этих вероятностей даёт среднюю длину
LHuffman=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит, L_{\text{Huffman}} = 0.5\cdot1 + 0.3\cdot2 + 0.2\cdot2 = 1.5\ \text{бит},
LHuffman =0.51+0.32+0.22=1.5 бит,
т.е. избыточность LHuffman−H(X)≈0.0145L_{\text{Huffman}} - H(X) \approx 0.0145LHuffman H(X)0.0145 бита/символ. Нельзя сжать без потерь в среднем меньше, чем H(X)H(X)H(X) бит на символ. Для больших блоков последовательностей число типичных последовательностей примерно 2nH(X)2^{nH(X)}2nH(X).
24 Ноя в 13:16
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир