Дана дискретная случайная величина X с распределением P(X=0)=0.5, P(X=1)=0.3, P(X=2)=0.2 — вычислите энтропию H(X) в битах, объясните смысл полученного значения и как оно влияет на сжатие данных
Формула энтропии: H(X)=−∑ipilog2piH(X) = -\sum_i p_i\log_2 p_iH(X)=−∑ipilog2pi. Подставим: H(X)=−(0.5log20.5+0.3log20.3+0.2log20.2)=0.5+0.5210897+0.4643856≈1.48548 бит.
H(X) = -\big(0.5\log_2 0.5 + 0.3\log_2 0.3 + 0.2\log_2 0.2\big) = 0.5 + 0.5210897 + 0.4643856 \approx 1.48548\ \text{бит}. H(X)=−(0.5log20.5+0.3log20.3+0.2log20.2)=0.5+0.5210897+0.4643856≈1.48548бит. Смысл результата: H(X)H(X)H(X) — среднее количество бит неопределённости (информации) на одно наблюдение этой величины; это нижняя граница средней длины кодирования без потерь (по Шеннону). Для данного распределения минимальная возможная средняя длина кода ≈ 1.4851.4851.485 бит/символ. Влияние на сжатие: оптимальные методы (арифметическое кодирование) могут приближать среднюю длину к H(X)H(X)H(X); например Huffman-код для этих вероятностей даёт среднюю длину LHuffman=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит,
L_{\text{Huffman}} = 0.5\cdot1 + 0.3\cdot2 + 0.2\cdot2 = 1.5\ \text{бит}, LHuffman=0.5⋅1+0.3⋅2+0.2⋅2=1.5бит,
т.е. избыточность LHuffman−H(X)≈0.0145L_{\text{Huffman}} - H(X) \approx 0.0145LHuffman−H(X)≈0.0145 бита/символ. Нельзя сжать без потерь в среднем меньше, чем H(X)H(X)H(X) бит на символ. Для больших блоков последовательностей число типичных последовательностей примерно 2nH(X)2^{nH(X)}2nH(X).
H(X)=−∑ipilog2piH(X) = -\sum_i p_i\log_2 p_iH(X)=−∑i pi log2 pi .
Подставим:
H(X)=−(0.5log20.5+0.3log20.3+0.2log20.2)=0.5+0.5210897+0.4643856≈1.48548 бит. H(X) = -\big(0.5\log_2 0.5 + 0.3\log_2 0.3 + 0.2\log_2 0.2\big)
= 0.5 + 0.5210897 + 0.4643856 \approx 1.48548\ \text{бит}.
H(X)=−(0.5log2 0.5+0.3log2 0.3+0.2log2 0.2)=0.5+0.5210897+0.4643856≈1.48548 бит.
Смысл результата: H(X)H(X)H(X) — среднее количество бит неопределённости (информации) на одно наблюдение этой величины; это нижняя граница средней длины кодирования без потерь (по Шеннону). Для данного распределения минимальная возможная средняя длина кода ≈ 1.4851.4851.485 бит/символ.
Влияние на сжатие: оптимальные методы (арифметическое кодирование) могут приближать среднюю длину к H(X)H(X)H(X); например Huffman-код для этих вероятностей даёт среднюю длину
LHuffman=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит, L_{\text{Huffman}} = 0.5\cdot1 + 0.3\cdot2 + 0.2\cdot2 = 1.5\ \text{бит},
LHuffman =0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит, т.е. избыточность LHuffman−H(X)≈0.0145L_{\text{Huffman}} - H(X) \approx 0.0145LHuffman −H(X)≈0.0145 бита/символ. Нельзя сжать без потерь в среднем меньше, чем H(X)H(X)H(X) бит на символ. Для больших блоков последовательностей число типичных последовательностей примерно 2nH(X)2^{nH(X)}2nH(X).