Для дискретного источника с алфавитом {A,B,C} и вероятностями {0.5,0.3,0.2} вычислите энтропию, среднюю длину оптимального префиксного кода (Хаффмана) и обсудите, как меняется эффективность кодирования при появлении корреляций между символами
Энтропия: H=−∑x∈{A,B,C}p(x)log2p(x)=−0.5log20.5−0.3log20.3−0.2log20.2≈1.4854754 бит/симв.
H=-\sum_{x\in\{A,B,C\}} p(x)\log_2 p(x) =-0.5\log_2 0.5-0.3\log_2 0.3-0.2\log_2 0.2 \approx 1.4854754\ \text{бит/симв.} H=−x∈{A,B,C}∑p(x)log2p(x)=−0.5log20.5−0.3log20.3−0.2log20.2≈1.4854754бит/симв. Средняя длина оптимального префиксного (Хаффмана) кода: - Объединяем наименьшие вероятности 0.20.20.2 и 0.30.30.3 в узел 0.50.50.5. Тогда длины: для символа с p=0.5p=0.5p=0.5 — l=1l=1l=1, для остальных — l=2l=2l=2. Lˉ=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит/симв.
\bar{L}=0.5\cdot1+0.3\cdot2+0.2\cdot2=1.5\ \text{бит/симв.} Lˉ=0.5⋅1+0.3⋅2+0.2⋅2=1.5бит/симв. Эффективность и избыточность: η=HLˉ≈1.48547541.5≈0.9903 (99.03%)
\eta=\frac{H}{\bar{L}}\approx\frac{1.4854754}{1.5}\approx 0.9903\ (99.03\%) η=LˉH≈1.51.4854754≈0.9903(99.03%)Lˉ−H≈0.0145246 бит/симв.
\bar{L}-H\approx 0.0145246\ \text{бит/симв.} Lˉ−H≈0.0145246бит/симв. Как меняется эффективность при корреляциях: - При наличии корреляций у источника релевантной величиной является энтропийная скорость Hrate=limn→∞1nH(Xn).
H_{\mathrm{rate}}=\lim_{n\to\infty}\frac{1}{n}H(X^n). Hrate=n→∞limn1H(Xn).
Для стационарной марковской цепи 1-го порядка Hrate=∑i,jp(i,j)(−log2p(j∣i)).
H_{\mathrm{rate}}=\sum_{i,j} p(i,j)\bigl(-\log_2 p(j\mid i)\bigr). Hrate=i,j∑p(i,j)(−log2p(j∣i)).
- Корреляции обычно уменьшают энтропийную скорость (Hrate<HH_{\mathrm{rate}}<HHrate<H), значит потенциально можно сжать лучше, чем при покоординатном кодировании. - Символ-о-символ Хаффман (как рассчитанный выше) не использует корреляции и даёт в среднем Lˉ=1.5\bar{L}=1.5Lˉ=1.5 б/симв; чтобы приблизиться к HrateH_{\mathrm{rate}}Hrate, нужно кодировать блоки или использовать условное/контекстное кодирование (блочный Хаффман, условный Хаффман, арифметическое кодирование, модели контекста). - Выигрыш в сжатии равен разности H−HrateH-H_{\mathrm{rate}}H−Hrate (или, в общем, взаимной информации между символами и их контекстом).
H=−∑x∈{A,B,C}p(x)log2p(x)=−0.5log20.5−0.3log20.3−0.2log20.2≈1.4854754 бит/симв. H=-\sum_{x\in\{A,B,C\}} p(x)\log_2 p(x)
=-0.5\log_2 0.5-0.3\log_2 0.3-0.2\log_2 0.2
\approx 1.4854754\ \text{бит/симв.}
H=−x∈{A,B,C}∑ p(x)log2 p(x)=−0.5log2 0.5−0.3log2 0.3−0.2log2 0.2≈1.4854754 бит/симв.
Средняя длина оптимального префиксного (Хаффмана) кода:
- Объединяем наименьшие вероятности 0.20.20.2 и 0.30.30.3 в узел 0.50.50.5. Тогда длины: для символа с p=0.5p=0.5p=0.5 — l=1l=1l=1, для остальных — l=2l=2l=2.
Lˉ=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит/симв. \bar{L}=0.5\cdot1+0.3\cdot2+0.2\cdot2=1.5\ \text{бит/симв.}
Lˉ=0.5⋅1+0.3⋅2+0.2⋅2=1.5 бит/симв.
Эффективность и избыточность:
η=HLˉ≈1.48547541.5≈0.9903 (99.03%) \eta=\frac{H}{\bar{L}}\approx\frac{1.4854754}{1.5}\approx 0.9903\ (99.03\%)
η=LˉH ≈1.51.4854754 ≈0.9903 (99.03%) Lˉ−H≈0.0145246 бит/симв. \bar{L}-H\approx 0.0145246\ \text{бит/симв.}
Lˉ−H≈0.0145246 бит/симв.
Как меняется эффективность при корреляциях:
- При наличии корреляций у источника релевантной величиной является энтропийная скорость
Hrate=limn→∞1nH(Xn). H_{\mathrm{rate}}=\lim_{n\to\infty}\frac{1}{n}H(X^n).
Hrate =n→∞lim n1 H(Xn). Для стационарной марковской цепи 1-го порядка
Hrate=∑i,jp(i,j)(−log2p(j∣i)). H_{\mathrm{rate}}=\sum_{i,j} p(i,j)\bigl(-\log_2 p(j\mid i)\bigr).
Hrate =i,j∑ p(i,j)(−log2 p(j∣i)). - Корреляции обычно уменьшают энтропийную скорость (Hrate<HH_{\mathrm{rate}}<HHrate <H), значит потенциально можно сжать лучше, чем при покоординатном кодировании.
- Символ-о-символ Хаффман (как рассчитанный выше) не использует корреляции и даёт в среднем Lˉ=1.5\bar{L}=1.5Lˉ=1.5 б/симв; чтобы приблизиться к HrateH_{\mathrm{rate}}Hrate , нужно кодировать блоки или использовать условное/контекстное кодирование (блочный Хаффман, условный Хаффман, арифметическое кодирование, модели контекста).
- Выигрыш в сжатии равен разности H−HrateH-H_{\mathrm{rate}}H−Hrate (или, в общем, взаимной информации между символами и их контекстом).