Объясните понятие энтропии в теории информации и решите практическую задачу: имея распределение символов в тексте, как оценить среднюю длину оптимального префиксного кода и сравнить с реальной эффективностью существующей кодировки
Предыдущий
вопрос Следующий
вопрос

Question

Объясните понятие энтропии в теории информации и решите практическую задачу: имея распределение символов в тексте, как оценить среднюю длину оптимального префиксного кода и сравнить с реальной эффективностью существующей кодировки
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Объясните понятие эн...

eva

18 Ноя в 10:22

2 +1

0

Helper · Answer 1

Кратко о понятии:
- Энтропия источника дискретных символов задаёт среднее количество информации (в битах) на символ в идеальном кодировании и определяется как

H(X)=-\sum_i p_i\log_2 p_i,

где

p_i

— вероятность

i

-го символа. Энтропия — нижняя теоретическая граница среднего числа бит на символ при кодировании без потерь.
Как оценить среднюю длину оптимального префиксного кода и сравнить с реальной кодировкой — пошагово:
1) Собрать частоты и вычислить вероятности:

p_i=\frac{n_i}{N},

где

n_i

— число вхождений символа

i

,

N

— всего символов.
2) Вычислить энтропию:

H=-\sum_i p_i\log_2 p_i\quad\text{(бит/символ)}.

3) Нижняя и достижимая оценка для префиксных кодов:

H\le L^*<H+1,

где

L^*

— средняя длина оптимального префиксного (целочисленного) кода. Конструкции:
- Шенноновский код с длинами

li=⌈−log⁡2pi⌉l_i=\lceil -\log_2 p_i\rceil

даёт среднюю длину

∑pili\sum p_i l_i

и укладывается в указанную границу.
- Алгоритм Хаффмана даёт оптимальный префиксный код (минимизирует среднюю длину среди целочисленных длин).
- Аритметическое кодирование или блочное кодирование позволяют приблизиться к

H

сколь угодно близко (снижение избыточности при увеличении блока).
4) Оценить существующую кодировку: если код присваивает символу длину

l_i^{(exist)}

, средняя длина

L_{exist}=\sum_i p_i\, l_i^{(exist)}.

Сравнения:
- избыточность (редундантность) в бит/символ:

R=L_{exist}-H.

- эффективность (доля энтропии в средней длине):

\eta=\frac{H}{L_{exist}}.

- ожидаемый объём сжатых данных для текста длины

N

:

bits=N⋅L\text{bits}=N\cdot L

.
Небольшой числовой пример:
- Частоты:

C:20A:50,\;B:30,\;C:20

(

N = 100

), тогда

p_A=0.5,\;p_B=0.3,\;p_C=0.2.

Энтропия:

H=-0.5\log_2 0.5-0.3\log_2 0.3-0.2\log_2 0.2\approx 1.4855\ \text{бит/симв.}

Шенноновские длины

l=⌈−log⁡2p⌉l=\lceil -\log_2 p\rceil

дают

l_A=1,\;l_B=2,\;l_C=3

и среднюю длину

L_S=0.5\cdot1+0.3\cdot2+0.2\cdot3=1.7.

Хаффман даёт

l_A=1,\;l_B=2,\;l_C=2

и

L_{Huff}=0.5\cdot1+0.3\cdot2+0.2\cdot2=1.5.

Сравнение: избыточность

RHuff=1.5−1.4855≈0.0145R_{Huff}=1.5-1.4855\approx 0.0145

бит/симв, эффективность

η≈0.9903\eta\approx 0.9903

(99.03%). Для ASCII (8 бит/симв) избыточность ≈

6.5145

бит/симв.
Практическая инструкция для реального текста:
- подсчитать частоты (байты/символы/глифы),
- вычислить

p_i

и

H

,
- посчитать

Lexist=∑pili(exist)L_{exist}=\sum p_i l_i^{(exist)}

если известны длины текущей кодировки,
- построить Хаффман (или арифметическое кодирование) и получить

L_{opt}

,
- сравнить по

R

и

η\eta

, вычислить предполагаемую сэкономленную длину

N⋅(Lexist−Lopt)N\cdot(L_{exist}-L_{opt})

бит.
Это и есть полная методика оценки и сравнения.

Другие вопросы eva

Другие вопросы
eva