Обсудите концепцию информационной энтропии Шеннона: как вычислять энтропию для сообщения, что означает её значение в битах, и как она применяется в сжатии данных и оценке информативности признаков в ML
Предыдущий
вопрос Следующий
вопрос

Question

Обсудите концепцию информационной энтропии Шеннона: как вычислять энтропию для сообщения, что означает её значение в битах, и как она применяется в сжатии данных и оценке информативности признаков в ML
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Обсудите концепцию и...

eva

25 Ноя в 15:54

2 +1

0

Helper · Answer 1

Кратко и по сути — про информационную энтропию Шеннона, её вычисление, смысл в битах и приложения в сжатии и ML.
Определение
- Для дискретной случайной величины

X

с распределением

p(x_i)=\Pr(X=x_i)

энтропия определяется как

H(X)=−∑ip(xi)log⁡2p(xi).H(X)=-\sum_i p(x_i)\log_2 p(x_i).

- Для последовательности символов вводят скорость (entropy rate):

H=lim⁡n→∞1nH(X1n)H=\lim_{n\to\infty}\tfrac{1}{n}H(X_1^n)

.
Интерпретация в битах
- Если логарифм по основанию 2, то единица измерения — бит. Энтропия

H (X)

— среднее число бинарных (yes/no) вопросов, необходимых в оптимальной стратегии для идентификации исхода

X

.
- Границы:

0≤H(X)≤log⁡2n0\le H(X)\le\log_2 n

(для

n

возможных исходов).

H = 0

— полностью предсказуемо;

H=\log_2 n

— равновероятно (максимальная неопределённость).
Простой числовой пример
- Для «смещённой монеты» с

p(орёл)=0.7p(\text{орёл})=0.7

и

p(решка)=0.3p(\text{решка})=0.3

:

H=-0.7\log_2 0.7-0.3\log_2 0.3\approx 0.881\ \text{бит}.

Связь с кодированием и сжатием
- Теорема источника (Shannon): средняя длина любого префиксного (без ambig.) кода

L

удовлетворяет

H(X)\le L < H(X)+1

(для целочисленных дли кода; арифметическое кодирование может приближать

H (X)

сколь угодно близко).
- Следствие:

H (X)

— теоретический минимум среднего числа бит на символ для безусловно безошибочного сжатия при известных статистиках источника.
- Практика: Huffman даёт оптимальный целочисленный код, арифметическое/асимпт. коды — более плотное приближение; если модель неверна, средняя длина равна кросс-энтропии

H (P, Q)

(см. ниже).
Кросс-энропия и дивергенция
- Кросс-энтропия и KL-дивергенция:

H(P,Q)=-\sum_x p(x)\log_2 q(x),\qquad D_{KL}(P\|Q)=\sum_x p(x)\log_2\frac{p(x)}{q(x)}.

-

H(P,Q)=H(P)+D_{KL}(P\|Q)

. Используется как мера «потерь» при кодировании/моделировании с неверной моделью.
Применение в ML: информативность признаков и структуры моделей
- Информационный выигрыш для выбора разбиения (decision trees):

\text{IG}(Y;X)=H(Y)-H(Y\mid X)

(разница энтропий родителя и взвешенной суммы энтропий детей). Чем больше IG — тем более информативен признак относительно целевой метки.
- Взаимная информация для отбора признаков:

I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)I(X;Y)=H(X)-H(X\mid Y)=H(Y)-H(Y\mid X)

. Показывает, сколько информации об одном даёт другой.
- Кросс-энтропия как функция потерь: в классификации модель минимизирует среднюю кросс-энтропию, что эквивалентно максимизации правдоподобия.
- Предупреждения: оценка энтропии и взаимной информации по конечной выборке имеет смещение; для непрерывных признаков стандартная «дифференциальная энтропия» не полностью аналогична дискретной и зависит от шкалы — часто требуется дискретизация или непараметрические оценители (k-NN, KDE).
Короткое резюме
- Энтропия Шеннона измеряет среднюю неопределённость/информацию одного символа в битах.
- Она даёт теоретический минимум бит для безошибочного сжатия и служит базой для алгоритмов (Huffman, арифметическое кодирование).
- В ML используется для оценки информативности признаков (information gain, mutual information) и в качестве критерия/функции потерь (кросс-энтропия), но требует аккуратной оценки на данных.

Другие вопросы eva

Другие вопросы
eva