Объясните теорию информации Шеннона: что такое энтропия, перекрестная энтропия и взаимная информация; приведите прикладной пример использования энтропии в сжатии данных и в оценке качества классификатора
Предыдущий
вопрос Следующий
вопрос

; для независимых событий энтропия аддитивна. Энтропия — среднее минимальное число бит на символ при оптимальном кодировании (теорема Шеннона).
- Перекрёстная энтропия (между истинным распределением

p

и моделью

q

):

-\sum_x p(x)\log_2 q(x).

В ML используется как функция потерь (минимизируем

H (p, q)

). При одном образце с one‑hot мишенью это сводится к отрицательному лог‑правдоподобию:

−log⁡2q(ytrue)-\log_2 q(y_{\text{true}})

.
- Дивергенция Кульбака‑Лейблера (связь с перекрёстной энтропией):

D_{KL}(p\|q)=\sum_x p(x)\log_2\frac{p(x)}{q(x)} = H(p,q)-H(p)\ge 0.

Минимизация

H (p, q)

при фиксированном

p

эквивалентна минимизации

D_{KL}(p\|q)

.
- Взаимная информация (мера зависимости между

X

и

Y

):

I(X;Y)=\sum_{x,y} p(x,y)\log_2\frac{p(x,y)}{p(x)p(y)}.

Альтернативно:

I(X;Y)=H(X)+H(Y)-H(X,Y)=D_{KL}\big(p(x,y)\|p(x)p(y)\big).

Если

X

и

Y

независимы,

I (X; Y) = 0

; если

Y

однозначно определяется по

X

,

I (X; Y) = H (Y)

.
Примеры применения
1) Сжатие данных (применение энтропии)
- Теорема: средняя длина кода

Lˉ\bar L

для источника с распределением

p

не может быть меньше энтропии:

\bar L \ge H(X).

Практический пример: источник даёт

0

с вероятностью

0.9

и

1

с вероятностью

0.1

. Энтропия

-0.9\log_2 0.9 - 0.1\log_2 0.1 \approx 0.469\ \text{бит/символ}.

Значит оптимальный код в среднем требует ≈

0.469

бит на символ; на практике используются коды (например, Хаффман или арифметическое кодирование), приближающие это нижнее значение.
2) Оценка качества классификатора (перекрёстная энтропия / log‑loss)
- Если истинное распределение для примера — one‑hot (класс

y

= 1), перекрёстная энтропия равна отрицательному лог‑предсказанию:

H(p,q) = -\log_2 q(y).

Пример: модель предсказывает

q(B)=0.3q(A)=0.7,\ q(B)=0.3

, истинный класс

A

. Потеря:

-\log_2 0.7 \approx 0.515\ \text{бит}.

Минимизация суммарной перекрёстной энтропии по выборке эквивалентна максимизации правдоподобия и стремится сделать

q

близким к

p

. Также энтропия предсказаний

H (q)

служит мерой неопределённости модели: меньшая энтропия — более уверенные предсказания.
Дополнительно: взаимная информация применяется для отбора признаков (выбирают признаки с большой

I(feature;label)I(\text{feature};\text{label})

), для оценки зависимости между переменными, для измерения информационной эффективности каналов и т.п.
Если нужно, могу дать короткий пример расчёта перекрёстной энтропии/MI для небольшой таблицы совместного распределения.

Другие вопросы eva

Другие вопросы
eva