Объясните понятия энтропии Шеннона, перекрёстной энтропии и взаимной информации, и покажите, как взаимная информация между бинарной признаковой переменной и целевой категорией может использоваться для отбора признаков в задаче классификации; приведите пример расчёта для конкретного распределения вероятностей и интерпретацию результата?
Кратко — определения, связь и пример с расчётом. 1) Энтропия Шеннона Определение: \\(H(X) = -\sum_x p(x)\log_2 p(x)\\). Интерпретация: мера неопределённости случайной величины (в битах при базе логарифма 2). Например, равновероятная бинарная переменная имеет \\(H=1\\) бит. 2) Перекрёстная энтропия Определение между истинным распределением \\(p\\) и модельным \\(q\\): \\(H(p,q)= -\sum_x p(x)\log_2 q(x)\\). Связь с энтропией и дивергенцией Кульбака–Лейблера: \\(H(p,q)=H(p)+D_{KL}(p\|q)\\). Перекрёстная энтропия — стандартная функция потерь в классификации (чем ближе \\(q\\) к \\(p\\), тем меньше \\(H(p,q)\\)). 3) Взаимная информация Определение: \\(I(X;Y)=\sum_{x,y} p(x,y)\log_2\frac{p(x,y)}{p(x)p(y)}\\). Эквивалентно: \\(I(X;Y)=H(Y)-H(Y\mid X)=H(X)-H(X\mid Y)\\). Свойства: \\(I(X;Y)\ge 0\\), симметрична, равна нулю при независимости. Интерпретация: сколько битов (в среднем) снижает знание \\(X\\) неопределённость о \\(Y\\). 4) Использование взаимной информации для отбора признаков Идея: для каждого признака \\(X_i\\) вычислить \\(I(X_i;Y)\\) и ранжировать признаки по убыванию. Чем выше \\(I\\), тем больше признак информативен относительно целевой переменной. Практически: отобрать топ-k по \\(I\\), либо использовать порог; полезно и для фильтрационных методов (независимо от модели). 5) Пример расчёта (бинарный признак \\(X\\) и бинарная цель \\(Y\\)) Зададим совместное распределение: \\(p(X{=}1,Y{=}1)=0.3,\\quad p(X{=}1,Y{=}0)=0.1,\\quad p(X{=}0,Y{=}1)=0.2,\\quad p(X{=}0,Y{=}0)=0.4.\\) Маргинали: \\(p(X{=}1)=0.3+0.1=0.4,\\quad p(X{=}0)=0.6,\\) \\(p(Y{=}1)=0.3+0.2=0.5,\\quad p(Y{=}0)=0.5.\\) Энтропия цели: \\(H(Y)=-0.5\log_2 0.5-0.5\log_2 0.5=1\\) бит. Условная энтропия \\(H(Y\mid X)\\): при \\(X{=}1\\): \\(p(Y{=}1\mid X{=}1)=0.3/0.4=0.75,\\; p(Y{=}0\mid X{=}1)=0.25\\), \\(H(Y\mid X{=}1)=-0.75\log_2 0.75-0.25\log_2 0.25\approx 0.811278\\) бит. при \\(X{=}0\\): \\(p(Y{=}1\mid X{=}0)=0.2/0.6\approx 1/3,\\; p(Y{=}0\mid X{=}0)=2/3\\), \\(H(Y\mid X{=}0)\approx -\tfrac{1}{3}\log_2\tfrac{1}{3}-\tfrac{2}{3}\log_2\tfrac{2}{3}\approx 0.918296\\) бит. Тогда \\(H(Y\mid X)=p(X{=}1)H(Y\mid X{=}1)+p(X{=}0)H(Y\mid X{=}0)\\) \\(\quad=0.4\cdot 0.811278+0.6\cdot 0.918296\approx 0.875489\\) бит. Взаимная информация: \\(I(X;Y)=H(Y)-H(Y\mid X)\approx 1-0.875489=0.124511\\) бита (≈\\(0.125\\) бита). Интерпретация результата: Значение \\(I(X;Y)\approx 0.125\\) бита — небольшое, но положительное. Это означает, что знание \\(X\\) в среднем уменьшает неопределённость о \\(Y\\) примерно на \\(0.125\\) бита (из исходного 1 бита). Для отбора признаков такой \\(X\\) информативен, но не сильно; при наличии других признаков его можно ранжировать по \\(I\\) и, возможно, отдать предпочтение признакам с большим \\(I\\). (Опционально: можно также вычислять взаимную информацию многомерно или условно \\(I(X;Y\mid Z)\\) для учёта зависимостей между признаками.)
1) Энтропия Шеннона
Определение: \\(H(X) = -\sum_x p(x)\log_2 p(x)\\).
Интерпретация: мера неопределённости случайной величины (в битах при базе логарифма 2). Например, равновероятная бинарная переменная имеет \\(H=1\\) бит.
2) Перекрёстная энтропия
Определение между истинным распределением \\(p\\) и модельным \\(q\\): \\(H(p,q)= -\sum_x p(x)\log_2 q(x)\\).
Связь с энтропией и дивергенцией Кульбака–Лейблера: \\(H(p,q)=H(p)+D_{KL}(p\|q)\\). Перекрёстная энтропия — стандартная функция потерь в классификации (чем ближе \\(q\\) к \\(p\\), тем меньше \\(H(p,q)\\)).
3) Взаимная информация
Определение: \\(I(X;Y)=\sum_{x,y} p(x,y)\log_2\frac{p(x,y)}{p(x)p(y)}\\). Эквивалентно: \\(I(X;Y)=H(Y)-H(Y\mid X)=H(X)-H(X\mid Y)\\).
Свойства: \\(I(X;Y)\ge 0\\), симметрична, равна нулю при независимости. Интерпретация: сколько битов (в среднем) снижает знание \\(X\\) неопределённость о \\(Y\\).
4) Использование взаимной информации для отбора признаков
Идея: для каждого признака \\(X_i\\) вычислить \\(I(X_i;Y)\\) и ранжировать признаки по убыванию. Чем выше \\(I\\), тем больше признак информативен относительно целевой переменной. Практически: отобрать топ-k по \\(I\\), либо использовать порог; полезно и для фильтрационных методов (независимо от модели).
5) Пример расчёта (бинарный признак \\(X\\) и бинарная цель \\(Y\\))
Зададим совместное распределение:
\\(p(X{=}1,Y{=}1)=0.3,\\quad p(X{=}1,Y{=}0)=0.1,\\quad p(X{=}0,Y{=}1)=0.2,\\quad p(X{=}0,Y{=}0)=0.4.\\)
Маргинали:
\\(p(X{=}1)=0.3+0.1=0.4,\\quad p(X{=}0)=0.6,\\)
\\(p(Y{=}1)=0.3+0.2=0.5,\\quad p(Y{=}0)=0.5.\\)
Энтропия цели:
\\(H(Y)=-0.5\log_2 0.5-0.5\log_2 0.5=1\\) бит.
Условная энтропия \\(H(Y\mid X)\\):
при \\(X{=}1\\): \\(p(Y{=}1\mid X{=}1)=0.3/0.4=0.75,\\; p(Y{=}0\mid X{=}1)=0.25\\),
\\(H(Y\mid X{=}1)=-0.75\log_2 0.75-0.25\log_2 0.25\approx 0.811278\\) бит.
при \\(X{=}0\\): \\(p(Y{=}1\mid X{=}0)=0.2/0.6\approx 1/3,\\; p(Y{=}0\mid X{=}0)=2/3\\),
\\(H(Y\mid X{=}0)\approx -\tfrac{1}{3}\log_2\tfrac{1}{3}-\tfrac{2}{3}\log_2\tfrac{2}{3}\approx 0.918296\\) бит.
Тогда
\\(H(Y\mid X)=p(X{=}1)H(Y\mid X{=}1)+p(X{=}0)H(Y\mid X{=}0)\\)
\\(\quad=0.4\cdot 0.811278+0.6\cdot 0.918296\approx 0.875489\\) бит.
Взаимная информация:
\\(I(X;Y)=H(Y)-H(Y\mid X)\approx 1-0.875489=0.124511\\) бита (≈\\(0.125\\) бита).
Интерпретация результата:
Значение \\(I(X;Y)\approx 0.125\\) бита — небольшое, но положительное. Это означает, что знание \\(X\\) в среднем уменьшает неопределённость о \\(Y\\) примерно на \\(0.125\\) бита (из исходного 1 бита). Для отбора признаков такой \\(X\\) информативен, но не сильно; при наличии других признаков его можно ранжировать по \\(I\\) и, возможно, отдать предпочтение признакам с большим \\(I\\).
(Опционально: можно также вычислять взаимную информацию многомерно или условно \\(I(X;Y\mid Z)\\) для учёта зависимостей между признаками.)