Рассчитайте энтропию источника, если вероятности символов A, B, C равны 0.5, 0.3, 0.2 соответственно, объясните смысл результата в битах, затем рассмотрите двоичный симметричный канал с вероятностью ошибки p и выведите формулу его пропускной способности (channel capacity), обсудите влияние кодов коррекции ошибок и практические ограничения достижения пропускной способности
1) Энтропия источника. Формула: H=−∑ipilog2pi.H = -\sum_{i} p_i\log_2 p_i.H=−i∑pilog2pi. Подставляем pA=0.5, pB=0.3, pC=0.2p_A=0.5,\; p_B=0.3,\; p_C=0.2pA=0.5,pB=0.3,pC=0.2: H=−(0.5log20.5+0.3log20.3+0.2log20.2)=1.485475 бит (≈1.485 бит).
H = -\big(0.5\log_2 0.5 + 0.3\log_2 0.3 + 0.2\log_2 0.2\big) = 1.485475\ \text{бит} \ (\approx 1.485\ \text{бит}). H=−(0.5log20.5+0.3log20.3+0.2log20.2)=1.485475бит(≈1.485бит). Смысл в битах: это среднее количество информации (неопределённости) на один символ источника и минимальное среднее число двоичных бит, необходимое для кодирования символа при оптимальном (без потерь) кодировании. 2) Двоичный симметричный канал (BSC) с вероятностью ошибки ppp. Определения: вход X∈{0,1}X\in\{0,1\}X∈{0,1}, выход YYY, ошибка (побитовый флип) с вероятностью ppp. Энтропия шума (условная энтропия выхода при известном входе): H(Y∣X)=H2(p)=−plog2p−(1−p)log2(1−p).H(Y|X)=H_2(p)=-p\log_2 p-(1-p)\log_2(1-p).H(Y∣X)=H2(p)=−plog2p−(1−p)log2(1−p). Взаимная информация: I(X;Y)=H(Y)−H(Y∣X).I(X;Y)=H(Y)-H(Y|X).I(X;Y)=H(Y)−H(Y∣X). Для симметричного канала максимум H(Y)H(Y)H(Y) достигается при равновероятном входе P(X=0)=P(X=1)=1/2P(X=0)=P(X=1)=1/2P(X=0)=P(X=1)=1/2, тогда H(Y)=1H(Y)=1H(Y)=1. Следовательно ёмкость (максимум взаимной информации) равна C=maxPXI(X;Y)=1−H2(p).
C=\max_{P_X} I(X;Y)=1-H_2(p). C=PXmaxI(X;Y)=1−H2(p).
Единицы: биты на один каналный такт (бит на использование канала). Заметьте: для p∈[0,0.5]p\in[0,0.5]p∈[0,0.5]CCC уменьшается от 111 до 000. 3) Влияние кодов коррекции ошибок и практические ограничения. - Теория (теорема Шеннона): для любого битового темпа меньше CCC существуют кодеры/декодеры, обеспечивающие произвольно малую вероятность ошибки при неограниченно больших длинах блоков (асимптотически достижимо). - На практике ограничения: - Конечная длина блоков: при конечных блоках существует ненулевой «gap» к CCC; существуют явные оценки (finite-blocklength bounds). - Сложность кодирования/декодирования: код, близкий к CCC (LDPC, турбо, полярные коды), требует высокой вычислительной мощности и/или задержки. - Задержка и буферизация: большие блоки → большая латентность. - Неполная/нестабильная информация о канале (оценка ppp), канал меняется во времени. - Практические ограничения физического уровня (синхронизация, помехи, ограничения мощности и спектра). - Итог: коды позволяют приближаться к C=1−H2(p)C=1-H_2(p)C=1−H2(p), но на практике достигают его с некоторым отставанием из‑за конечной длины, сложности, задержки и неточностей в модели канала.
Формула: H=−∑ipilog2pi.H = -\sum_{i} p_i\log_2 p_i.H=−i∑ pi log2 pi .
Подставляем pA=0.5, pB=0.3, pC=0.2p_A=0.5,\; p_B=0.3,\; p_C=0.2pA =0.5,pB =0.3,pC =0.2:
H=−(0.5log20.5+0.3log20.3+0.2log20.2)=1.485475 бит (≈1.485 бит). H = -\big(0.5\log_2 0.5 + 0.3\log_2 0.3 + 0.2\log_2 0.2\big)
= 1.485475\ \text{бит} \ (\approx 1.485\ \text{бит}).
H=−(0.5log2 0.5+0.3log2 0.3+0.2log2 0.2)=1.485475 бит (≈1.485 бит).
Смысл в битах: это среднее количество информации (неопределённости) на один символ источника и минимальное среднее число двоичных бит, необходимое для кодирования символа при оптимальном (без потерь) кодировании.
2) Двоичный симметричный канал (BSC) с вероятностью ошибки ppp.
Определения: вход X∈{0,1}X\in\{0,1\}X∈{0,1}, выход YYY, ошибка (побитовый флип) с вероятностью ppp. Энтропия шума (условная энтропия выхода при известном входе): H(Y∣X)=H2(p)=−plog2p−(1−p)log2(1−p).H(Y|X)=H_2(p)=-p\log_2 p-(1-p)\log_2(1-p).H(Y∣X)=H2 (p)=−plog2 p−(1−p)log2 (1−p).
Взаимная информация: I(X;Y)=H(Y)−H(Y∣X).I(X;Y)=H(Y)-H(Y|X).I(X;Y)=H(Y)−H(Y∣X). Для симметричного канала максимум H(Y)H(Y)H(Y) достигается при равновероятном входе P(X=0)=P(X=1)=1/2P(X=0)=P(X=1)=1/2P(X=0)=P(X=1)=1/2, тогда H(Y)=1H(Y)=1H(Y)=1. Следовательно ёмкость (максимум взаимной информации) равна
C=maxPXI(X;Y)=1−H2(p). C=\max_{P_X} I(X;Y)=1-H_2(p).
C=PX max I(X;Y)=1−H2 (p). Единицы: биты на один каналный такт (бит на использование канала). Заметьте: для p∈[0,0.5]p\in[0,0.5]p∈[0,0.5] CCC уменьшается от 111 до 000.
3) Влияние кодов коррекции ошибок и практические ограничения.
- Теория (теорема Шеннона): для любого битового темпа меньше CCC существуют кодеры/декодеры, обеспечивающие произвольно малую вероятность ошибки при неограниченно больших длинах блоков (асимптотически достижимо).
- На практике ограничения:
- Конечная длина блоков: при конечных блоках существует ненулевой «gap» к CCC; существуют явные оценки (finite-blocklength bounds).
- Сложность кодирования/декодирования: код, близкий к CCC (LDPC, турбо, полярные коды), требует высокой вычислительной мощности и/или задержки.
- Задержка и буферизация: большие блоки → большая латентность.
- Неполная/нестабильная информация о канале (оценка ppp), канал меняется во времени.
- Практические ограничения физического уровня (синхронизация, помехи, ограничения мощности и спектра).
- Итог: коды позволяют приближаться к C=1−H2(p)C=1-H_2(p)C=1−H2 (p), но на практике достигают его с некоторым отставанием из‑за конечной длины, сложности, задержки и неточностей в модели канала.