Для двоичного источника с вероятностью p единицы найдите выражение для энтропии H(p) и проанализируйте, как изменяется оптимальная длина кода при переходе к каналу с шумом (битовая ошибка с вероятностью ε); опишите, как теоретические пределы связаны с практическими алгоритмами сжатия и исправления ошибок
Предыдущий
вопрос Следующий
вопрос

Question

Для двоичного источника с вероятностью p единицы найдите выражение для энтропии H(p) и проанализируйте, как изменяется оптимальная длина кода при переходе к каналу с шумом (битовая ошибка с вероятностью ε); опишите, как теоретические пределы связаны с практическими алгоритмами сжатия и исправления ошибок
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Для двоичного источн...

eva

22 Окт в 14:40

5 +1

0

Helper · Answer 1

Энтропия бинарного источника (вероятность единицы

p

):

H(p)=-p\log_2 p-(1-p)\log_2(1-p),

максимум при

p=12p=\tfrac12

равен

1

бит на символ.
Оптимальная длина кода (асимптотически):
- Теорема Шеннона (сжатие): средняя длина кода на символ

L

удовлетворяет

L≥H(p)L\ge H(p)

. При блочном кодировании при увеличении блока можно получить

L→H(p)L\to H(p)

.
- Практические оценки: префиксный (Хаффман) код даёт

H(p)\le L_{\text{Huffman}}<H(p)+1,

арифметическое и контекстно-адаптивное кодирование (или LZ-методы) приближают

H (p)

сколь угодно близко при больших блоках.
Добавление шума (BSC с вероятностью ошибки

ε\varepsilon

):
- Ёмкость бинарного симметричного канала (BSC):

C=1-H(\varepsilon)=1-\bigl(-\varepsilon\log_2\varepsilon-(1-\varepsilon)\log_2(1-\varepsilon)\bigr).

- Условие возможности безошибочной (с вероятностью ошибки стремящейся к нулю) передачи: скорость источника не должна превышать ёмкость канала, т.е.

H(p)\le C=1-H(\varepsilon).

Если это выполняется, то по теореме разделённого кодирования возможно сначала сжать до скорости

R≈H(p)R\approx H(p)

, затем передать с кодом исправления ошибок с кодовой скоростью

R≤CR\le C

. Если

H (p) > C

, то при любом кодировании нельзя обеспечить надёжную передачу всех исходных битов без потерь.
В практических единицах: минимальное число каналных использований на символ источника (асимптотически) не меньше

\frac{H(p)}{C}=\frac{H(p)}{1-H(\varepsilon)}.

Связь теоретических пределов с практическими алгоритмами:
- Сжатие: Huffman, arithmetic coding, LZ-семейство приближают среднюю длину к

H (p)

при конечной вычислимости и ресурсах; при малых блоках наблюдается избыточность порядка

O(log⁡nn)O\bigl(\tfrac{\log n}{n}\bigr)

.
- Исправление ошибок: современные коды (LDPC, turbo, polar) приближают ёмкость

C

при больших блоках и умеренной сложности; для конечной длины существует штраф (finite-blocklength) — отклонение от

C

порядка

O(1/n)O(1/\sqrt{n})

.
- Разделённое кодирование (сжатие затем кодирование по Шеннону) асимптотически оптимально, но в практических конечных длинах иногда выигрывает совместное кодирование (joint source–channel), особенно при жёстких задержках или малых блоках.
Кратко: энтропия

H (p)

задаёт нижнюю границу средней длины сжатого кода; при наличии шума канал имеет ёмкость

1−H(ε)1-H(\varepsilon)

, и для надёжной передачи требуется

H(p)≤1−H(ε)H(p)\le 1-H(\varepsilon)

. Практические алгоритмы стремятся достигнуть этих пределов, но в конечной длине наблюдается неизбежная потеря эффективности, компенсируемая выбором конкретных кодов и блоковых размеров.

Другие вопросы eva

Другие вопросы
eva