Дано неравенство Чернова для биномиального распределения. Объясните интуицию и область применения оценки больших уклонений, покажите, при каких параметрах приближения работают плохо
Предыдущий
вопрос Следующий
вопрос

Question

Дано неравенство Чернова для биномиального распределения. Объясните интуицию и область применения оценки больших уклонений, покажите, при каких параметрах приближения работают плохо
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по математике

Дано неравенство Чер...

eva

24 Ноя в 12:17

2 +2

0

Helper · Answer 1

Кратко — формула, интуиция, области применения и когда плохо.
1) Формула (биномиальное

X∼Bin(n,p)X\sim\mathrm{Bin}(n,p)

). Для любого

ε>0\varepsilon>0

P\!\Big(\frac{X}{n}\ge p+\varepsilon\Big)\le \exp\!\big(-n\,D(p+\varepsilon\|p)\big),

где

D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p}

— относительная энтропия (Kullback–Leibler). Аналогично для левого хвоста с

q=p−εq=p-\varepsilon

. Более простые (но обычно слабее) варианты: Хёффдинг

P\!\Big(\big|\tfrac{X}{n}-p\big|\ge\varepsilon\Big)\le 2\exp(-2n\varepsilon^2),

и (Bernstein/Bennett) с учётом дисперсии:

P\!\Big(\tfrac{X}{n}-p\ge\varepsilon\Big)\le\exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)+\tfrac{2}{3}\varepsilon}\Big).

2) Интуиция. Chernoff получается из mgf/метода экспоненциального наклона: выбирают оптимальный экспоненциальный фактор, чтобы минимизировать оценку. Функция

D(q∥p)D(q\|p)

— скорость (rate function) в т.ч. из теоремы Крамера: для фиксированного отклонения

ε>0\varepsilon>0

вероятность убывает экспоненциально как

exp⁡(−n⋅скорость)\exp(-n\cdot\text{скорость})

. Это даёт правильный показатель в экспоненте (асимптотически точный порядок экспоненты).
3) Связь с гауссовской аппроксимацией (малые отклонения). Для малых

ε\varepsilon

имеем разложение

D(p+\varepsilon\|p)=\frac{\varepsilon^2}{2p(1-p)}+O(\varepsilon^3).

Следовательно при

ε→0\varepsilon\to0

и

nε2→∞n\varepsilon^2\to\infty

крайние вероятности примерно равны

P\!\Big(\frac{X}{n}\approx p+\varepsilon\Big)\asymp \exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)}\Big),

что совпадает по главному показателю с CLT/квадратичной аппроксимацией (модератные отклонения). Если же

ε=O(1/n)\varepsilon=O(1/\sqrt{n})

, то надо использовать CLT/точные приближения с коэффициентами (Edgeworth), потому что Chernoff даёт только экспоненциальный порядок и теряет предэкспоненциальный множитель.
4) Когда Chernoff/простые оценки работают хорошо
- фиксированное

p∈(0,1)p\in(0,1)

и фиксированное

ε>0\varepsilon>0

(отклонения порядка

Θ(n)\Theta(n)

): оценка даёт правильный экспоненциальный темп и часто достаточно точна;
- модератные отклонения с

ε→0\varepsilon\to0

, но

nε2→∞n\varepsilon^2\to\infty

: квадратичная аппроксимация по

D

делает оценку согласованной с нормальной.
5) Когда приближения работают плохо (и почему)
- очень малые отклонения

ε≪1/n\varepsilon\ll 1/\sqrt{n}

: вероятности не экспоненциально малы, Chernoff даёт неинформативные или слишком грубые пределы; лучше CLT/точные локальные приближения;
- когда важен предэкспоненциальный множитель (мелкие вероятности, где требуется точная численность), а не только экспонента — Chernoff пропускает полные константы (нужны Bahadur–Rao, локальные формулы, Edgeworth);
- разрежённый режим

p=pn→0p=p_n\to0

(или

pn→0p_n\to0

,

np_n

фикс.): оптимальнее Пуассоновское приближение; KL-оценка может давать корректный темп, но по точности (и по предэкспоненту) хуже, чем прямой анализ Пуассона;
- крайние случаи у границы

p→0p\to0

или

p→1p\to1

вместе с малыми абсолютными числами успехов: дисперсия малы, и поведение хвостов диктуется пуассоноподобными эффектами; простые Хёффдинг‑оценки особенно сильно расходятся, так как они отталкиваются от наихудшей дисперсии

1/4

;
- когда нужна очень точная численная оценка для конечных

n

: Chernoff часто консервативен (в примере ниже видно, во сколько раз).
6) Небольшой численный пример (иллюстрация потерянных предэкспонент):
Пусть

p=0.01n=1000,\ p=0.01

. Событие

X≥20X\ge 20

даёт

q = 20/1000 = 0.02

,

ε=0.01\varepsilon=0.01

.
Квадратичная аппроксимация:

nD≈n⋅ε22p(1−p)≈5.05nD\approx n\cdot\frac{\varepsilon^2}{2p(1-p)}\approx 5.05

, значит Chernoff даёт

P(X\ge20)\lesssim e^{-5.05}\approx 6.4\cdot10^{-3}.

По CLT:

σ≈9.9≈3.15\mathbb{E}X=10,\ \sigma\approx\sqrt{9.9}\approx3.15

, сдвиг

(20-10)/\sigma\approx3.18

даёт настоящую вероятность порядка

7⋅10−47\cdot10^{-4}

. То есть Chernoff правильно предсказывает экспоненциальный характер малости, но в данном конечном примере консервативен в ~9 раз по величине (предэкспоненциальный множитель).
7) Выводы — практические рекомендации
- Для оценки больших отклонений порядка

Θ(n)\Theta(n)

или модератных (

nε2→∞n\varepsilon^2\to\infty

) Chernoff/KL — естественный инструмент (правильный скоростной показатель).
- Для малых отклонений (

ε=O(1/n)\varepsilon=O(1/\sqrt{n})

) и для точных численных оценок используйте CLT/Edgeworth/локальную теорию; для разрежённых случаев (

p→0p\to0

,

n p

фикс.) — Пуассоновскую аппроксимацию.
- Если нужно не только экспоненциальный порядок, а точные вероятности — применяют уточнённые асимптотики (Bahadur–Rao) или вычисления сумм/интегралов напрямую.
Если нужно, могу показать вывод Chernoff‑формулы через mgf и оптимизацию экспоненциального множителя или привести сравнение для нескольких числовых пар

(n, p, k)

.

Другие вопросы eva

Другие вопросы
eva