Дано неравенство Чернова для биномиального распределения. Объясните интуицию и область применения оценки больших уклонений, покажите, при каких параметрах приближения работают плохо

24 Ноя в 12:17
2 +2
0
Ответы
1
Кратко — формула, интуиция, области применения и когда плохо.
1) Формула (биномиальное X∼Bin(n,p)X\sim\mathrm{Bin}(n,p)XBin(n,p)). Для любого ε>0\varepsilon>0ε>0 P ⁣(Xn≥p+ε)≤exp⁡ ⁣(−n D(p+ε∥p)), P\!\Big(\frac{X}{n}\ge p+\varepsilon\Big)\le \exp\!\big(-n\,D(p+\varepsilon\|p)\big),
P(nX p+ε)exp(nD(p+εp)),
где
D(q∥p)=qln⁡qp+(1−q)ln⁡1−q1−p D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p}
D(qp)=qlnpq +(1q)ln1p1q
— относительная энтропия (Kullback–Leibler). Аналогично для левого хвоста с q=p−εq=p-\varepsilonq=pε. Более простые (но обычно слабее) варианты: Хёффдинг
P ⁣(∣Xn−p∣≥ε)≤2exp⁡(−2nε2), P\!\Big(\big|\tfrac{X}{n}-p\big|\ge\varepsilon\Big)\le 2\exp(-2n\varepsilon^2),
P( nX p ε)2exp(2nε2),
и (Bernstein/Bennett) с учётом дисперсии:
P ⁣(Xn−p≥ε)≤exp⁡ ⁣(−nε22p(1−p)+23ε). P\!\Big(\tfrac{X}{n}-p\ge\varepsilon\Big)\le\exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)+\tfrac{2}{3}\varepsilon}\Big).
P(nX pε)exp(2p(1p)+32 εnε2 ).

2) Интуиция. Chernoff получается из mgf/метода экспоненциального наклона: выбирают оптимальный экспоненциальный фактор, чтобы минимизировать оценку. Функция D(q∥p)D(q\|p)D(qp) — скорость (rate function) в т.ч. из теоремы Крамера: для фиксированного отклонения ε>0\varepsilon>0ε>0 вероятность убывает экспоненциально как exp⁡(−n⋅скорость)\exp(-n\cdot\text{скорость})exp(nскорость). Это даёт правильный показатель в экспоненте (асимптотически точный порядок экспоненты).
3) Связь с гауссовской аппроксимацией (малые отклонения). Для малых ε\varepsilonε имеем разложение
D(p+ε∥p)=ε22p(1−p)+O(ε3). D(p+\varepsilon\|p)=\frac{\varepsilon^2}{2p(1-p)}+O(\varepsilon^3).
D(p+εp)=2p(1p)ε2 +O(ε3).
Следовательно при ε→0\varepsilon\to0ε0 и nε2→∞n\varepsilon^2\to\inftynε2 крайние вероятности примерно равны
P ⁣(Xn≈p+ε)≍exp⁡ ⁣(−nε22p(1−p)), P\!\Big(\frac{X}{n}\approx p+\varepsilon\Big)\asymp \exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)}\Big),
P(nX p+ε)exp(2p(1p)nε2 ),
что совпадает по главному показателю с CLT/квадратичной аппроксимацией (модератные отклонения). Если же ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n ), то надо использовать CLT/точные приближения с коэффициентами (Edgeworth), потому что Chernoff даёт только экспоненциальный порядок и теряет предэкспоненциальный множитель.
4) Когда Chernoff/простые оценки работают хорошо
- фиксированное p∈(0,1)p\in(0,1)p(0,1) и фиксированное ε>0\varepsilon>0ε>0 (отклонения порядка Θ(n)\Theta(n)Θ(n)): оценка даёт правильный экспоненциальный темп и часто достаточно точна;
- модератные отклонения с ε→0\varepsilon\to0ε0, но nε2→∞n\varepsilon^2\to\inftynε2: квадратичная аппроксимация по DDD делает оценку согласованной с нормальной.
5) Когда приближения работают плохо (и почему)
- очень малые отклонения ε≪1/n\varepsilon\ll 1/\sqrt{n}ε1/n : вероятности не экспоненциально малы, Chernoff даёт неинформативные или слишком грубые пределы; лучше CLT/точные локальные приближения;
- когда важен предэкспоненциальный множитель (мелкие вероятности, где требуется точная численность), а не только экспонента — Chernoff пропускает полные константы (нужны Bahadur–Rao, локальные формулы, Edgeworth);
- разрежённый режим p=pn→0p=p_n\to0p=pn 0 (или pn→0p_n\to0pn 0, npnnp_nnpn фикс.): оптимальнее Пуассоновское приближение; KL-оценка может давать корректный темп, но по точности (и по предэкспоненту) хуже, чем прямой анализ Пуассона;
- крайние случаи у границы p→0p\to0p0 или p→1p\to1p1 вместе с малыми абсолютными числами успехов: дисперсия малы, и поведение хвостов диктуется пуассоноподобными эффектами; простые Хёффдинг‑оценки особенно сильно расходятся, так как они отталкиваются от наихудшей дисперсии 1/41/41/4;
- когда нужна очень точная численная оценка для конечных nnn: Chernoff часто консервативен (в примере ниже видно, во сколько раз).
6) Небольшой численный пример (иллюстрация потерянных предэкспонент):
Пусть n=1000, p=0.01n=1000,\ p=0.01n=1000, p=0.01. Событие X≥20X\ge 20X20 даёт q=20/1000=0.02q=20/1000=0.02q=20/1000=0.02, ε=0.01\varepsilon=0.01ε=0.01.
Квадратичная аппроксимация: nD≈n⋅ε22p(1−p)≈5.05nD\approx n\cdot\frac{\varepsilon^2}{2p(1-p)}\approx 5.05nDn2p(1p)ε2 5.05, значит Chernoff даёт
P(X≥20)≲e−5.05≈6.4⋅10−3. P(X\ge20)\lesssim e^{-5.05}\approx 6.4\cdot10^{-3}.
P(X20)e5.056.4103.
По CLT: EX=10, σ≈9.9≈3.15\mathbb{E}X=10,\ \sigma\approx\sqrt{9.9}\approx3.15EX=10, σ9.9 3.15, сдвиг (20−10)/σ≈3.18 (20-10)/\sigma\approx3.18(2010)/σ3.18 даёт настоящую вероятность порядка 7⋅10−47\cdot10^{-4}7104. То есть Chernoff правильно предсказывает экспоненциальный характер малости, но в данном конечном примере консервативен в ~9 раз по величине (предэкспоненциальный множитель).
7) Выводы — практические рекомендации
- Для оценки больших отклонений порядка Θ(n)\Theta(n)Θ(n) или модератных (nε2→∞n\varepsilon^2\to\inftynε2) Chernoff/KL — естественный инструмент (правильный скоростной показатель).
- Для малых отклонений (ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n )) и для точных численных оценок используйте CLT/Edgeworth/локальную теорию; для разрежённых случаев (p→0p\to0p0, npnpnp фикс.) — Пуассоновскую аппроксимацию.
- Если нужно не только экспоненциальный порядок, а точные вероятности — применяют уточнённые асимптотики (Bahadur–Rao) или вычисления сумм/интегралов напрямую.
Если нужно, могу показать вывод Chernoff‑формулы через mgf и оптимизацию экспоненциального множителя или привести сравнение для нескольких числовых пар (n,p,k)(n,p,k)(n,p,k).
24 Ноя в 12:29
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир