Дано неравенство Чернова для биномиального распределения. Объясните интуицию и область применения оценки больших уклонений, покажите, при каких параметрах приближения работают плохо
Кратко — формула, интуиция, области применения и когда плохо. 1) Формула (биномиальное X∼Bin(n,p)X\sim\mathrm{Bin}(n,p)X∼Bin(n,p)). Для любого ε>0\varepsilon>0ε>0P (Xn≥p+ε)≤exp (−n D(p+ε∥p)),
P\!\Big(\frac{X}{n}\ge p+\varepsilon\Big)\le \exp\!\big(-n\,D(p+\varepsilon\|p)\big), P(nX≥p+ε)≤exp(−nD(p+ε∥p)),
где D(q∥p)=qlnqp+(1−q)ln1−q1−p
D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p} D(q∥p)=qlnpq+(1−q)ln1−p1−q
— относительная энтропия (Kullback–Leibler). Аналогично для левого хвоста с q=p−εq=p-\varepsilonq=p−ε. Более простые (но обычно слабее) варианты: Хёффдинг P (∣Xn−p∣≥ε)≤2exp(−2nε2),
P\!\Big(\big|\tfrac{X}{n}-p\big|\ge\varepsilon\Big)\le 2\exp(-2n\varepsilon^2), P(nX−p≥ε)≤2exp(−2nε2),
и (Bernstein/Bennett) с учётом дисперсии: P (Xn−p≥ε)≤exp (−nε22p(1−p)+23ε).
P\!\Big(\tfrac{X}{n}-p\ge\varepsilon\Big)\le\exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)+\tfrac{2}{3}\varepsilon}\Big). P(nX−p≥ε)≤exp(−2p(1−p)+32εnε2). 2) Интуиция. Chernoff получается из mgf/метода экспоненциального наклона: выбирают оптимальный экспоненциальный фактор, чтобы минимизировать оценку. Функция D(q∥p)D(q\|p)D(q∥p) — скорость (rate function) в т.ч. из теоремы Крамера: для фиксированного отклонения ε>0\varepsilon>0ε>0 вероятность убывает экспоненциально как exp(−n⋅скорость)\exp(-n\cdot\text{скорость})exp(−n⋅скорость). Это даёт правильный показатель в экспоненте (асимптотически точный порядок экспоненты). 3) Связь с гауссовской аппроксимацией (малые отклонения). Для малых ε\varepsilonε имеем разложение D(p+ε∥p)=ε22p(1−p)+O(ε3).
D(p+\varepsilon\|p)=\frac{\varepsilon^2}{2p(1-p)}+O(\varepsilon^3). D(p+ε∥p)=2p(1−p)ε2+O(ε3).
Следовательно при ε→0\varepsilon\to0ε→0 и nε2→∞n\varepsilon^2\to\inftynε2→∞ крайние вероятности примерно равны P (Xn≈p+ε)≍exp (−nε22p(1−p)),
P\!\Big(\frac{X}{n}\approx p+\varepsilon\Big)\asymp \exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)}\Big), P(nX≈p+ε)≍exp(−2p(1−p)nε2),
что совпадает по главному показателю с CLT/квадратичной аппроксимацией (модератные отклонения). Если же ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n), то надо использовать CLT/точные приближения с коэффициентами (Edgeworth), потому что Chernoff даёт только экспоненциальный порядок и теряет предэкспоненциальный множитель. 4) Когда Chernoff/простые оценки работают хорошо - фиксированное p∈(0,1)p\in(0,1)p∈(0,1) и фиксированное ε>0\varepsilon>0ε>0 (отклонения порядка Θ(n)\Theta(n)Θ(n)): оценка даёт правильный экспоненциальный темп и часто достаточно точна; - модератные отклонения с ε→0\varepsilon\to0ε→0, но nε2→∞n\varepsilon^2\to\inftynε2→∞: квадратичная аппроксимация по DDD делает оценку согласованной с нормальной. 5) Когда приближения работают плохо (и почему) - очень малые отклонения ε≪1/n\varepsilon\ll 1/\sqrt{n}ε≪1/n: вероятности не экспоненциально малы, Chernoff даёт неинформативные или слишком грубые пределы; лучше CLT/точные локальные приближения; - когда важен предэкспоненциальный множитель (мелкие вероятности, где требуется точная численность), а не только экспонента — Chernoff пропускает полные константы (нужны Bahadur–Rao, локальные формулы, Edgeworth); - разрежённый режим p=pn→0p=p_n\to0p=pn→0 (или pn→0p_n\to0pn→0, npnnp_nnpn фикс.): оптимальнее Пуассоновское приближение; KL-оценка может давать корректный темп, но по точности (и по предэкспоненту) хуже, чем прямой анализ Пуассона; - крайние случаи у границы p→0p\to0p→0 или p→1p\to1p→1 вместе с малыми абсолютными числами успехов: дисперсия малы, и поведение хвостов диктуется пуассоноподобными эффектами; простые Хёффдинг‑оценки особенно сильно расходятся, так как они отталкиваются от наихудшей дисперсии 1/41/41/4; - когда нужна очень точная численная оценка для конечных nnn: Chernoff часто консервативен (в примере ниже видно, во сколько раз). 6) Небольшой численный пример (иллюстрация потерянных предэкспонент): Пусть n=1000, p=0.01n=1000,\ p=0.01n=1000,p=0.01. Событие X≥20X\ge 20X≥20 даёт q=20/1000=0.02q=20/1000=0.02q=20/1000=0.02, ε=0.01\varepsilon=0.01ε=0.01. Квадратичная аппроксимация: nD≈n⋅ε22p(1−p)≈5.05nD\approx n\cdot\frac{\varepsilon^2}{2p(1-p)}\approx 5.05nD≈n⋅2p(1−p)ε2≈5.05, значит Chernoff даёт P(X≥20)≲e−5.05≈6.4⋅10−3.
P(X\ge20)\lesssim e^{-5.05}\approx 6.4\cdot10^{-3}. P(X≥20)≲e−5.05≈6.4⋅10−3.
По CLT: EX=10, σ≈9.9≈3.15\mathbb{E}X=10,\ \sigma\approx\sqrt{9.9}\approx3.15EX=10,σ≈9.9≈3.15, сдвиг (20−10)/σ≈3.18 (20-10)/\sigma\approx3.18(20−10)/σ≈3.18 даёт настоящую вероятность порядка 7⋅10−47\cdot10^{-4}7⋅10−4. То есть Chernoff правильно предсказывает экспоненциальный характер малости, но в данном конечном примере консервативен в ~9 раз по величине (предэкспоненциальный множитель). 7) Выводы — практические рекомендации - Для оценки больших отклонений порядка Θ(n)\Theta(n)Θ(n) или модератных (nε2→∞n\varepsilon^2\to\inftynε2→∞) Chernoff/KL — естественный инструмент (правильный скоростной показатель). - Для малых отклонений (ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n)) и для точных численных оценок используйте CLT/Edgeworth/локальную теорию; для разрежённых случаев (p→0p\to0p→0, npnpnp фикс.) — Пуассоновскую аппроксимацию. - Если нужно не только экспоненциальный порядок, а точные вероятности — применяют уточнённые асимптотики (Bahadur–Rao) или вычисления сумм/интегралов напрямую. Если нужно, могу показать вывод Chernoff‑формулы через mgf и оптимизацию экспоненциального множителя или привести сравнение для нескольких числовых пар (n,p,k)(n,p,k)(n,p,k).
1) Формула (биномиальное X∼Bin(n,p)X\sim\mathrm{Bin}(n,p)X∼Bin(n,p)). Для любого ε>0\varepsilon>0ε>0 P (Xn≥p+ε)≤exp (−n D(p+ε∥p)), P\!\Big(\frac{X}{n}\ge p+\varepsilon\Big)\le \exp\!\big(-n\,D(p+\varepsilon\|p)\big),
P(nX ≥p+ε)≤exp(−nD(p+ε∥p)), где
D(q∥p)=qlnqp+(1−q)ln1−q1−p D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p}
D(q∥p)=qlnpq +(1−q)ln1−p1−q — относительная энтропия (Kullback–Leibler). Аналогично для левого хвоста с q=p−εq=p-\varepsilonq=p−ε. Более простые (но обычно слабее) варианты: Хёффдинг
P (∣Xn−p∣≥ε)≤2exp(−2nε2), P\!\Big(\big|\tfrac{X}{n}-p\big|\ge\varepsilon\Big)\le 2\exp(-2n\varepsilon^2),
P( nX −p ≥ε)≤2exp(−2nε2), и (Bernstein/Bennett) с учётом дисперсии:
P (Xn−p≥ε)≤exp (−nε22p(1−p)+23ε). P\!\Big(\tfrac{X}{n}-p\ge\varepsilon\Big)\le\exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)+\tfrac{2}{3}\varepsilon}\Big).
P(nX −p≥ε)≤exp(−2p(1−p)+32 εnε2 ).
2) Интуиция. Chernoff получается из mgf/метода экспоненциального наклона: выбирают оптимальный экспоненциальный фактор, чтобы минимизировать оценку. Функция D(q∥p)D(q\|p)D(q∥p) — скорость (rate function) в т.ч. из теоремы Крамера: для фиксированного отклонения ε>0\varepsilon>0ε>0 вероятность убывает экспоненциально как exp(−n⋅скорость)\exp(-n\cdot\text{скорость})exp(−n⋅скорость). Это даёт правильный показатель в экспоненте (асимптотически точный порядок экспоненты).
3) Связь с гауссовской аппроксимацией (малые отклонения). Для малых ε\varepsilonε имеем разложение
D(p+ε∥p)=ε22p(1−p)+O(ε3). D(p+\varepsilon\|p)=\frac{\varepsilon^2}{2p(1-p)}+O(\varepsilon^3).
D(p+ε∥p)=2p(1−p)ε2 +O(ε3). Следовательно при ε→0\varepsilon\to0ε→0 и nε2→∞n\varepsilon^2\to\inftynε2→∞ крайние вероятности примерно равны
P (Xn≈p+ε)≍exp (−nε22p(1−p)), P\!\Big(\frac{X}{n}\approx p+\varepsilon\Big)\asymp \exp\!\Big(-\frac{n\varepsilon^2}{2p(1-p)}\Big),
P(nX ≈p+ε)≍exp(−2p(1−p)nε2 ), что совпадает по главному показателю с CLT/квадратичной аппроксимацией (модератные отклонения). Если же ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n ), то надо использовать CLT/точные приближения с коэффициентами (Edgeworth), потому что Chernoff даёт только экспоненциальный порядок и теряет предэкспоненциальный множитель.
4) Когда Chernoff/простые оценки работают хорошо
- фиксированное p∈(0,1)p\in(0,1)p∈(0,1) и фиксированное ε>0\varepsilon>0ε>0 (отклонения порядка Θ(n)\Theta(n)Θ(n)): оценка даёт правильный экспоненциальный темп и часто достаточно точна;
- модератные отклонения с ε→0\varepsilon\to0ε→0, но nε2→∞n\varepsilon^2\to\inftynε2→∞: квадратичная аппроксимация по DDD делает оценку согласованной с нормальной.
5) Когда приближения работают плохо (и почему)
- очень малые отклонения ε≪1/n\varepsilon\ll 1/\sqrt{n}ε≪1/n : вероятности не экспоненциально малы, Chernoff даёт неинформативные или слишком грубые пределы; лучше CLT/точные локальные приближения;
- когда важен предэкспоненциальный множитель (мелкие вероятности, где требуется точная численность), а не только экспонента — Chernoff пропускает полные константы (нужны Bahadur–Rao, локальные формулы, Edgeworth);
- разрежённый режим p=pn→0p=p_n\to0p=pn →0 (или pn→0p_n\to0pn →0, npnnp_nnpn фикс.): оптимальнее Пуассоновское приближение; KL-оценка может давать корректный темп, но по точности (и по предэкспоненту) хуже, чем прямой анализ Пуассона;
- крайние случаи у границы p→0p\to0p→0 или p→1p\to1p→1 вместе с малыми абсолютными числами успехов: дисперсия малы, и поведение хвостов диктуется пуассоноподобными эффектами; простые Хёффдинг‑оценки особенно сильно расходятся, так как они отталкиваются от наихудшей дисперсии 1/41/41/4;
- когда нужна очень точная численная оценка для конечных nnn: Chernoff часто консервативен (в примере ниже видно, во сколько раз).
6) Небольшой численный пример (иллюстрация потерянных предэкспонент):
Пусть n=1000, p=0.01n=1000,\ p=0.01n=1000, p=0.01. Событие X≥20X\ge 20X≥20 даёт q=20/1000=0.02q=20/1000=0.02q=20/1000=0.02, ε=0.01\varepsilon=0.01ε=0.01.
Квадратичная аппроксимация: nD≈n⋅ε22p(1−p)≈5.05nD\approx n\cdot\frac{\varepsilon^2}{2p(1-p)}\approx 5.05nD≈n⋅2p(1−p)ε2 ≈5.05, значит Chernoff даёт
P(X≥20)≲e−5.05≈6.4⋅10−3. P(X\ge20)\lesssim e^{-5.05}\approx 6.4\cdot10^{-3}.
P(X≥20)≲e−5.05≈6.4⋅10−3. По CLT: EX=10, σ≈9.9≈3.15\mathbb{E}X=10,\ \sigma\approx\sqrt{9.9}\approx3.15EX=10, σ≈9.9 ≈3.15, сдвиг (20−10)/σ≈3.18 (20-10)/\sigma\approx3.18(20−10)/σ≈3.18 даёт настоящую вероятность порядка 7⋅10−47\cdot10^{-4}7⋅10−4. То есть Chernoff правильно предсказывает экспоненциальный характер малости, но в данном конечном примере консервативен в ~9 раз по величине (предэкспоненциальный множитель).
7) Выводы — практические рекомендации
- Для оценки больших отклонений порядка Θ(n)\Theta(n)Θ(n) или модератных (nε2→∞n\varepsilon^2\to\inftynε2→∞) Chernoff/KL — естественный инструмент (правильный скоростной показатель).
- Для малых отклонений (ε=O(1/n)\varepsilon=O(1/\sqrt{n})ε=O(1/n )) и для точных численных оценок используйте CLT/Edgeworth/локальную теорию; для разрежённых случаев (p→0p\to0p→0, npnpnp фикс.) — Пуассоновскую аппроксимацию.
- Если нужно не только экспоненциальный порядок, а точные вероятности — применяют уточнённые асимптотики (Bahadur–Rao) или вычисления сумм/интегралов напрямую.
Если нужно, могу показать вывод Chernoff‑формулы через mgf и оптимизацию экспоненциального множителя или привести сравнение для нескольких числовых пар (n,p,k)(n,p,k)(n,p,k).