Задано вероятностное пространство с дискретной распределением; предложите метод доказательства неравенства Чернова для оценки хвоста, объясните, в каких ситуациях применение Чернова эффективнее, чем использование неравенства Маркова или Чебышёва
Метод доказательства (обобщённая схема). Пусть XXX — дискретная случайная величина, нужно оценить правую хвостовую вероятность P(X≥a)P(X\ge a)P(X≥a). Применим неравенство Маркова к положительной функции etXe^{tX}etX при t>0t>0t>0: P(X≥a)=P(etX≥eta)≤e−ta E[etX].
P(X\ge a)=P(e^{tX}\ge e^{ta})\le e^{-ta}\,E[e^{tX}]. P(X≥a)=P(etX≥eta)≤e−taE[etX].
Оптимизируя по t>0t>0t>0, получаем общую форму неравенства Чернова: P(X≥a)≤inft>0e−taMX(t),MX(t)=E[etX] (моментоген. функция).
P(X\ge a)\le \inf_{t>0} e^{-ta}M_X(t),\qquad M_X(t)=E[e^{tX}]\ (\text{моментоген. функция}). P(X≥a)≤t>0infe−taMX(t),MX(t)=E[etX](моментоген. функция). Для суммы независимых величин X=∑i=1nXiX=\sum_{i=1}^n X_iX=∑i=1nXi используем независимость: MX(t)=∏i=1nMXi(t),P(∑i=1nXi≥a)≤inft>0e−ta∏i=1nE[etXi].
M_X(t)=\prod_{i=1}^n M_{X_i}(t), \qquad P\Big(\sum_{i=1}^n X_i\ge a\Big)\le \inf_{t>0} e^{-ta}\prod_{i=1}^n E[e^{tX_i}]. MX(t)=i=1∏nMXi(t),P(i=1∑nXi≥a)≤t>0infe−tai=1∏nE[etXi]. Пример (независимые бернулли Xi∼Bern(pi)X_i\sim\mathrm{Bern}(p_i)Xi∼Bern(pi), S=∑XiS=\sum X_iS=∑Xi, μ=E[S]=∑pi\mu=E[S]=\sum p_iμ=E[S]=∑pi). Для одинаковых pi=pp_i=ppi=p и a=(1+δ)μa=(1+\delta)\mua=(1+δ)μ ( δ>0\delta>0δ>0 ) стандартный вывод даёт P(S≥(1+δ)μ)≤(eδ(1+δ)1+δ)μ,
P(S\ge(1+\delta)\mu)\le \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^{\mu}, P(S≥(1+δ)μ)≤((1+δ)1+δeδ)μ,
что часто оценяют дальше в удобные экспоненциальные формы, напр. P(S≥(1+δ)μ)≤exp (−δ2μ3)(0<δ≤1).
P(S\ge(1+\delta)\mu)\le \exp\!\big(-\tfrac{\delta^2\mu}{3}\big)\quad(0<\delta\le1). P(S≥(1+δ)μ)≤exp(−3δ2μ)(0<δ≤1).
Альтернативная запись через дивергенцию: P(S≥k)≤exp(−n D(k/n∥p)),D(q∥p)=qlnqp+(1−q)ln1−q1−p.
P\big(S\ge k\big)\le \exp\big(-n\,D(k/n\|p)\big),\quad D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p}. P(S≥k)≤exp(−nD(k/n∥p)),D(q∥p)=qlnpq+(1−q)ln1−p1−q. Когда Чернов эффективнее Маркова/Чебышёва: - Марков даёт только P(X≥a)≤E[X]/aP(X\ge a)\le E[X]/aP(X≥a)≤E[X]/a (падает как 1/a1/a1/a); Чебышёв — только P(∣X−μ∣≥t)≤Var(X)/t2P(|X-\mu|\ge t)\le\mathrm{Var}(X)/t^2P(∣X−μ∣≥t)≤Var(X)/t2 (падает как 1/t21/t^21/t2). Оба используют лишь первый/второй моменты и дают полиномиально убывающие оценки. - Чернов, при наличии независимости (или слабой зависимости) и конечной MGF (часто при ограниченных или подгауссовских с.в.), даёт экспоненциальное убывание вероятности хвоста по числу слагаемых nnn. Поэтому для сумм многих малых независимых вкладов (например, сумм Бернулли) Чернов значительно сильнее. - Требования: существование/контроль MGF или ограниченность величин; независимость или подходящие условия отрицательной/слабой зависимости. Если распределение тяжёхвостое (MGF не существует) или зависимости сильны, Чернов может быть неприменим или неточным; тогда остаются более общие (но слабее) оценки Маркова/Чебышёва. Краткое резюме: принцип — применить Марков к etXe^{tX}etX и оптимизировать по ttt. Чернов эффективен, когда суммируются многие независимые (или слабо зависимые), ограниченные или подгауссовские вклады: даёт экспоненциальные оценки хвоста, тогда как Марков/Чебышёв дают только полиномиальные оценки и используют меньше информации о распределении.
P(X≥a)=P(etX≥eta)≤e−ta E[etX]. P(X\ge a)=P(e^{tX}\ge e^{ta})\le e^{-ta}\,E[e^{tX}].
P(X≥a)=P(etX≥eta)≤e−taE[etX]. Оптимизируя по t>0t>0t>0, получаем общую форму неравенства Чернова:
P(X≥a)≤inft>0e−taMX(t),MX(t)=E[etX] (моментоген. функция). P(X\ge a)\le \inf_{t>0} e^{-ta}M_X(t),\qquad M_X(t)=E[e^{tX}]\ (\text{моментоген. функция}).
P(X≥a)≤t>0inf e−taMX (t),MX (t)=E[etX] (моментоген. функция).
Для суммы независимых величин X=∑i=1nXiX=\sum_{i=1}^n X_iX=∑i=1n Xi используем независимость:
MX(t)=∏i=1nMXi(t),P(∑i=1nXi≥a)≤inft>0e−ta∏i=1nE[etXi]. M_X(t)=\prod_{i=1}^n M_{X_i}(t),
\qquad
P\Big(\sum_{i=1}^n X_i\ge a\Big)\le \inf_{t>0} e^{-ta}\prod_{i=1}^n E[e^{tX_i}].
MX (t)=i=1∏n MXi (t),P(i=1∑n Xi ≥a)≤t>0inf e−tai=1∏n E[etXi ].
Пример (независимые бернулли Xi∼Bern(pi)X_i\sim\mathrm{Bern}(p_i)Xi ∼Bern(pi ), S=∑XiS=\sum X_iS=∑Xi , μ=E[S]=∑pi\mu=E[S]=\sum p_iμ=E[S]=∑pi ). Для одинаковых pi=pp_i=ppi =p и a=(1+δ)μa=(1+\delta)\mua=(1+δ)μ ( δ>0\delta>0δ>0 ) стандартный вывод даёт
P(S≥(1+δ)μ)≤(eδ(1+δ)1+δ)μ, P(S\ge(1+\delta)\mu)\le \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^{\mu},
P(S≥(1+δ)μ)≤((1+δ)1+δeδ )μ, что часто оценяют дальше в удобные экспоненциальные формы, напр.
P(S≥(1+δ)μ)≤exp (−δ2μ3)(0<δ≤1). P(S\ge(1+\delta)\mu)\le \exp\!\big(-\tfrac{\delta^2\mu}{3}\big)\quad(0<\delta\le1).
P(S≥(1+δ)μ)≤exp(−3δ2μ )(0<δ≤1). Альтернативная запись через дивергенцию:
P(S≥k)≤exp(−n D(k/n∥p)),D(q∥p)=qlnqp+(1−q)ln1−q1−p. P\big(S\ge k\big)\le \exp\big(-n\,D(k/n\|p)\big),\quad
D(q\|p)=q\ln\frac{q}{p}+(1-q)\ln\frac{1-q}{1-p}.
P(S≥k)≤exp(−nD(k/n∥p)),D(q∥p)=qlnpq +(1−q)ln1−p1−q .
Когда Чернов эффективнее Маркова/Чебышёва:
- Марков даёт только P(X≥a)≤E[X]/aP(X\ge a)\le E[X]/aP(X≥a)≤E[X]/a (падает как 1/a1/a1/a); Чебышёв — только P(∣X−μ∣≥t)≤Var(X)/t2P(|X-\mu|\ge t)\le\mathrm{Var}(X)/t^2P(∣X−μ∣≥t)≤Var(X)/t2 (падает как 1/t21/t^21/t2). Оба используют лишь первый/второй моменты и дают полиномиально убывающие оценки.
- Чернов, при наличии независимости (или слабой зависимости) и конечной MGF (часто при ограниченных или подгауссовских с.в.), даёт экспоненциальное убывание вероятности хвоста по числу слагаемых nnn. Поэтому для сумм многих малых независимых вкладов (например, сумм Бернулли) Чернов значительно сильнее.
- Требования: существование/контроль MGF или ограниченность величин; независимость или подходящие условия отрицательной/слабой зависимости. Если распределение тяжёхвостое (MGF не существует) или зависимости сильны, Чернов может быть неприменим или неточным; тогда остаются более общие (но слабее) оценки Маркова/Чебышёва.
Краткое резюме: принцип — применить Марков к etXe^{tX}etX и оптимизировать по ttt. Чернов эффективен, когда суммируются многие независимые (или слабо зависимые), ограниченные или подгауссовские вклады: даёт экспоненциальные оценки хвоста, тогда как Марков/Чебышёв дают только полиномиальные оценки и используют меньше информации о распределении.