Дан процесс Бернулли с неизвестной вероятностью успеха p: какие способы оценки p вы предложите по выборке и в каких ситуациях предпочтительнее байесовский подход
Способы оценки ppp и краткие рекомендации. 1) Точечные оценки - Оценка максимального правдоподобия (MLE) / метод моментов: p^=Xn,X=∑i=1nYi.
\hat p=\frac{X}{n},\quad X=\sum_{i=1}^n Y_i. p^=nX,X=i=1∑nYi.
Свойства: несмещённа, Var(p^)=p(1−p)n\mathrm{Var}(\hat p)=\dfrac{p(1-p)}{n}Var(p^)=np(1−p). Для больших nnn асимптотически нормальна. - Байесовская точечная оценка (при Beta-приоре Beta(a,b)\mathrm{Beta}(a,b)Beta(a,b)): - апостериорное распределение: Beta(a+X, b+n−X)\mathrm{Beta}(a+X,\; b+n-X)Beta(a+X,b+n−X). - апостериорное среднее: E[p∣X]=a+Xa+b+n.
\mathbb{E}[p\mid X]=\frac{a+X}{a+b+n}. E[p∣X]=a+b+na+X.
- MAP (если a+X>1, b+n−X>1a+X>1,\; b+n-X>1a+X>1,b+n−X>1): pMAP=a+X−1a+b+n−2.
p_{\mathrm{MAP}}=\frac{a+X-1}{a+b+n-2}. pMAP=a+b+n−2a+X−1. 2) Интервальные оценки (интервалы доверительные / доверительные и апостериорные) - Вольд (Wald) — нормальная аппроксимация: p^±z1−α/2p^(1−p^)n.
\hat p\pm z_{1-\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}. p^±z1−α/2np^(1−p^).
Быстро считается, но плохо себя ведёт при малых nnn или при p^\hat pp^ близком к 000 или 111. - Wilson (лучше чем Wald при малых nnn): Пусть z=z1−α/2z=z_{1-\alpha/2}z=z1−α/2. Центр и полуширина: p~=p^+z22n1+z2n,половина ширины=zp^(1−p^)n+z24n21+z2n.
\tilde p=\frac{\hat p+\frac{z^2}{2n}}{1+\frac{z^2}{n}},\qquad \text{половина ширины}=\frac{z\sqrt{\frac{\hat p(1-\hat p)}{n}+\frac{z^2}{4n^2}}}{1+\frac{z^2}{n}}. p~=1+nz2p^+2nz2,половинаширины=1+nz2znp^(1−p^)+4n2z2. - Agresti–Coull (псевдосчёты): p~=X+z22n+z2,
\tilde p=\frac{X+\frac{z^2}{2}}{n+z^2}, p~=n+z2X+2z2,
дальше применяют нормальную формулу к p~\tilde pp~. - Clopper–Pearson («точный» биномиальный доверительный интервал): Для уровня 1−α1-\alpha1−α границы через обратную функцию бета: Lower=B−1 (α2; X, n−X+1),Upper=B−1 (1−α2; X+1, n−X).
\text{Lower} = \mathrm{B}^{-1}\!\left(\frac{\alpha}{2};\,X,\;n-X+1\right),\qquad \text{Upper} = \mathrm{B}^{-1}\!\left(1-\frac{\alpha}{2};\,X+1,\;n-X\right). Lower=B−1(2α;X,n−X+1),Upper=B−1(1−2α;X+1,n−X).
Надёжный (непереходящий ниже заданного уровня), но консервативен. - Байесовский (кредитные) интервалы: при Beta(a,b)\mathrm{Beta}(a,b)Beta(a,b) апостериорный (1−α)(1-\alpha)(1−α)-интервал — квантили апостериорного Beta(a+X,b+n−X)\mathrm{Beta}(a+X,b+n-X)Beta(a+X,b+n−X) (например, для непараметрической «Jeffreys»-приоры a=b=1/2a=b=1/2a=b=1/2 получаем хорошие частотные свойства). 3) Выбор метода — когда что предпочтительнее - Частотный (MLE, Wilson, Clopper–Pearson) хорош при больших nnn и отсутствии априорной информации; прост и имеет частотную интерпретацию. - Bayesian предпочтителен, если: - малая выборка или наблюдается X=0X=0X=0 или X=nX=nX=n (крайние случаи), где нормальные приближения дают неверные интервалы; - имеется достоверная априорная информация, которую нужно формально учесть; - требуется прямая апостериорная вероятность событий (например, «вероятность, что p>p0p>p_0p>p0»); - нужен простой последовательный (online) апдейт при приходе данных; - модель становится иерархической (много групп) — байесовские иерархические модели естественны и стабилизируют оценки (shrinkage); - требуется учёт потерь / оптимальное решение по критерию ожидаемой полезности (решения на основе апостериорного распределения). Кроме того, для биномиальной задачи байесовский подход с Beta-приорой прост в вычислениях (конъюгированность) и часто даёт интервалы с хорошими частотными свойствами (например, Jeffreys-приора). 4) Практические рекомендации - Если nnn достаточно велико и p^\hat pp^ не близко к 0 или 1: MLE и Wilson/Agresti–Coull подойдут. - Если nnn мало или наблюдаются крайние результаты: используйте Clopper–Pearson или байесовский интервал с невырожденной приорой (Jeffreys Beta(1/2,1/2)\mathrm{Beta}(1/2,1/2)Beta(1/2,1/2) как непараметрический выбор). - Если есть информативная априорная информация или иерархия — однозначно байесовский подход. Если нужно, могу привести код/шаги для вычисления конкретных интервалов или показательные примеры.
1) Точечные оценки
- Оценка максимального правдоподобия (MLE) / метод моментов:
p^=Xn,X=∑i=1nYi. \hat p=\frac{X}{n},\quad X=\sum_{i=1}^n Y_i.
p^ =nX ,X=i=1∑n Yi . Свойства: несмещённа, Var(p^)=p(1−p)n\mathrm{Var}(\hat p)=\dfrac{p(1-p)}{n}Var(p^ )=np(1−p) . Для больших nnn асимптотически нормальна.
- Байесовская точечная оценка (при Beta-приоре Beta(a,b)\mathrm{Beta}(a,b)Beta(a,b)):
- апостериорное распределение: Beta(a+X, b+n−X)\mathrm{Beta}(a+X,\; b+n-X)Beta(a+X,b+n−X).
- апостериорное среднее:
E[p∣X]=a+Xa+b+n. \mathbb{E}[p\mid X]=\frac{a+X}{a+b+n}.
E[p∣X]=a+b+na+X . - MAP (если a+X>1, b+n−X>1a+X>1,\; b+n-X>1a+X>1,b+n−X>1):
pMAP=a+X−1a+b+n−2. p_{\mathrm{MAP}}=\frac{a+X-1}{a+b+n-2}.
pMAP =a+b+n−2a+X−1 .
2) Интервальные оценки (интервалы доверительные / доверительные и апостериорные)
- Вольд (Wald) — нормальная аппроксимация:
p^±z1−α/2p^(1−p^)n. \hat p\pm z_{1-\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}.
p^ ±z1−α/2 np^ (1−p^ ) . Быстро считается, но плохо себя ведёт при малых nnn или при p^\hat pp^ близком к 000 или 111.
- Wilson (лучше чем Wald при малых nnn):
Пусть z=z1−α/2z=z_{1-\alpha/2}z=z1−α/2 . Центр и полуширина:
p~=p^+z22n1+z2n,половина ширины=zp^(1−p^)n+z24n21+z2n. \tilde p=\frac{\hat p+\frac{z^2}{2n}}{1+\frac{z^2}{n}},\qquad
\text{половина ширины}=\frac{z\sqrt{\frac{\hat p(1-\hat p)}{n}+\frac{z^2}{4n^2}}}{1+\frac{z^2}{n}}.
p~ =1+nz2 p^ +2nz2 ,половина ширины=1+nz2 znp^ (1−p^ ) +4n2z2 .
- Agresti–Coull (псевдосчёты):
p~=X+z22n+z2, \tilde p=\frac{X+\frac{z^2}{2}}{n+z^2},
p~ =n+z2X+2z2 , дальше применяют нормальную формулу к p~\tilde pp~ .
- Clopper–Pearson («точный» биномиальный доверительный интервал):
Для уровня 1−α1-\alpha1−α границы через обратную функцию бета:
Lower=B−1 (α2; X, n−X+1),Upper=B−1 (1−α2; X+1, n−X). \text{Lower} = \mathrm{B}^{-1}\!\left(\frac{\alpha}{2};\,X,\;n-X+1\right),\qquad
\text{Upper} = \mathrm{B}^{-1}\!\left(1-\frac{\alpha}{2};\,X+1,\;n-X\right).
Lower=B−1(2α ;X,n−X+1),Upper=B−1(1−2α ;X+1,n−X). Надёжный (непереходящий ниже заданного уровня), но консервативен.
- Байесовский (кредитные) интервалы: при Beta(a,b)\mathrm{Beta}(a,b)Beta(a,b) апостериорный (1−α)(1-\alpha)(1−α)-интервал — квантили апостериорного Beta(a+X,b+n−X)\mathrm{Beta}(a+X,b+n-X)Beta(a+X,b+n−X) (например, для непараметрической «Jeffreys»-приоры a=b=1/2a=b=1/2a=b=1/2 получаем хорошие частотные свойства).
3) Выбор метода — когда что предпочтительнее
- Частотный (MLE, Wilson, Clopper–Pearson) хорош при больших nnn и отсутствии априорной информации; прост и имеет частотную интерпретацию.
- Bayesian предпочтителен, если:
- малая выборка или наблюдается X=0X=0X=0 или X=nX=nX=n (крайние случаи), где нормальные приближения дают неверные интервалы;
- имеется достоверная априорная информация, которую нужно формально учесть;
- требуется прямая апостериорная вероятность событий (например, «вероятность, что p>p0p>p_0p>p0 »);
- нужен простой последовательный (online) апдейт при приходе данных;
- модель становится иерархической (много групп) — байесовские иерархические модели естественны и стабилизируют оценки (shrinkage);
- требуется учёт потерь / оптимальное решение по критерию ожидаемой полезности (решения на основе апостериорного распределения).
Кроме того, для биномиальной задачи байесовский подход с Beta-приорой прост в вычислениях (конъюгированность) и часто даёт интервалы с хорошими частотными свойствами (например, Jeffreys-приора).
4) Практические рекомендации
- Если nnn достаточно велико и p^\hat pp^ не близко к 0 или 1: MLE и Wilson/Agresti–Coull подойдут.
- Если nnn мало или наблюдаются крайние результаты: используйте Clopper–Pearson или байесовский интервал с невырожденной приорой (Jeffreys Beta(1/2,1/2)\mathrm{Beta}(1/2,1/2)Beta(1/2,1/2) как непараметрический выбор).
- Если есть информативная априорная информация или иерархия — однозначно байесовский подход.
Если нужно, могу привести код/шаги для вычисления конкретных интервалов или показательные примеры.