Рассмотрите вероятностную задачу: из урны с неизвестным количеством белых и черных шаров многократно извлекаются шары с возвращением. Предложите статистическую процедуру оценки доли белых шаров и обсудите предположения модели, устойчивость оценок и влияние априорной информации
Модель и оценка: - Предположение модели: каждое извлечение — независимое испытание с вероятностью белого шара ppp (с возвращением). Наблюдали nnn извлечений, белых kkk. - MLE (оценка правдоподобия): p^=k/n\hat p = k/np^=k/n. - Свойства (при правильной модели): несмещённость (в простейшем биномиальном случае), дисперсия Var(p^)=p(1−p)/n\mathrm{Var}(\hat p)=p(1-p)/nVar(p^)=p(1−p)/n, асимптотическая нормальность p^≈N (p, p(1−p)/n)\hat p \approx N\!\big(p,\;p(1-p)/n\big)p^≈N(p,p(1−p)/n). Интервальная оценка: - «Волдовский» (приближённый) доверительный интервал: p^±z1−α/2p^(1−p^)/n\hat p \pm z_{1-\alpha/2}\sqrt{\hat p(1-\hat p)/n}p^±z1−α/2p^(1−p^)/n — плохо работает при малых nnn или p^\hat pp^ близко к 000 или 111. - Рекомендуемый Wilson-интервал (с уровнем 1−α1-\alpha1−α, z=z1−α/2z=z_{1-\alpha/2}z=z1−α/2): p^+z22n±zp^(1−p^)n+z24n21+z2n.
\frac{\hat p + \dfrac{z^2}{2n} \pm z\sqrt{\dfrac{\hat p(1-\hat p)}{n} + \dfrac{z^2}{4n^2}}}{1+\dfrac{z^2}{n}}. 1+nz2p^+2nz2±znp^(1−p^)+4n2z2.
- Точный (консервативный) Clopper–Pearson на базе биномиального распределения при малых выборках. Байесовский подход и влияние априори: - Возьмём априор Beta(α,β)(\alpha,\beta)(α,β). Тогда апостериор: Beta(α+k, β+n−k)(\alpha+k,\;\beta+n-k)(α+k,β+n−k). - Апостериорное среднее: E[p∣данные]=α+kα+β+n\mathbb{E}[p\mid\text{данные}]=\dfrac{\alpha+k}{\alpha+\beta+n}E[p∣данные]=α+β+nα+k. - MAP (если α,β>1\alpha,\beta>1α,β>1): α+k−1α+β+n−2\dfrac{\alpha+k-1}{\alpha+\beta+n-2}α+β+n−2α+k−1. - Частые варианты: неинформативный равномерный Beta(1,1)\mathrm{Beta}(1,1)Beta(1,1), Jeffreys Beta(1/2,1/2)\mathrm{Beta}(1/2,1/2)Beta(1/2,1/2). Априор сильнее влияет при малых nnn; при больших nnn данные «перебивают» априор. Устойчивость оценок и нарушения модели: - Нарушение независимости (зависимые извлечения) или изменение ppp во времени (нестационарность) приведёт к смещённым/неправильным оценкам. Диагностика: тесты последовательностей, анализ по блокам. - Без возвращения: модель — гипергеометрическая; если популяция большая и nnn мало, биномиальная аппроксимация приемлема; при крупном nnn нужно скорректировать. - Гетерогенность (смесь подгрупп с разными ppp) даёт сверхдисперсию; модель Beta–Binomial или иерархическая байесовская модель — естественное исправление. - Ошибки классификации (неверно идентифицированные цвета) требуют моделирования ошибок измерения и корректировки оценок. Практические рекомендации: - Для обычных задач: оценка p^=k/n\hat p=k/np^=k/n, доверительный интервал — Wilson. - При малых n или отсутствии уверенности — использовать байесовский подход с явным априором и проводить sensitivity analysis по α,β\alpha,\betaα,β. - При подозрении на зависимость или гетерогенность — расширить модель: временные тренды, Beta–Binomial или иерархическая модель; при отсутствии возвращения — применить гипергеометрическую модель. Формулы суммарно: likelihood ∝pk(1−p)n−k\propto p^k(1-p)^{n-k}∝pk(1−p)n−k, MLE p^=k/n\hat p=k/np^=k/n, Var ≈p(1−p)/n\approx p(1-p)/n≈p(1−p)/n, апостериор при Beta(α,β)(\alpha,\beta)(α,β): Beta(α+k,β+n−k)(\alpha+k,\beta+n-k)(α+k,β+n−k) с средним (α+k)/(α+β+n)(\alpha+k)/(\alpha+\beta+n)(α+k)/(α+β+n).
- Предположение модели: каждое извлечение — независимое испытание с вероятностью белого шара ppp (с возвращением). Наблюдали nnn извлечений, белых kkk.
- MLE (оценка правдоподобия): p^=k/n\hat p = k/np^ =k/n.
- Свойства (при правильной модели): несмещённость (в простейшем биномиальном случае), дисперсия Var(p^)=p(1−p)/n\mathrm{Var}(\hat p)=p(1-p)/nVar(p^ )=p(1−p)/n, асимптотическая нормальность p^≈N (p, p(1−p)/n)\hat p \approx N\!\big(p,\;p(1-p)/n\big)p^ ≈N(p,p(1−p)/n).
Интервальная оценка:
- «Волдовский» (приближённый) доверительный интервал: p^±z1−α/2p^(1−p^)/n\hat p \pm z_{1-\alpha/2}\sqrt{\hat p(1-\hat p)/n}p^ ±z1−α/2 p^ (1−p^ )/n — плохо работает при малых nnn или p^\hat pp^ близко к 000 или 111.
- Рекомендуемый Wilson-интервал (с уровнем 1−α1-\alpha1−α, z=z1−α/2z=z_{1-\alpha/2}z=z1−α/2 ):
p^+z22n±zp^(1−p^)n+z24n21+z2n. \frac{\hat p + \dfrac{z^2}{2n} \pm z\sqrt{\dfrac{\hat p(1-\hat p)}{n} + \dfrac{z^2}{4n^2}}}{1+\dfrac{z^2}{n}}.
1+nz2 p^ +2nz2 ±znp^ (1−p^ ) +4n2z2 . - Точный (консервативный) Clopper–Pearson на базе биномиального распределения при малых выборках.
Байесовский подход и влияние априори:
- Возьмём априор Beta(α,β)(\alpha,\beta)(α,β). Тогда апостериор: Beta(α+k, β+n−k)(\alpha+k,\;\beta+n-k)(α+k,β+n−k).
- Апостериорное среднее: E[p∣данные]=α+kα+β+n\mathbb{E}[p\mid\text{данные}]=\dfrac{\alpha+k}{\alpha+\beta+n}E[p∣данные]=α+β+nα+k .
- MAP (если α,β>1\alpha,\beta>1α,β>1): α+k−1α+β+n−2\dfrac{\alpha+k-1}{\alpha+\beta+n-2}α+β+n−2α+k−1 .
- Частые варианты: неинформативный равномерный Beta(1,1)\mathrm{Beta}(1,1)Beta(1,1), Jeffreys Beta(1/2,1/2)\mathrm{Beta}(1/2,1/2)Beta(1/2,1/2). Априор сильнее влияет при малых nnn; при больших nnn данные «перебивают» априор.
Устойчивость оценок и нарушения модели:
- Нарушение независимости (зависимые извлечения) или изменение ppp во времени (нестационарность) приведёт к смещённым/неправильным оценкам. Диагностика: тесты последовательностей, анализ по блокам.
- Без возвращения: модель — гипергеометрическая; если популяция большая и nnn мало, биномиальная аппроксимация приемлема; при крупном nnn нужно скорректировать.
- Гетерогенность (смесь подгрупп с разными ppp) даёт сверхдисперсию; модель Beta–Binomial или иерархическая байесовская модель — естественное исправление.
- Ошибки классификации (неверно идентифицированные цвета) требуют моделирования ошибок измерения и корректировки оценок.
Практические рекомендации:
- Для обычных задач: оценка p^=k/n\hat p=k/np^ =k/n, доверительный интервал — Wilson.
- При малых n или отсутствии уверенности — использовать байесовский подход с явным априором и проводить sensitivity analysis по α,β\alpha,\betaα,β.
- При подозрении на зависимость или гетерогенность — расширить модель: временные тренды, Beta–Binomial или иерархическая модель; при отсутствии возвращения — применить гипергеометрическую модель.
Формулы суммарно: likelihood ∝pk(1−p)n−k\propto p^k(1-p)^{n-k}∝pk(1−p)n−k, MLE p^=k/n\hat p=k/np^ =k/n, Var ≈p(1−p)/n\approx p(1-p)/n≈p(1−p)/n, апостериор при Beta(α,β)(\alpha,\beta)(α,β): Beta(α+k,β+n−k)(\alpha+k,\beta+n-k)(α+k,β+n−k) с средним (α+k)/(α+β+n)(\alpha+k)/(\alpha+\beta+n)(α+k)/(α+β+n).