Рассмотрите случай вероятностного эксперимента: выборка из конечной популяции без возвращения. Какие законы распределения применимы, как зависит матожидание и дисперсия от размера выборки, и как учитывается зависимость между испытаниями

27 Окт в 13:44
6 +1
0
Ответы
1
Законы распределения
- Для подсчёта числа «успехов» в выборке размера nnn из конечной популяции размера NNN, где в популяции KKK 성공ов, применяется гипергеометрическое распределение:
P(X=k)=(Kk)(N−K n−k )(Nn),max⁡(0,n−(N−K))≤k≤min⁡(n,K). P(X=k)=\frac{\binom{K}{k}\binom{N-K}{\,n-k\,}}{\binom{N}{n}},\qquad \max(0,n-(N-K))\le k\le\min(n,K).
P(X=k)=(nN )(kK )(nkNK ) ,max(0,n(NK))kmin(n,K).
- Для нескольких категорий — многомерное (мультиномиальное) гипергеометрическое распределение (urn-model).
При больших NNN и малой доле выборки (n/Nn/Nn/N достаточно мал) гипергеометрическое распределение приближается к биномиальному Bin(n,p)Bin(n,p)Bin(n,p) с p=K/Np=K/Np=K/N.
Матожидание и дисперсия (зависимость от nnn)
- Для числа успехов XXX в гипергеометрическом случае
E[X]=nKN=np, \mathbb E[X]=n\frac{K}{N}=n p,
E[X]=nNK =np,
Var⁡(X)=np(1−p)N−nN−1,p=KN. \operatorname{Var}(X)=n p(1-p)\frac{N-n}{N-1},
\quad p=\frac{K}{N}.
Var(X)=np(1p)N1Nn ,p=NK .
Фактор N−nN−1\dfrac{N-n}{N-1}N1Nn — конечная поправка (finite population correction, FPC). Для малой выборочной доли n/N≪1n/N\ll1n/N1 FPC≈1\approx11 и Var⁡(X)≈np(1−p)\operatorname{Var}(X)\approx n p(1-p)Var(X)np(1p) (биномиальная форма).
- Для сумм/средних значений вещественной характеристики: если в популяции дисперсия значений равна σpop2=1N∑(xi−μ)2\sigma^2_{pop}=\frac{1}{N}\sum (x_i-\mu)^2σpop2 =N1 (xi μ)2, то для выборочного среднего Xˉ\bar XXˉ E[Xˉ]=μ,Var⁡(Xˉ)=σpop2nN−nN−1. \mathbb E[\bar X]=\mu,\qquad
\operatorname{Var}(\bar X)=\frac{\sigma^2_{pop}}{n}\frac{N-n}{N-1}.
E[Xˉ]=μ,Var(Xˉ)=nσpop2 N1Nn .
А для суммы S=∑i=1nXiS=\sum_{i=1}^n X_iS=i=1n Xi : Var⁡(S)=n σpop2 N−nN−1\operatorname{Var}(S)=n\,\sigma^2_{pop}\,\dfrac{N-n}{N-1}Var(S)=nσpop2 N1Nn .
Замечание по зависимости от nnn: Var⁡(X)=np(1−p)N−nN−1\operatorname{Var}(X)=n p(1-p)\dfrac{N-n}{N-1}Var(X)=np(1p)N1Nn как функция nnn равна параболе, равной нулю при n=0n=0n=0 и n=Nn=Nn=N и достигает максимума при n=N/2n=N/2n=N/2. Для малых nnn дисперсия растёт почти пропорционально nnn; при больших nnn FPC уменьшает дисперсию и она стремится к нулю при n→Nn\to NnN.
Учет зависимости между испытаниями
- Вытаскивания без возвращения взаимозависимы (отрицательно коррелированы). Для индикаторных величин IiI_iIi (успех в i‑м вытаскивании):
E[Ii]=p,Var⁡(Ii)=p(1−p), \mathbb E[I_i]=p,\qquad \operatorname{Var}(I_i)=p(1-p),
E[Ii ]=p,Var(Ii )=p(1p),
Cov⁡(Ii,Ij)=−p(1−p)N−1(i≠j). \operatorname{Cov}(I_i,I_j)=-\frac{p(1-p)}{N-1}\quad(i\ne j).
Cov(Ii ,Ij )=N1p(1p) (i=j).
Поэтому для суммы X=∑i=1nIiX=\sum_{i=1}^n I_iX=i=1n Ii учитывают не только вариации отдельных индикаторов, но и ковариации, что даёт формулу вариации с FPC выше.
- В многокатегориальном случае для счётов XkX_kXk и XℓX_\ellX по категориям с размерами популяции Nk,NℓN_k,N_\ellNk ,N :
E[Xk]=nNkN, \mathbb E[X_k]=n\frac{N_k}{N},
E[Xk ]=nNNk ,
Var⁡(Xk)=nNkN(1−NkN)N−nN−1, \operatorname{Var}(X_k)=n\frac{N_k}{N}\Big(1-\frac{N_k}{N}\Big)\frac{N-n}{N-1},
Var(Xk )=nNNk (1NNk )N1Nn ,
Cov⁡(Xk,Xℓ)=−nNkNNℓNN−nN−1(k≠ℓ). \operatorname{Cov}(X_k,X_\ell)=-n\frac{N_k}{N}\frac{N_\ell}{N}\frac{N-n}{N-1}\quad(k\ne\ell).
Cov(Xk ,X )=nNNk NN N1Nn (k=).

Практические следствия
- Для малой выборочной доли (n/N≲0.05n/N\lesssim0.05n/N0.05) можно пренебречь зависимостью и использовать биномиальные/независимые модели.
- В общем случае использовать гипергеометрическое распределение или явный учёт ковариаций и конечной поправки в оценках дисперсий.
27 Окт в 15:21
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир