Рассмотрите случай вероятностного эксперимента: выборка из конечной популяции без возвращения. Какие законы распределения применимы, как зависит матожидание и дисперсия от размера выборки, и как учитывается зависимость между испытаниями
Законы распределения - Для подсчёта числа «успехов» в выборке размера nnn из конечной популяции размера NNN, где в популяции KKK 성공ов, применяется гипергеометрическое распределение: P(X=k)=(Kk)(N−K n−k )(Nn),max(0,n−(N−K))≤k≤min(n,K).
P(X=k)=\frac{\binom{K}{k}\binom{N-K}{\,n-k\,}}{\binom{N}{n}},\qquad \max(0,n-(N-K))\le k\le\min(n,K). P(X=k)=(nN)(kK)(n−kN−K),max(0,n−(N−K))≤k≤min(n,K).
- Для нескольких категорий — многомерное (мультиномиальное) гипергеометрическое распределение (urn-model). При больших NNN и малой доле выборки (n/Nn/Nn/N достаточно мал) гипергеометрическое распределение приближается к биномиальному Bin(n,p)Bin(n,p)Bin(n,p) с p=K/Np=K/Np=K/N. Матожидание и дисперсия (зависимость от nnn) - Для числа успехов XXX в гипергеометрическом случае E[X]=nKN=np,
\mathbb E[X]=n\frac{K}{N}=n p, E[X]=nNK=np,Var(X)=np(1−p)N−nN−1,p=KN.
\operatorname{Var}(X)=n p(1-p)\frac{N-n}{N-1}, \quad p=\frac{K}{N}. Var(X)=np(1−p)N−1N−n,p=NK.
Фактор N−nN−1\dfrac{N-n}{N-1}N−1N−n — конечная поправка (finite population correction, FPC). Для малой выборочной доли n/N≪1n/N\ll1n/N≪1 FPC≈1\approx1≈1 и Var(X)≈np(1−p)\operatorname{Var}(X)\approx n p(1-p)Var(X)≈np(1−p) (биномиальная форма). - Для сумм/средних значений вещественной характеристики: если в популяции дисперсия значений равна σpop2=1N∑(xi−μ)2\sigma^2_{pop}=\frac{1}{N}\sum (x_i-\mu)^2σpop2=N1∑(xi−μ)2, то для выборочного среднего Xˉ\bar XXˉE[Xˉ]=μ,Var(Xˉ)=σpop2nN−nN−1.
\mathbb E[\bar X]=\mu,\qquad \operatorname{Var}(\bar X)=\frac{\sigma^2_{pop}}{n}\frac{N-n}{N-1}. E[Xˉ]=μ,Var(Xˉ)=nσpop2N−1N−n.
А для суммы S=∑i=1nXiS=\sum_{i=1}^n X_iS=∑i=1nXi: Var(S)=n σpop2 N−nN−1\operatorname{Var}(S)=n\,\sigma^2_{pop}\,\dfrac{N-n}{N-1}Var(S)=nσpop2N−1N−n. Замечание по зависимости от nnn: Var(X)=np(1−p)N−nN−1\operatorname{Var}(X)=n p(1-p)\dfrac{N-n}{N-1}Var(X)=np(1−p)N−1N−n как функция nnn равна параболе, равной нулю при n=0n=0n=0 и n=Nn=Nn=N и достигает максимума при n=N/2n=N/2n=N/2. Для малых nnn дисперсия растёт почти пропорционально nnn; при больших nnn FPC уменьшает дисперсию и она стремится к нулю при n→Nn\to Nn→N. Учет зависимости между испытаниями - Вытаскивания без возвращения взаимозависимы (отрицательно коррелированы). Для индикаторных величин IiI_iIi (успех в i‑м вытаскивании): E[Ii]=p,Var(Ii)=p(1−p),
\mathbb E[I_i]=p,\qquad \operatorname{Var}(I_i)=p(1-p), E[Ii]=p,Var(Ii)=p(1−p),Cov(Ii,Ij)=−p(1−p)N−1(i≠j).
\operatorname{Cov}(I_i,I_j)=-\frac{p(1-p)}{N-1}\quad(i\ne j). Cov(Ii,Ij)=−N−1p(1−p)(i=j).
Поэтому для суммы X=∑i=1nIiX=\sum_{i=1}^n I_iX=∑i=1nIi учитывают не только вариации отдельных индикаторов, но и ковариации, что даёт формулу вариации с FPC выше. - В многокатегориальном случае для счётов XkX_kXk и XℓX_\ellXℓ по категориям с размерами популяции Nk,NℓN_k,N_\ellNk,Nℓ: E[Xk]=nNkN,
\mathbb E[X_k]=n\frac{N_k}{N}, E[Xk]=nNNk,Var(Xk)=nNkN(1−NkN)N−nN−1,
\operatorname{Var}(X_k)=n\frac{N_k}{N}\Big(1-\frac{N_k}{N}\Big)\frac{N-n}{N-1}, Var(Xk)=nNNk(1−NNk)N−1N−n,Cov(Xk,Xℓ)=−nNkNNℓNN−nN−1(k≠ℓ).
\operatorname{Cov}(X_k,X_\ell)=-n\frac{N_k}{N}\frac{N_\ell}{N}\frac{N-n}{N-1}\quad(k\ne\ell). Cov(Xk,Xℓ)=−nNNkNNℓN−1N−n(k=ℓ). Практические следствия - Для малой выборочной доли (n/N≲0.05n/N\lesssim0.05n/N≲0.05) можно пренебречь зависимостью и использовать биномиальные/независимые модели. - В общем случае использовать гипергеометрическое распределение или явный учёт ковариаций и конечной поправки в оценках дисперсий.
- Для подсчёта числа «успехов» в выборке размера nnn из конечной популяции размера NNN, где в популяции KKK 성공ов, применяется гипергеометрическое распределение:
P(X=k)=(Kk)(N−K n−k )(Nn),max(0,n−(N−K))≤k≤min(n,K). P(X=k)=\frac{\binom{K}{k}\binom{N-K}{\,n-k\,}}{\binom{N}{n}},\qquad \max(0,n-(N-K))\le k\le\min(n,K).
P(X=k)=(nN )(kK )(n−kN−K ) ,max(0,n−(N−K))≤k≤min(n,K). - Для нескольких категорий — многомерное (мультиномиальное) гипергеометрическое распределение (urn-model).
При больших NNN и малой доле выборки (n/Nn/Nn/N достаточно мал) гипергеометрическое распределение приближается к биномиальному Bin(n,p)Bin(n,p)Bin(n,p) с p=K/Np=K/Np=K/N.
Матожидание и дисперсия (зависимость от nnn)
- Для числа успехов XXX в гипергеометрическом случае
E[X]=nKN=np, \mathbb E[X]=n\frac{K}{N}=n p,
E[X]=nNK =np, Var(X)=np(1−p)N−nN−1,p=KN. \operatorname{Var}(X)=n p(1-p)\frac{N-n}{N-1},
\quad p=\frac{K}{N}.
Var(X)=np(1−p)N−1N−n ,p=NK . Фактор N−nN−1\dfrac{N-n}{N-1}N−1N−n — конечная поправка (finite population correction, FPC). Для малой выборочной доли n/N≪1n/N\ll1n/N≪1 FPC≈1\approx1≈1 и Var(X)≈np(1−p)\operatorname{Var}(X)\approx n p(1-p)Var(X)≈np(1−p) (биномиальная форма).
- Для сумм/средних значений вещественной характеристики: если в популяции дисперсия значений равна σpop2=1N∑(xi−μ)2\sigma^2_{pop}=\frac{1}{N}\sum (x_i-\mu)^2σpop2 =N1 ∑(xi −μ)2, то для выборочного среднего Xˉ\bar XXˉ E[Xˉ]=μ,Var(Xˉ)=σpop2nN−nN−1. \mathbb E[\bar X]=\mu,\qquad
\operatorname{Var}(\bar X)=\frac{\sigma^2_{pop}}{n}\frac{N-n}{N-1}.
E[Xˉ]=μ,Var(Xˉ)=nσpop2 N−1N−n . А для суммы S=∑i=1nXiS=\sum_{i=1}^n X_iS=∑i=1n Xi : Var(S)=n σpop2 N−nN−1\operatorname{Var}(S)=n\,\sigma^2_{pop}\,\dfrac{N-n}{N-1}Var(S)=nσpop2 N−1N−n .
Замечание по зависимости от nnn: Var(X)=np(1−p)N−nN−1\operatorname{Var}(X)=n p(1-p)\dfrac{N-n}{N-1}Var(X)=np(1−p)N−1N−n как функция nnn равна параболе, равной нулю при n=0n=0n=0 и n=Nn=Nn=N и достигает максимума при n=N/2n=N/2n=N/2. Для малых nnn дисперсия растёт почти пропорционально nnn; при больших nnn FPC уменьшает дисперсию и она стремится к нулю при n→Nn\to Nn→N.
Учет зависимости между испытаниями
- Вытаскивания без возвращения взаимозависимы (отрицательно коррелированы). Для индикаторных величин IiI_iIi (успех в i‑м вытаскивании):
E[Ii]=p,Var(Ii)=p(1−p), \mathbb E[I_i]=p,\qquad \operatorname{Var}(I_i)=p(1-p),
E[Ii ]=p,Var(Ii )=p(1−p), Cov(Ii,Ij)=−p(1−p)N−1(i≠j). \operatorname{Cov}(I_i,I_j)=-\frac{p(1-p)}{N-1}\quad(i\ne j).
Cov(Ii ,Ij )=−N−1p(1−p) (i=j). Поэтому для суммы X=∑i=1nIiX=\sum_{i=1}^n I_iX=∑i=1n Ii учитывают не только вариации отдельных индикаторов, но и ковариации, что даёт формулу вариации с FPC выше.
- В многокатегориальном случае для счётов XkX_kXk и XℓX_\ellXℓ по категориям с размерами популяции Nk,NℓN_k,N_\ellNk ,Nℓ :
E[Xk]=nNkN, \mathbb E[X_k]=n\frac{N_k}{N},
E[Xk ]=nNNk , Var(Xk)=nNkN(1−NkN)N−nN−1, \operatorname{Var}(X_k)=n\frac{N_k}{N}\Big(1-\frac{N_k}{N}\Big)\frac{N-n}{N-1},
Var(Xk )=nNNk (1−NNk )N−1N−n , Cov(Xk,Xℓ)=−nNkNNℓNN−nN−1(k≠ℓ). \operatorname{Cov}(X_k,X_\ell)=-n\frac{N_k}{N}\frac{N_\ell}{N}\frac{N-n}{N-1}\quad(k\ne\ell).
Cov(Xk ,Xℓ )=−nNNk NNℓ N−1N−n (k=ℓ).
Практические следствия
- Для малой выборочной доли (n/N≲0.05n/N\lesssim0.05n/N≲0.05) можно пренебречь зависимостью и использовать биномиальные/независимые модели.
- В общем случае использовать гипергеометрическое распределение или явный учёт ковариаций и конечной поправки в оценках дисперсий.