Рассмотрите случай вероятностного эксперимента: выборка из конечной популяции без возвращения. Какие законы распределения применимы, как зависит матожидание и дисперсия от размера выборки, и как учитывается зависимость между испытаниями
Предыдущий
вопрос Следующий
вопрос

Question

Рассмотрите случай вероятностного эксперимента: выборка из конечной популяции без возвращения. Какие законы распределения применимы, как зависит матожидание и дисперсия от размера выборки, и как учитывается зависимость между испытаниями
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по математике

Рассмотрите случай в...

eva

27 Окт в 13:44

6 +1

0

Helper · Answer 1

Законы распределения
- Для подсчёта числа «успехов» в выборке размера

n

из конечной популяции размера

N

, где в популяции

K

성공ов, применяется гипергеометрическое распределение:

P(X=k)=\frac{\binom{K}{k}\binom{N-K}{\,n-k\,}}{\binom{N}{n}},\qquad \max(0,n-(N-K))\le k\le\min(n,K).

- Для нескольких категорий — многомерное (мультиномиальное) гипергеометрическое распределение (urn-model).
При больших

N

и малой доле выборки (

n / N

достаточно мал) гипергеометрическое распределение приближается к биномиальному

B in (n, p)

с

p = K / N

.
Матожидание и дисперсия (зависимость от

n

)
- Для числа успехов

X

в гипергеометрическом случае

\mathbb E[X]=n\frac{K}{N}=n p,

\operatorname{Var}(X)=n p(1-p)\frac{N-n}{N-1},\quad p=\frac{K}{N}.

Фактор

N−nN−1\dfrac{N-n}{N-1}

— конечная поправка (finite population correction, FPC). Для малой выборочной доли

n/N≪1n/N\ll1

FPC

≈1\approx1

и

Var⁡(X)≈np(1−p)\operatorname{Var}(X)\approx n p(1-p)

(биномиальная форма).
- Для сумм/средних значений вещественной характеристики: если в популяции дисперсия значений равна

σpop2=1N∑(xi−μ)2\sigma^2_{pop}=\frac{1}{N}\sum (x_i-\mu)^2

, то для выборочного среднего

Xˉ\bar X

\mathbb E[\bar X]=\mu,\qquad\operatorname{Var}(\bar X)=\frac{\sigma^2_{pop}}{n}\frac{N-n}{N-1}.

А для суммы

S=∑i=1nXiS=\sum_{i=1}^n X_i

:

N−nN−1\operatorname{Var}(S)=n\,\sigma^2_{pop}\,\dfrac{N-n}{N-1}

.
Замечание по зависимости от

n

:

Var⁡(X)=np(1−p)N−nN−1\operatorname{Var}(X)=n p(1-p)\dfrac{N-n}{N-1}

как функция

n

равна параболе, равной нулю при

n = 0

и

n = N

и достигает максимума при

n = N /2

. Для малых

n

дисперсия растёт почти пропорционально

n

; при больших

n

FPC уменьшает дисперсию и она стремится к нулю при

n→Nn\to N

.
Учет зависимости между испытаниями
- Вытаскивания без возвращения взаимозависимы (отрицательно коррелированы). Для индикаторных величин

I_i

(успех в i‑м вытаскивании):

\mathbb E[I_i]=p,\qquad \operatorname{Var}(I_i)=p(1-p),

\operatorname{Cov}(I_i,I_j)=-\frac{p(1-p)}{N-1}\quad(i\ne j).

Поэтому для суммы

X=∑i=1nIiX=\sum_{i=1}^n I_i

учитывают не только вариации отдельных индикаторов, но и ковариации, что даёт формулу вариации с FPC выше.
- В многокатегориальном случае для счётов

X_k

и

XℓX_\ell

по категориям с размерами популяции

Nk,NℓN_k,N_\ell

:

\mathbb E[X_k]=n\frac{N_k}{N},

\operatorname{Var}(X_k)=n\frac{N_k}{N}\Big(1-\frac{N_k}{N}\Big)\frac{N-n}{N-1},

\operatorname{Cov}(X_k,X_\ell)=-n\frac{N_k}{N}\frac{N_\ell}{N}\frac{N-n}{N-1}\quad(k\ne\ell).

Практические следствия
- Для малой выборочной доли (

n/N≲0.05n/N\lesssim0.05

) можно пренебречь зависимостью и использовать биномиальные/независимые модели.
- В общем случае использовать гипергеометрическое распределение или явный учёт ковариаций и конечной поправки в оценках дисперсий.

Другие вопросы eva

Другие вопросы
eva