Кейс по статистике: при оценке среднего по выборке с неизвестной дисперсией предложите, когда использовать нормальное приближение, а когда t-распределение; обсудите влияние размера выборки и исходного распределения популяции
Кратко и по делу — когда применять t‑распределение, а когда нормальное приближение при оценке среднего при неизвестной дисперсии, и как на это влияют размер выборки и форма популяции. Основное правило - Если выборка из нормально распределённой популяции, статистика t=xˉ−μ0s/n
t=\frac{\bar x-\mu_0}{s/\sqrt{n}} t=s/nxˉ−μ0
имеет точно t‑распределение с n−1n-1n−1 степенями свободы; используйте t‑критерий/интервалы: xˉ±tn−1, 1−α/2sn.
\bar x \pm t_{n-1,\,1-\alpha/2}\frac{s}{\sqrt n}. xˉ±tn−1,1−α/2ns.
- Если дисперсия неизвестна, но выборка большая, то по ЦПТ можно приближать распределение выборочного среднего нормальным и использовать z‑приближение с оценкой дисперсии: z≈xˉ−μ0s/n∼N(0,1),
z\approx\frac{\bar x-\mu_0}{s/\sqrt{n}}\sim N(0,1), z≈s/nxˉ−μ0∼N(0,1),
а доверительный интервал примерно xˉ±z1−α/2sn.
\bar x \pm z_{1-\alpha/2}\frac{s}{\sqrt n}. xˉ±z1−α/2ns. Влияние размера выборки - Для малого nnn (обычно n<30n<30n<30) использование t обязателено при условии, что популяция близка к нормальной; t учитывает дополнительную неопределённость оценки дисперсии (тяжёлые хвосты). - При большом nnn (правило типа n≥30n\ge 30n≥30 или n≥50n\ge 50n≥50, в зависимости от ситуации) распределение t быстро сходится к нормальному, поэтому z‑приближение становится адекватным: tn−1→N(0,1)t_{n-1}\to N(0,1)tn−1→N(0,1) при n→∞n\to\inftyn→∞. Влияние формы популяции - Если популяция нормально распределена: t корректен при любом nnn. - Если популяция несильно скошена и не имеет тяжёлых хвостов: ЦПТ даёт приближение уже при умеренных nnn (обычно n≳30n\gtrsim 30n≳30). - При сильной асимметрии или тяжёлых хвостах нужны гораздо большие nnn для нормального приближения; для малых выборок в таких случаях ни t, ни z могут давать неверные уровни доверия/значимости. - Наличие выбросов делает оценку среднего и стандартного отклонения ненадёжной; рассмотрите медиану/робастные методы или бутстрэп. Практические рекомендации - Если nnn мал и вы можете предположить нормальность — используйте t. - Если nnn велико (≳30 \gtrsim 30≳30) и нет экстремальной асимметрии — можно использовать нормальное приближение. - Если популяция явно не нормальна и nnn мал — избегайте стандартных t/z; используйте непараметрические методы или бутстрэп (параметрический/непараметрический) для доверительных интервалов и тестов. - Всегда проверяйте на выбросы и асимметрию (гистограмма, Q‑Q график, коэффициенты асимметрии/эксцесса). Краткая суть: при неизвестной дисперсии t — «правильный» инструмент при нормальной популяции (особенно для малых nnn); при большом nnn t≈N и можно применять нормальное приближение; при несоответствии нормальности и малых выборках — прибегайте к бутстрэпу или робастным методам.
Основное правило
- Если выборка из нормально распределённой популяции, статистика
t=xˉ−μ0s/n t=\frac{\bar x-\mu_0}{s/\sqrt{n}}
t=s/n xˉ−μ0 имеет точно t‑распределение с n−1n-1n−1 степенями свободы; используйте t‑критерий/интервалы:
xˉ±tn−1, 1−α/2sn. \bar x \pm t_{n-1,\,1-\alpha/2}\frac{s}{\sqrt n}.
xˉ±tn−1,1−α/2 n s . - Если дисперсия неизвестна, но выборка большая, то по ЦПТ можно приближать распределение выборочного среднего нормальным и использовать z‑приближение с оценкой дисперсии:
z≈xˉ−μ0s/n∼N(0,1), z\approx\frac{\bar x-\mu_0}{s/\sqrt{n}}\sim N(0,1),
z≈s/n xˉ−μ0 ∼N(0,1), а доверительный интервал примерно
xˉ±z1−α/2sn. \bar x \pm z_{1-\alpha/2}\frac{s}{\sqrt n}.
xˉ±z1−α/2 n s .
Влияние размера выборки
- Для малого nnn (обычно n<30n<30n<30) использование t обязателено при условии, что популяция близка к нормальной; t учитывает дополнительную неопределённость оценки дисперсии (тяжёлые хвосты).
- При большом nnn (правило типа n≥30n\ge 30n≥30 или n≥50n\ge 50n≥50, в зависимости от ситуации) распределение t быстро сходится к нормальному, поэтому z‑приближение становится адекватным: tn−1→N(0,1)t_{n-1}\to N(0,1)tn−1 →N(0,1) при n→∞n\to\inftyn→∞.
Влияние формы популяции
- Если популяция нормально распределена: t корректен при любом nnn.
- Если популяция несильно скошена и не имеет тяжёлых хвостов: ЦПТ даёт приближение уже при умеренных nnn (обычно n≳30n\gtrsim 30n≳30).
- При сильной асимметрии или тяжёлых хвостах нужны гораздо большие nnn для нормального приближения; для малых выборок в таких случаях ни t, ни z могут давать неверные уровни доверия/значимости.
- Наличие выбросов делает оценку среднего и стандартного отклонения ненадёжной; рассмотрите медиану/робастные методы или бутстрэп.
Практические рекомендации
- Если nnn мал и вы можете предположить нормальность — используйте t.
- Если nnn велико (≳30 \gtrsim 30≳30) и нет экстремальной асимметрии — можно использовать нормальное приближение.
- Если популяция явно не нормальна и nnn мал — избегайте стандартных t/z; используйте непараметрические методы или бутстрэп (параметрический/непараметрический) для доверительных интервалов и тестов.
- Всегда проверяйте на выбросы и асимметрию (гистограмма, Q‑Q график, коэффициенты асимметрии/эксцесса).
Краткая суть: при неизвестной дисперсии t — «правильный» инструмент при нормальной популяции (особенно для малых nnn); при большом nnn t≈N и можно применять нормальное приближение; при несоответствии нормальности и малых выборках — прибегайте к бутстрэпу или робастным методам.