Теория вероятностей и статистика: студент утверждает, что при большой выборке среднее всегда приближается к медиане; проанализируй это утверждение, приведи контрпримеры и обсуди роль распределения данных
Краткий ответ: нет — при большой выборке среднее не всегда приближается к медиане. Каждое из них сходится к своей «популяционной» характеристике, и эти характеристики обычно различны, если распределение асимметрично или имеет тяжёлые хвосты. Пояснения и формулы: - Обозначим выборочное среднее Xˉ\bar XXˉ, выборочную медиану X~\tilde XX~, популяционное (математическое) ожидание μ\muμ и популяционную медиану mmm. - При обычных условиях (существует конечное математическое ожидание и/или плотность в окрестности медианы) по ЗБЧ и свойствам оценок: Xˉ→Pμ,\displaystyle \bar X \xrightarrow{P} \mu,XˉPμ,X~→Pm.\displaystyle \tilde X \xrightarrow{P} m.X~Pm.
Значит предел их разности — μ−m\mu-mμ−m, а не обязательно ноль. - Асимптотические дисперсии (для непрерывной плотности fff в точке медианы и конечной дисперсии σ2\sigma^2σ2): Var(Xˉ)≈σ2n,\displaystyle \mathrm{Var}(\bar X)\approx \frac{\sigma^2}{n},Var(Xˉ)≈nσ2,Var(X~)≈14nf(m)2.\displaystyle \mathrm{Var}(\tilde X)\approx \frac{1}{4 n f(m)^2}.Var(X~)≈4nf(m)21.
Поэтому n(Xˉ−X~−(μ−m))\sqrt{n}(\bar X-\tilde X-(\mu-m))n(Xˉ−X~−(μ−m)) имеет асимптотически нормальное распределение (при обычных условиях). Контрпримеры: 1. Экспоненциальное распределение Exp(λ) \mathrm{Exp}(\lambda)Exp(λ): μ=1/λ, m=(ln2)/λ\mu=1/\lambda,\; m=(\ln 2)/\lambdaμ=1/λ,m=(ln2)/λ. Для λ=1\lambda=1λ=1: μ−m=1−ln2≈0.3069\mu-m=1-\ln 2\approx 0.3069μ−m=1−ln2≈0.3069. При n→∞n\to\inftyn→∞Xˉ→1\bar X\to1Xˉ→1, X~→ln2\tilde X\to\ln2X~→ln2 — они не совпадают. 2. Тяжёлые хвосты — Парето с параметром α≤1\alpha\le1α≤1: популяционное среднее не существует (бесконечно), а медиана конечна. Тогда Xˉ\bar XXˉ не сходится (или расходится), а X~\tilde XX~ сходится к конечной медиане. 3. Коши (Cauchy): математического ожидания нет, выборочное среднее непостоянно при росте nnn, медиана же сходится к популяционной медиане. Значит среднее не приближается к медиане. Роль распределения: - Симметричное распределение вокруг точки aaa даёт μ=m=a\mu=m=aμ=m=a — тогда при больших nnnXˉ\bar XXˉ и X~\tilde XX~ оба сходятся к одному значению. - Асимметрия (скошенность) даёт отличия μ≠m\mu\ne mμ=m → разность сохраняется при больших nnn. - Тяжёлые хвосты или отсутствие моментов нарушают сходимость среднего, медиана более робустна к хвостам. - Многомодальность: медиана может лежать в низкоплотной зоне между пиками, а среднее — между пиками иначе; оба устойчивы, но к разным характеристикам распределения. Вывод: утверждение верно только в частных случаях (например, симметрия или μ=m\mu=mμ=m). В общем — неверно; нужно смотреть на форму распределения (асимметрию, плотность в медиане, наличие моментов).
Пояснения и формулы:
- Обозначим выборочное среднее Xˉ\bar XXˉ, выборочную медиану X~\tilde XX~, популяционное (математическое) ожидание μ\muμ и популяционную медиану mmm.
- При обычных условиях (существует конечное математическое ожидание и/или плотность в окрестности медианы) по ЗБЧ и свойствам оценок:
Xˉ→Pμ,\displaystyle \bar X \xrightarrow{P} \mu,XˉP μ, X~→Pm.\displaystyle \tilde X \xrightarrow{P} m.X~P m. Значит предел их разности — μ−m\mu-mμ−m, а не обязательно ноль.
- Асимптотические дисперсии (для непрерывной плотности fff в точке медианы и конечной дисперсии σ2\sigma^2σ2):
Var(Xˉ)≈σ2n,\displaystyle \mathrm{Var}(\bar X)\approx \frac{\sigma^2}{n},Var(Xˉ)≈nσ2 , Var(X~)≈14nf(m)2.\displaystyle \mathrm{Var}(\tilde X)\approx \frac{1}{4 n f(m)^2}.Var(X~)≈4nf(m)21 . Поэтому n(Xˉ−X~−(μ−m))\sqrt{n}(\bar X-\tilde X-(\mu-m))n (Xˉ−X~−(μ−m)) имеет асимптотически нормальное распределение (при обычных условиях).
Контрпримеры:
1. Экспоненциальное распределение Exp(λ) \mathrm{Exp}(\lambda)Exp(λ): μ=1/λ, m=(ln2)/λ\mu=1/\lambda,\; m=(\ln 2)/\lambdaμ=1/λ,m=(ln2)/λ. Для λ=1\lambda=1λ=1: μ−m=1−ln2≈0.3069\mu-m=1-\ln 2\approx 0.3069μ−m=1−ln2≈0.3069. При n→∞n\to\inftyn→∞ Xˉ→1\bar X\to1Xˉ→1, X~→ln2\tilde X\to\ln2X~→ln2 — они не совпадают.
2. Тяжёлые хвосты — Парето с параметром α≤1\alpha\le1α≤1: популяционное среднее не существует (бесконечно), а медиана конечна. Тогда Xˉ\bar XXˉ не сходится (или расходится), а X~\tilde XX~ сходится к конечной медиане.
3. Коши (Cauchy): математического ожидания нет, выборочное среднее непостоянно при росте nnn, медиана же сходится к популяционной медиане. Значит среднее не приближается к медиане.
Роль распределения:
- Симметричное распределение вокруг точки aaa даёт μ=m=a\mu=m=aμ=m=a — тогда при больших nnn Xˉ\bar XXˉ и X~\tilde XX~ оба сходятся к одному значению.
- Асимметрия (скошенность) даёт отличия μ≠m\mu\ne mμ=m → разность сохраняется при больших nnn.
- Тяжёлые хвосты или отсутствие моментов нарушают сходимость среднего, медиана более робустна к хвостам.
- Многомодальность: медиана может лежать в низкоплотной зоне между пиками, а среднее — между пиками иначе; оба устойчивы, но к разным характеристикам распределения.
Вывод: утверждение верно только в частных случаях (например, симметрия или μ=m\mu=mμ=m). В общем — неверно; нужно смотреть на форму распределения (асимметрию, плотность в медиане, наличие моментов).