Для случайной величины X с неизвестным распределением предложите процедуры оценки медианы по выборке небольшого размера и обоснуйте выбор критерия устойчивости
Процедуры (коротко и с формулами) 1) Простая выборочная медиана: - Если nnn нечётно: m~=X((n+1)/2)\tilde m = X_{((n+1)/2)}m~=X((n+1)/2). - Если nnn чётно: m~=X(n/2)+X(n/2+1)2\tilde m = \dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}m~=2X(n/2)+X(n/2+1). Почему: устойчивый ненормализованный оценщик центра, прост в вычислении. 2) Непараметрический доверительный интервал для медианы (распределение неизвестно): - Пусть X(1)≤⋯≤X(n)X_{(1)}\le\dots\le X_{(n)}X(1)≤⋯≤X(n) — упорядоченные значения. Для уровня доверия 1−α1-\alpha1−α найдите индексы r,sr,sr,s такие, что P(Bin(n,1/2)≤r−1)≤α/2,P(Bin(n,1/2)≥s)≤α/2.
P\big(\mathrm{Bin}(n,1/2)\le r-1\big)\le\alpha/2,\qquad P\big(\mathrm{Bin}(n,1/2)\ge s\big)\le\alpha/2. P(Bin(n,1/2)≤r−1)≤α/2,P(Bin(n,1/2)≥s)≤α/2.
Тогда распределённо-свободный ДИ для медианы: [ X(r), X(s) ][\,X_{(r)},\,X_{(s)}\,][X(r),X(s)]. Почему: число наблюдений ≤ истинной медианы имеет биномиальное распределение с параметром 1/21/21/2, это даёт точные (exact) интервалы даже при малых nnn. 3) Оценка Ходжеса–Лемана (robust + высокая эффективность при симметрии): - Постройте все попарные средние Aij=(Xi+Xj)/2A_{ij}=(X_i+X_j)/2Aij=(Xi+Xj)/2 для 1≤i≤j≤n1\le i\le j\le n1≤i≤j≤n. Оценка Ходжеса–Лемана mHLm_{HL}mHL — медиана множества {Aij}\{A_{ij}\}{Aij}. Почему: более высокая эффективность по сравнению с обычной медианой при симметричных распределениях, при этом сохраняет хорошую устойчивость. 4) Harrell–Davis (малая дисперсия при гладких распределениях, но менее устойчива): - Оценка: m^HD=∑i=1nwiX(i)\hat m_{HD}=\sum_{i=1}^n w_i X_{(i)}m^HD=∑i=1nwiX(i), где веса wi=∫(i−1)/ni/nBeta(t; a,b) dt,a=b=n+12.
w_i=\int_{(i-1)/n}^{i/n}\mathrm{Beta}(t;\,a,b)\,dt,\qquad a=b=\frac{n+1}{2}. wi=∫(i−1)/ni/nBeta(t;a,b)dt,a=b=2n+1.
Почему: даёт меньшую дисперсию для гладких симметричных распределений при малых nnn, но чувствительнее к выбросам (ниже устойчивость). Критерий устойчивости — что выбирать и почему - Развал (breakdown point). Определение: наименьшая доля «плохих» наблюдений, делающая оценку сколь угодно большой/плохой. Формально для оценивателя TTT и размера выборки nnn — ε∗(T)=min{ε:supзамена εn точек∣T∣ =∞}.
\varepsilon^*(T)=\min\{\varepsilon:\sup_{\text{замена }\varepsilon n\ \text{точек}}|T|\ =\infty\}. ε∗(T)=min{ε:заменаεnточекsup∣T∣=∞}.
Медиана имеет максимальный для одномерного случая ε∗≈0.5\varepsilon^*\approx 0.5ε∗≈0.5 (высокая устойчивость). Оценки типа среднего имеют ε∗=0\varepsilon^*=0ε∗=0 (очень неустойчивы). - Функция влияния (influence function). Определение: IF(x;T,F)=limϵ→0T((1−ϵ)F+ϵΔx)−T(F)ϵ.
\mathrm{IF}(x;T,F)=\lim_{\epsilon\to0}\frac{T((1-\epsilon)F+\epsilon\Delta_x)-T(F)}{\epsilon}. IF(x;T,F)=ϵ→0limϵT((1−ϵ)F+ϵΔx)−T(F).
Хорошо, если IF\mathrm{IF}IF ограничена — оценка не чувствительна к единичным выбросам. У медианы IF\mathrm{IF}IF ограничена; у среднего — неограничена. - Практическая рекомендация при неизвестном распределении и малом nnn: - Если требуется максимальная робастность против выбросов и нет уверенности в симметрии: используйте выборочную медиану + распределённо-свободный ДИ по биномиалу. - Если ожидается симметричное/гладкое распределение и нужно снизить дисперсию при малом nnn: рассмотрите Ходжеса–Лемана (лучше по эффективности, при этом по-прежнему достаточно робастен). - Если приоритет — минимальный MSE при гладкой плотности и допустима некоторая уязвимость к выбросам: Harrell–Davis (взвешенная по порядку оценка). Краткая сводка: для универсального использования при неизвестном распределении и малом объёме предпочтительна выборочная медиана за счёт высокого breakdown point (≈0.50.50.5) и ограниченной функции влияния; при наличии дополнительной информации (симметрия, гладкость) можно перейти на Hodges–Lehmann или Harrell–Davis ради лучшей эффективности.
1) Простая выборочная медиана:
- Если nnn нечётно: m~=X((n+1)/2)\tilde m = X_{((n+1)/2)}m~=X((n+1)/2) .
- Если nnn чётно: m~=X(n/2)+X(n/2+1)2\tilde m = \dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}m~=2X(n/2) +X(n/2+1) .
Почему: устойчивый ненормализованный оценщик центра, прост в вычислении.
2) Непараметрический доверительный интервал для медианы (распределение неизвестно):
- Пусть X(1)≤⋯≤X(n)X_{(1)}\le\dots\le X_{(n)}X(1) ≤⋯≤X(n) — упорядоченные значения. Для уровня доверия 1−α1-\alpha1−α найдите индексы r,sr,sr,s такие, что
P(Bin(n,1/2)≤r−1)≤α/2,P(Bin(n,1/2)≥s)≤α/2. P\big(\mathrm{Bin}(n,1/2)\le r-1\big)\le\alpha/2,\qquad P\big(\mathrm{Bin}(n,1/2)\ge s\big)\le\alpha/2.
P(Bin(n,1/2)≤r−1)≤α/2,P(Bin(n,1/2)≥s)≤α/2. Тогда распределённо-свободный ДИ для медианы: [ X(r), X(s) ][\,X_{(r)},\,X_{(s)}\,][X(r) ,X(s) ].
Почему: число наблюдений ≤ истинной медианы имеет биномиальное распределение с параметром 1/21/21/2, это даёт точные (exact) интервалы даже при малых nnn.
3) Оценка Ходжеса–Лемана (robust + высокая эффективность при симметрии):
- Постройте все попарные средние Aij=(Xi+Xj)/2A_{ij}=(X_i+X_j)/2Aij =(Xi +Xj )/2 для 1≤i≤j≤n1\le i\le j\le n1≤i≤j≤n. Оценка Ходжеса–Лемана mHLm_{HL}mHL — медиана множества {Aij}\{A_{ij}\}{Aij }.
Почему: более высокая эффективность по сравнению с обычной медианой при симметричных распределениях, при этом сохраняет хорошую устойчивость.
4) Harrell–Davis (малая дисперсия при гладких распределениях, но менее устойчива):
- Оценка: m^HD=∑i=1nwiX(i)\hat m_{HD}=\sum_{i=1}^n w_i X_{(i)}m^HD =∑i=1n wi X(i) , где веса
wi=∫(i−1)/ni/nBeta(t; a,b) dt,a=b=n+12. w_i=\int_{(i-1)/n}^{i/n}\mathrm{Beta}(t;\,a,b)\,dt,\qquad a=b=\frac{n+1}{2}.
wi =∫(i−1)/ni/n Beta(t;a,b)dt,a=b=2n+1 . Почему: даёт меньшую дисперсию для гладких симметричных распределений при малых nnn, но чувствительнее к выбросам (ниже устойчивость).
Критерий устойчивости — что выбирать и почему
- Развал (breakdown point). Определение: наименьшая доля «плохих» наблюдений, делающая оценку сколь угодно большой/плохой. Формально для оценивателя TTT и размера выборки nnn —
ε∗(T)=min{ε:supзамена εn точек∣T∣ =∞}. \varepsilon^*(T)=\min\{\varepsilon:\sup_{\text{замена }\varepsilon n\ \text{точек}}|T|\ =\infty\}.
ε∗(T)=min{ε:замена εn точекsup ∣T∣ =∞}. Медиана имеет максимальный для одномерного случая ε∗≈0.5\varepsilon^*\approx 0.5ε∗≈0.5 (высокая устойчивость). Оценки типа среднего имеют ε∗=0\varepsilon^*=0ε∗=0 (очень неустойчивы).
- Функция влияния (influence function). Определение:
IF(x;T,F)=limϵ→0T((1−ϵ)F+ϵΔx)−T(F)ϵ. \mathrm{IF}(x;T,F)=\lim_{\epsilon\to0}\frac{T((1-\epsilon)F+\epsilon\Delta_x)-T(F)}{\epsilon}.
IF(x;T,F)=ϵ→0lim ϵT((1−ϵ)F+ϵΔx )−T(F) . Хорошо, если IF\mathrm{IF}IF ограничена — оценка не чувствительна к единичным выбросам. У медианы IF\mathrm{IF}IF ограничена; у среднего — неограничена.
- Практическая рекомендация при неизвестном распределении и малом nnn:
- Если требуется максимальная робастность против выбросов и нет уверенности в симметрии: используйте выборочную медиану + распределённо-свободный ДИ по биномиалу.
- Если ожидается симметричное/гладкое распределение и нужно снизить дисперсию при малом nnn: рассмотрите Ходжеса–Лемана (лучше по эффективности, при этом по-прежнему достаточно робастен).
- Если приоритет — минимальный MSE при гладкой плотности и допустима некоторая уязвимость к выбросам: Harrell–Davis (взвешенная по порядку оценка).
Краткая сводка: для универсального использования при неизвестном распределении и малом объёме предпочтительна выборочная медиана за счёт высокого breakdown point (≈0.50.50.5) и ограниченной функции влияния; при наличии дополнительной информации (симметрия, гладкость) можно перейти на Hodges–Lehmann или Harrell–Davis ради лучшей эффективности.