Для случайной величины X с неизвестным распределением предложите процедуры оценки медианы по выборке небольшого размера и обоснуйте выбор критерия устойчивости
Предыдущий
вопрос Следующий
вопрос

.
Почему: устойчивый ненормализованный оценщик центра, прост в вычислении.
2) Непараметрический доверительный интервал для медианы (распределение неизвестно):
- Пусть

X(1)≤⋯≤X(n)X_{(1)}\le\dots\le X_{(n)}

— упорядоченные значения. Для уровня доверия

1−α1-\alpha

найдите индексы

r, s

такие, что

P\big(\mathrm{Bin}(n,1/2)\le r-1\big)\le\alpha/2,\qquad P\big(\mathrm{Bin}(n,1/2)\ge s\big)\le\alpha/2.

Тогда распределённо-свободный ДИ для медианы:

X_{(r)},\,X_{(s)}\,]

.
Почему: число наблюдений ≤ истинной медианы имеет биномиальное распределение с параметром

1/2

, это даёт точные (exact) интервалы даже при малых

n

.
3) Оценка Ходжеса–Лемана (robust + высокая эффективность при симметрии):
- Постройте все попарные средние

A_{ij}=(X_i+X_j)/2

для

1≤i≤j≤n1\le i\le j\le n

. Оценка Ходжеса–Лемана

m_{HL}

— медиана множества

{A_{ij}\}

.
Почему: более высокая эффективность по сравнению с обычной медианой при симметричных распределениях, при этом сохраняет хорошую устойчивость.
4) Harrell–Davis (малая дисперсия при гладких распределениях, но менее устойчива):
- Оценка:

m^HD=∑i=1nwiX(i)\hat m_{HD}=\sum_{i=1}^n w_i X_{(i)}

, где веса

w_i=\int_{(i-1)/n}^{i/n}\mathrm{Beta}(t;\,a,b)\,dt,\qquad a=b=\frac{n+1}{2}.

Почему: даёт меньшую дисперсию для гладких симметричных распределений при малых

n

, но чувствительнее к выбросам (ниже устойчивость).
Критерий устойчивости — что выбирать и почему
- Развал (breakdown point). Определение: наименьшая доля «плохих» наблюдений, делающая оценку сколь угодно большой/плохой. Формально для оценивателя

T

и размера выборки

n

—

\varepsilon^*(T)=\min\{\varepsilon:\sup_{\text{замена }\varepsilon n\ \text{точек}}|T|\ =\infty\}.

Медиана имеет максимальный для одномерного случая

ε∗≈0.5\varepsilon^*\approx 0.5

(высокая устойчивость). Оценки типа среднего имеют

ε∗=0\varepsilon^*=0

(очень неустойчивы).
- Функция влияния (influence function). Определение:

\mathrm{IF}(x;T,F)=\lim_{\epsilon\to0}\frac{T((1-\epsilon)F+\epsilon\Delta_x)-T(F)}{\epsilon}.

Хорошо, если

IF\mathrm{IF}

ограничена — оценка не чувствительна к единичным выбросам. У медианы

IF\mathrm{IF}

ограничена; у среднего — неограничена.
- Практическая рекомендация при неизвестном распределении и малом

n

:
- Если требуется максимальная робастность против выбросов и нет уверенности в симметрии: используйте выборочную медиану + распределённо-свободный ДИ по биномиалу.
- Если ожидается симметричное/гладкое распределение и нужно снизить дисперсию при малом

n

: рассмотрите Ходжеса–Лемана (лучше по эффективности, при этом по-прежнему достаточно робастен).
- Если приоритет — минимальный MSE при гладкой плотности и допустима некоторая уязвимость к выбросам: Harrell–Davis (взвешенная по порядку оценка).
Краткая сводка: для универсального использования при неизвестном распределении и малом объёме предпочтительна выборочная медиана за счёт высокого breakdown point (≈

0.5

) и ограниченной функции влияния; при наличии дополнительной информации (симметрия, гладкость) можно перейти на Hodges–Lehmann или Harrell–Davis ради лучшей эффективности.

Другие вопросы eva

Другие вопросы
eva