Для случайной величины X с неизвестным распределением предложите процедуры оценки медианы по выборке небольшого размера и обоснуйте выбор критерия устойчивости

25 Ноя в 15:44
5 +1
0
Ответы
1
Процедуры (коротко и с формулами)
1) Простая выборочная медиана:
- Если nnn нечётно: m~=X((n+1)/2)\tilde m = X_{((n+1)/2)}m~=X((n+1)/2) .
- Если nnn чётно: m~=X(n/2)+X(n/2+1)2\tilde m = \dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}m~=2X(n/2) +X(n/2+1) .
Почему: устойчивый ненормализованный оценщик центра, прост в вычислении.
2) Непараметрический доверительный интервал для медианы (распределение неизвестно):
- Пусть X(1)≤⋯≤X(n)X_{(1)}\le\dots\le X_{(n)}X(1) X(n) — упорядоченные значения. Для уровня доверия 1−α1-\alpha1α найдите индексы r,sr,sr,s такие, что
P(Bin(n,1/2)≤r−1)≤α/2,P(Bin(n,1/2)≥s)≤α/2. P\big(\mathrm{Bin}(n,1/2)\le r-1\big)\le\alpha/2,\qquad P\big(\mathrm{Bin}(n,1/2)\ge s\big)\le\alpha/2.
P(Bin(n,1/2)r1)α/2,P(Bin(n,1/2)s)α/2.
Тогда распределённо-свободный ДИ для медианы: [ X(r), X(s) ][\,X_{(r)},\,X_{(s)}\,][X(r) ,X(s) ].
Почему: число наблюдений ≤ истинной медианы имеет биномиальное распределение с параметром 1/21/21/2, это даёт точные (exact) интервалы даже при малых nnn.
3) Оценка Ходжеса–Лемана (robust + высокая эффективность при симметрии):
- Постройте все попарные средние Aij=(Xi+Xj)/2A_{ij}=(X_i+X_j)/2Aij =(Xi +Xj )/2 для 1≤i≤j≤n1\le i\le j\le n1ijn. Оценка Ходжеса–Лемана mHLm_{HL}mHL — медиана множества {Aij}\{A_{ij}\}{Aij }.
Почему: более высокая эффективность по сравнению с обычной медианой при симметричных распределениях, при этом сохраняет хорошую устойчивость.
4) Harrell–Davis (малая дисперсия при гладких распределениях, но менее устойчива):
- Оценка: m^HD=∑i=1nwiX(i)\hat m_{HD}=\sum_{i=1}^n w_i X_{(i)}m^HD =i=1n wi X(i) , где веса
wi=∫(i−1)/ni/nBeta(t; a,b) dt,a=b=n+12. w_i=\int_{(i-1)/n}^{i/n}\mathrm{Beta}(t;\,a,b)\,dt,\qquad a=b=\frac{n+1}{2}.
wi =(i1)/ni/n Beta(t;a,b)dt,a=b=2n+1 .
Почему: даёт меньшую дисперсию для гладких симметричных распределений при малых nnn, но чувствительнее к выбросам (ниже устойчивость).
Критерий устойчивости — что выбирать и почему
- Развал (breakdown point). Определение: наименьшая доля «плохих» наблюдений, делающая оценку сколь угодно большой/плохой. Формально для оценивателя TTT и размера выборки nnn
ε∗(T)=min⁡{ε:sup⁡замена εn точек∣T∣ =∞}. \varepsilon^*(T)=\min\{\varepsilon:\sup_{\text{замена }\varepsilon n\ \text{точек}}|T|\ =\infty\}.
ε(T)=min{ε:замена εn точекsup T =}.
Медиана имеет максимальный для одномерного случая ε∗≈0.5\varepsilon^*\approx 0.5ε0.5 (высокая устойчивость). Оценки типа среднего имеют ε∗=0\varepsilon^*=0ε=0 (очень неустойчивы).
- Функция влияния (influence function). Определение:
IF(x;T,F)=lim⁡ϵ→0T((1−ϵ)F+ϵΔx)−T(F)ϵ. \mathrm{IF}(x;T,F)=\lim_{\epsilon\to0}\frac{T((1-\epsilon)F+\epsilon\Delta_x)-T(F)}{\epsilon}.
IF(x;T,F)=ϵ0lim ϵT((1ϵ)F+ϵΔx )T(F) .
Хорошо, если IF\mathrm{IF}IF ограничена — оценка не чувствительна к единичным выбросам. У медианы IF\mathrm{IF}IF ограничена; у среднего — неограничена.
- Практическая рекомендация при неизвестном распределении и малом nnn:
- Если требуется максимальная робастность против выбросов и нет уверенности в симметрии: используйте выборочную медиану + распределённо-свободный ДИ по биномиалу.
- Если ожидается симметричное/гладкое распределение и нужно снизить дисперсию при малом nnn: рассмотрите Ходжеса–Лемана (лучше по эффективности, при этом по-прежнему достаточно робастен).
- Если приоритет — минимальный MSE при гладкой плотности и допустима некоторая уязвимость к выбросам: Harrell–Davis (взвешенная по порядку оценка).
Краткая сводка: для универсального использования при неизвестном распределении и малом объёме предпочтительна выборочная медиана за счёт высокого breakdown point (≈0.50.50.5) и ограниченной функции влияния; при наличии дополнительной информации (симметрия, гладкость) можно перейти на Hodges–Lehmann или Harrell–Davis ради лучшей эффективности.
25 Ноя в 15:54
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир