Дан набор чисел с повторениями. Какому методу группировки и нормализации следует отдать предпочтение для оценки медианы и моды при наличии выбросов и почему
Коротко — использовать робастные (нечувствительные к выбросам) приёмы как при группировке, так и при нормализации. 1) Оценка медианы - Группировка: лучше не равношаговые интервалы, а либо не группировать (взять порядковый статистик), либо применять равночастотные (квантильные) бины. При необходимости оценки медианы по гистограмме — использовать формулу групповой медианы x~=L+N2−Ff w\displaystyle \tilde x = L + \frac{\frac{N}{2}-F}{f}\,wx~=L+f2N−Fw, где LLL — нижняя граница класса медианы, NNN — общий объём, FFF — накопленная частота до класса, fff — частота класса, www — ширина класса. - Нормализация: центрировать по медиане и шкалировать робастно, напр. MAD=median(∣xi−median(x)∣)\displaystyle \operatorname{MAD}=\operatorname{median}(|x_i-\operatorname{median}(x)|)MAD=median(∣xi−median(x)∣), xi′=xi−median(x)MAD\displaystyle x'_i=\frac{x_i-\operatorname{median}(x)}{\operatorname{MAD}}xi′=MADxi−median(x)
(или делить на IQR=\mathrm{IQR}=IQR=Q3−Q1Q_{3}-Q_{1}Q3−Q1). Это сохраняет положение медианы и не даёт выбросам сильного влияния. Почему: медиана сама по себе робастна; равночастотная группировка и медианное масштабирование предотвращают смещение классов и шкалы из‑за экстремумов. 2) Оценка моды - Группировка: для непрерывных данных предпочтительна оценка плотности (KDE) или адаптивные бины / равночастотный гистограммный подход (поисковая «модальная интервал»). Равношаговая гистограмма часто даёт ложные пики при выбросах. - Выбор ширины/бандвида: использовать робастные правила, например модифицированную формулу Сильвермана h=0.9min (σ,IQR1.34) n−1/5\displaystyle h=0.9\min\!\big(\sigma,\tfrac{\mathrm{IQR}}{1.34}\big)\,n^{-1/5}h=0.9min(σ,1.34IQR)n−1/5, где IQR\mathrm{IQR}IQR обеспечивает робастность против выбросов. - Нормализация/предобработка: перед оценкой плотности полезно выполнить винзоризацию или лёгкую обрезку (trim/winsorize) экстремумов и/или центрировать по медиане и шкалировать по IQR/MAD. Для положительных сильно скошенных данных может помочь лог‑трансформация. Почему: мода определяется максимумом плотности — KDE с робастным бандвидом и предварительной винзоризацией даёт устойчивые пики, в то время как стандартная нормализация по среднему/σ и равношаговые бины «размывают» или создают артефакты из‑за выбросов. Короткое практическое резюме: - Для медианы: не группировать или использовать квантильные бины; центрировать по медиане и делить на MAD или IQR. - Для моды: использовать KDE с робастным бандвидом (IQR‑основанным) или адаптивные/равночастотные бины; при необходимости предварительно винзоризовать/обрезать выбросы.
1) Оценка медианы
- Группировка: лучше не равношаговые интервалы, а либо не группировать (взять порядковый статистик), либо применять равночастотные (квантильные) бины. При необходимости оценки медианы по гистограмме — использовать формулу групповой медианы
x~=L+N2−Ff w\displaystyle \tilde x = L + \frac{\frac{N}{2}-F}{f}\,wx~=L+f2N −F w,
где LLL — нижняя граница класса медианы, NNN — общий объём, FFF — накопленная частота до класса, fff — частота класса, www — ширина класса.
- Нормализация: центрировать по медиане и шкалировать робастно, напр.
MAD=median(∣xi−median(x)∣)\displaystyle \operatorname{MAD}=\operatorname{median}(|x_i-\operatorname{median}(x)|)MAD=median(∣xi −median(x)∣),
xi′=xi−median(x)MAD\displaystyle x'_i=\frac{x_i-\operatorname{median}(x)}{\operatorname{MAD}}xi′ =MADxi −median(x) (или делить на IQR=\mathrm{IQR}=IQR= Q3−Q1Q_{3}-Q_{1}Q3 −Q1 ). Это сохраняет положение медианы и не даёт выбросам сильного влияния.
Почему: медиана сама по себе робастна; равночастотная группировка и медианное масштабирование предотвращают смещение классов и шкалы из‑за экстремумов.
2) Оценка моды
- Группировка: для непрерывных данных предпочтительна оценка плотности (KDE) или адаптивные бины / равночастотный гистограммный подход (поисковая «модальная интервал»). Равношаговая гистограмма часто даёт ложные пики при выбросах.
- Выбор ширины/бандвида: использовать робастные правила, например модифицированную формулу Сильвермана
h=0.9min (σ,IQR1.34) n−1/5\displaystyle h=0.9\min\!\big(\sigma,\tfrac{\mathrm{IQR}}{1.34}\big)\,n^{-1/5}h=0.9min(σ,1.34IQR )n−1/5,
где IQR\mathrm{IQR}IQR обеспечивает робастность против выбросов.
- Нормализация/предобработка: перед оценкой плотности полезно выполнить винзоризацию или лёгкую обрезку (trim/winsorize) экстремумов и/или центрировать по медиане и шкалировать по IQR/MAD. Для положительных сильно скошенных данных может помочь лог‑трансформация.
Почему: мода определяется максимумом плотности — KDE с робастным бандвидом и предварительной винзоризацией даёт устойчивые пики, в то время как стандартная нормализация по среднему/σ и равношаговые бины «размывают» или создают артефакты из‑за выбросов.
Короткое практическое резюме:
- Для медианы: не группировать или использовать квантильные бины; центрировать по медиане и делить на MAD или IQR.
- Для моды: использовать KDE с робастным бандвидом (IQR‑основанным) или адаптивные/равночастотные бины; при необходимости предварительно винзоризовать/обрезать выбросы.