У вас несбалансированный датасет для классификации заболевания (0.5% положительных), предложите набор техник (предобработка, алгоритмы, метрики оценки) для построения и корректной валидации модели, а также объясните, почему простая accuracy здесь вводит в заблуждение
Предыдущий
вопрос Следующий
вопрос

Question

У вас несбалансированный датасет для классификации заболевания (0.5% положительных), предложите набор техник (предобработка, алгоритмы, метрики оценки) для построения и корректной валидации модели, а также объясните, почему простая accuracy здесь вводит в заблуждение
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

У вас несбалансирова...

eva

21 Ноя в 10:47

2 +2

0

Helper · Answer 1

Коротко и по делу — набор приёмов по предобработке, выбору алгоритмов, валидации и метрикам для датасета с долей положительных

0.5%0.5\%

, и почему accuracy некорректна.
1) Предобработка / балансировка
- Взвешивание классов: задавать веса примерам положительного класса в loss или параметрах модели (например,

class\_weight

или

scale\_pos\_weight

).
- Умный оверсэмплинг на трейне: SMOTE / ADASYN / их вариации (Borderline-SMOTE), но выполнять только внутри обучающей фолды (чтобы избежать утечки).
- Контролируемый даунсемплинг минорного количества отрицательных примеров (можно несколько раз, чтобы сохранить информацию) или комбинировать с ансамблями.
- Генерация синтетических признаков и тщательная очистка выбросов; нормализация/стандартизация по фолдам.
- Использовать sample weights вместо жёсткого ресэмплинга, если важна сохранность плотности классов.
2) Алгоритмы и подходы
- Модели с поддержкой взвешивания/стоимостей: Logistic Regression с

class\_weight

, XGBoost/LightGBM с

scale\_pos\_weight

/

is\_unbalance

.
- Кост-функции: focal loss для нейросетей или явная cost-sensitive оптимизация.
- Ансамбли: Balanced Bagging, EasyEnsemble (несколько даунсемплов отрицательных + ансамбль), стохастические бустинги.
- Альтернативы: one-class / anomaly detection при очень малом числе положительных.
- Калибровка вероятностей: Platt scaling, isotonic regression.
3) Метрики оценки (какие отчетливо использовать)
- Precision (точность):

Precision=TPTP+FPPrecision=\dfrac{TP}{TP+FP}

.
- Recall / Sensitivity (полнота):

Recall=TPTP+FNRecall=\dfrac{TP}{TP+FN}

.
- F1-score (гармоническое среднее):

F1=2⋅Precision⋅RecallPrecision+RecallF1=2\cdot\dfrac{Precision\cdot Recall}{Precision+Recall}

.
- Specificity:

Specificity=TNTN+FPSpecificity=\dfrac{TN}{TN+FP}

.
- Matthews Correlation Coefficient (MCC) — устойчив для несбалансированных классов.
- PR-AUC (Area under Precision-Recall curve) — предпочтительнее AUROC при сильном дисбалансе.
- AUROC полезен, но может вводить в заблуждение при редком позитиве; дополнительно используйте Precision@k / Recall@k и Lift.
- Калибровка: Brier score; калиброванные вероятности важны для принятия решений.
- Отчёт по confusion matrix и показатели с доверительными интервалами (bootstrap).
4) Валидация и процесс оценки
- Стратифицированный k-fold CV (с сохранением доли позитивных в фолдах). Для редкого класса полезно увеличить

k

(например,

k = 10

) или повторить CV.
- Если данные временные — применять time-series split (не перемешивать по времени).
- Если есть группы/пациенты — Grouped CV, чтобы не было утечки между train/test.
- Никогда не делать ресэмплинг (oversample/SMOTE) до разбиения; делать внутри каждой обучающей фолды отдельно.
- Отдельный удерживаемый тестовый набор с реальной популяцией (реальная предрасположенность

0.5%0.5\%

) для финальной оценки.
- Использовать nested CV для подбора гиперпараметров, чтобы избежать оптимизма.
- Для редкого класса полезно оценивать статистическую значимость/CI через bootstrap для показателей (precision/recall).
5) Практические рекомендации по порогу и затратам
- Выбирать порог не по максимальной accuracy, а по бизнес-метрике (баланс false negatives и false positives) или минимизации ожидаемой стоимости с заданной матрицей потерь.
- Рассчитать порог по precision-recall trade-off или оптимизировать Recall при заданном минимальном Precision (или наоборот).
6) Почему accuracy вводит в заблуждение
- При доле позитивных

0.5%0.5\%

тривиальный классификатор, всегда предсказывающий отрицательный, даст accuracy примерно

99.5%99.5\%

: пример — при

10{,}000

наблюдениях, положительных

50

, отрицательных

9{,}950

, accuracy

=995010000=0.995=\dfrac{9950}{10000}=0.995

. Это высокое значение не отражает полной неспособности обнаружить положительные случаи (Recall

= 0

, Precision не определена/нулевая).
- Accuracy игнорирует распределение ошибок между классами; при редком позитиве основная задача — находить редкие события, а не правильно маркировать большинство отрицательных.
Кратко: используйте взвешивание/cost-sensitive методы, аккуратный ресэмплинг внутри фолдов, модели/ансамбли, метрики, ориентированные на редкие классы (PR-AUC, Precision/Recall, F1, MCC), строгую факторную/стратифицированную валидацию и пороговую оптимизацию на основе бизнес-стоимости.

Другие вопросы eva

Другие вопросы
eva