Дан несбалансированный набор данных для классификации (1% положительных, 99% отрицательных): опишите полную стратегию подготовки данных, выбора метрик качества, методов борьбы с несбалансом (oversampling, undersampling, class weights, anomaly detection), а также схему валидации и пример псевдокода для оценки модели
Предыдущий
вопрос Следующий
вопрос

Question

Дан несбалансированный набор данных для классификации (1% положительных, 99% отрицательных): опишите полную стратегию подготовки данных, выбора метрик качества, методов борьбы с несбалансом (oversampling, undersampling, class weights, anomaly detection), а также схему валидации и пример псевдокода для оценки модели
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Дан несбалансированн...

eva

10 Окт в 13:31

6 +1

0

Helper · Answer 1

Ниже — практическая, пошаговая «полная» стратегия для работы с сильно несбалансированным набором для бинарной классификации $1$ . Включены подготовка данных, выбор метрик, набор методов борьбы с несбалансом $o v ers am pl in g, u n d ers am pl in g, c l a ss w e i g h t s, an o ma l y d e t ec t i o n$ , схема валидации и пример псевдокода для оценки модели.

1) Общая идея и принципы

Цель: оптимизировать модель под реальные бизнес-метрики

стоимость FN / FP, p rec i s i o n @ k, ранжированиеклиентовит . д .

, а не просто «максимизировать accuracy», которая бесполезна при 1% положительных.Избегать утечек данных

d a t a l e aka g e

: любые трансформации, подстраивающие данные под целевую переменную

включаяресемплинг

, выполнять внутри fold’ов валидации.Не изменять распределение валидационного и тестового наборов: ресемплинг применять только к тренировочным данным.Учитывать ограниченное количество позитивов при выборе схемы валидации

вкаждом f o l d ’ едолжнобытьдостаточноечислоположительныхпримеров

.

2) Подготовка данных $p i p e l in e$

Первичная очистка:
Удалить/исправить очевидные ошибки, дубликаты.Проверить таргет и метки

вредкихсобытияхчастоошибкивразметке

.Feature engineering:
Создать агрегаты, интервалы, взаимодействия, признаки времени.Для категорий: target encoding с регуляризацией

новыполнятьв C V

или частотное кодирование.Обработка пропусков:
Специфично: заполнение медианой/картой/индикатором NA.Масштабирование и преобразования:
Для моделей, чувствительных к масштабу — StandardScaler/RobustScaler в pipeline.Feature selection:
Ограничить размер модели, особенно при малом числе позитивов

чтобыснизитьпереобучение

.Баланс рассмотрения классов: сохраняйте оригинальный тестовый набор для финальной оценки.

3) Выбор метрик качества

Основные — предпочтительнее над accuracy:
Precision, Recall

S e n s i t i v i t y

, F1-score.Precision-Recall AUC

A v er a g e P rec i s i o n

— ключевая метрика при редких позитивных событиях.Precision@k / recall@k / lift@k — когда у вас бизнес-ограничения на количество действий

напр ., топ - 100 клиентов

.ROC AUC — полезен, но может быть обманчив при 1% positive; использовать как дополнительную.Matthews Correlation Coefficient

MCC

— полезен при несбалансированности.Specificity

T r u e N e g a t i v e R a t e

— если важны FP.Brier score / calibration curve — если важна корректная вероятность.Если есть явные бизнес-штрафы: используйте ожидаемую стоимость

e x p ec t e d cos t

и оптимизируйте порог по ней.

4) Методы борьбы с несбалансом — что и когда использовать
Общие советы:

Пробуйте несколько подходов и сравнивайте по релевантным метрикам на валидации.Комбинируйте методы

успешноработаеткомбинация c l a ss w e i g h t s + легкий o v ers am pl in g или SMOTEENN

.Всегда выполнять ресемплинг только на тренировочной части fold’а.

4.1 Class weights / cost-sensitive learning

Описание: увеличить вес ошибки на положительном классе в функции потерь

сколькоразважнее FN чем FP

.Где эффективно: деревья

XGBoost/LightGBM имеют scale_pos_weight

, логистическая регрессия, нейросети

в l oss передается w e i g h t

.Плюсы: не изменяет число обучающих примеров; простая реализация; хороша когда признаки информативны.Минусы: может не справиться при чрезвычайно редких позитивных и/или неоднородных примерах.

4.2 Oversampling $повтор / генерация$

Random Oversampling: просто дублирование позитивных примеров.
Плюсы: просто, сохраняет информацию.Минусы: риск переобучения

моделизапоминаютдубликаты

.SMOTE / Borderline-SMOTE / ADASYN: синтетические примеры средней линии между позитивами.
Плюсы: уменьшает переобучение по сравнению с простым дублированием.Минусы: может создавать «неправдоподобные» примеры, особенно при малом числе позитивов и многоразмерных/категориальных признаках.GAN/CTGAN/Tabular augmentation: для табличных данных, если много непрерывных данных.
Плюсы: потенциально более реалистичные синтетические примеры.Минусы: сложность, нестабильность, риск синтеза артефактов.Практика: SMOTE + удаление ближайших негативных

SMOTEENN

часто даёт хороший компромисс.

4.3 Undersampling $уменьшениенегативов$

Random undersampling: удаление части негативных примеров.
Плюсы: ускоряет обучение, уменьшает дисбаланс.Минусы: возможна потеря важной информации; нежелательно при малом общем объёме данных.Informed undersampling: ClusterCentroids, Tomek links, EditedNearestNeighbours

ENN

.
Плюсы: удаляют "шумные" негативы, сохраняют разнообразие.Практика: применимо, если у вас много негативных и вычислительные ограничения. Часто сочетают undersampling с oversampling.

4.4 Combined techniques

SMOTETomek, SMOTEENN — объединяют SMOTE + очистку

T o m e k / ENN

, часто даёт улучшение.Balanced bagging ensembles: обучать много моделей на разных подвыборках с балансировкой

ba l an ce d r an d o m f ores t

.Простое правило: если мало позитивов (<100), осторожнее с синтетикой; можно предпочтеть class_weights + ансамбли + threshold tuning.

4.5 Anomaly / outlier detection $o n e - c l a ss$

Подход: рассматривать позитивы как аномалии и обучать метод «one-class» на негативных

илинаоборот

.Методы: Isolation Forest, One-Class SVM, Autoencoder

реконструкция

.Применимость: когда нет/почти нет размеченных позитивов либо позитивы сильно отличаются от негативов.Плюсы: не требует сбалансированных меток.Минусы: хуже, если позитивы разнообразны и не единообразно «аномальны».

4.6 Специальные loss-функции

Focal Loss: уменьшает вклад легко классифицируемых негативов — полезно при extreme imbalance, для нейросетей.Custom cost-sensitive loss: оптимизировать ожидаемую стоимость.

5) Схема валидации и подбор гиперпараметров

Стратегия:
Разделите данные на train + hold-out test

например, 80/20

stratified по классу. Hold-out идёт только для финальной оценки.На train делайте StratifiedKFold

k — такое, чтобывкаждом f o l d ’ ебылоадекватноеколичествопозитивов

. Правило: минимум ~5–10 положительных в каждом fold’е, если возможно. Если мало позитивов, используйте Leave-One-Out по позитивам или repeated-stratified CV с осторожностью.В рамках каждого train_fold:
Выполнить трансформации, импутацию, кодирование, масштабирование

fit на train_fold

.Применить ресемплинг

o v ers am pl e / u n d ers am pl e

только к тренировочной части fold’а.Обучить модель на преобразованных данных.Оценить модель на validation_fold без ресемплинга

оригинальноераспределение

.Для выбора гиперпараметров используйте nested CV или GridSearchCV/RandomizedSearchCV с inner fold’ами; при ограниченных данных можно использовать Bayesian Optimization с CV.Для threshold tuning: после обучения модели на train, получить предсказания вероятностей на validation set

s

и выбрать порог, оптимизирующий выбранную бизнес-метрику

например, maximize F_beta, maximize expected_utility, precision@k

.Повторите процесс несколько раз

re p e a t e d s t r a t i f i e d k - f o l d

чтобы оценить стабильность.

6) Как сравнивать подходы $порядокдействий$

Baseline: модель без ресемплинга + class_weights

есливозможно

. Оценить baseline по PR-AUC, precision@k, recall.Попробовать различные ресемплинги

r an d o m o v ers am pl e, SMOTE, u n d ers am pl e, SMOTEENN

. Каждый вариант — в pipeline и только внутри CV.Попробовать class_weights / focal loss / scale_pos_weight.Попробовать ансамбли / balanced bagging / gradient boosting с весами.Попробовать anomaly detection, если нет достаточного числа позитивов.Для каждого подхода: сохранить метрики на валидационных fold’ах и окончательный тест на hold-out.Выбрать модель по бизнес-метрике, затем проанализировать ошибки

f a l se p os i t i v es / f a l se n e g a t i v es

, и провести calibration

Pl a tt sc a l in g, i so t o ni c

при необходимости.

7) Практические советы и подводные камни

Ни в коем случае не ресемплируйте весь датасет до разбиения на train/val/test.Если используете таргет-энкодинг, защищайте его через CV

спомощьюрегуляризации / смущения

и не leak’айте статистики из валидации.Для очень редких событий соберите больше данных

фокуснамаркировке

— лучший путь, чем агрессивный ресемплинг.Мониторьте calibration: вероятности могут быть некорректны после oversampling.Визуализируйте precision-recall curve и lift chart, а не только одну метрику.Для production — фиксируйте порог и оценивайте на hold-out и в настоящем трафике, т.к. prevalence может меняться.

8) Пример псевдокода $P y t h o n - l ik e, sc iki t - l e a r n / imba l an ce d - l e a r n стилизованно$ $Цель : правильный p i p e l in e сресемплингомвнутри C V ивычислениемрелевантныхметрик$

# Предположим: X, y — входные данные; positive label = 1
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_recall_curve, average_precision_score, precision_score, recall_score, f1_score, roc_auc_score, matthews_corrcoef
K = 5
skf = StratifiedKFold

n_splits=K, shuffle=True, random_state=42

metrics_per_fold =

for train_idx, val_idx in skf.split

X, y

:
X_train, X_val = X

train_idx

, X

val_idx

y_train, y_val = y

train_idx

, y

val_idx

# pipeline: сначала трансформации, потом ресемплинг, потом модель
# Важно: SMOTE применяется ТОЛЬКО к тренировочным данным
preproc = Pipeline([
('scaler', StandardScaler()) # fit on X_train only
])
X_train_p = preproc.fit_transform

X_train

X_val_p = preproc.transform

X_val

# apply resampling to training set only
sm = SMOTE

sampling_strategy=0.1, random_state=42

# пример: увеличить positives до 10%
X_train_res, y_train_res = sm.fit_resample

X_train_p, y_train

# train model with class weights as alternative
model = LogisticRegression

class_weight='balanced', solver='liblinear'

model.fit

X_train_res, y_train_res

# predict probabilities on validation

n ores am pl in g

y_prob = model.predict_proba

X_val_p

:, 1

y_pred_default = (y_prob >= 0.5).astype

in t

# compute metrics
ap = average_precision_score

y_val, y_prob

# PR-AUC
roc = roc_auc_score

y_val, y_prob

prec = precision_score

y_val, y_pred_default

rec = recall_score

y_val, y_pred_default

f1 = f1_score

y_val, y_pred_default

mcc = matthews_corrcoef

y_val, y_pred_default

# threshold tuning example: choose threshold that maximizes F1 on validation
precisions, recalls, thresholds = precision_recall_curve

y_val, y_prob

f1s = 2 * precisions * recalls /

p rec i s i o n s + rec a ll s + 1 e - 12

best_idx = argmax

f 1 s

best_threshold = thresholds

best_idx

if best_idx < len

t h res h o l d s

else 0.5
# evaluate at best_threshold
y_pred_best = (y_prob >= best_threshold).astype

in t

prec_best = precision_score

y_val, y_pred_best

rec_best = recall_score

y_val, y_pred_best

f1_best = f1_score

y_val, y_pred_best

metrics_per_fold.append

{ 'ap': ap, 'roc': roc, 'prec_default': prec, 'rec_default': rec, 'f1_default': f1, 'best_threshold': best_threshold, 'prec_best': prec_best, 'rec_best': rec_best, 'f1_best': f1_best, 'mcc': mcc }

# Aggregate results across folds

m e an, s t d

# Затем финальная тренировка на всем train

свыбраннойстратегиейипорогом

, и итоговый тест на hold-out:
# - train pipeline on full train set with chosen resampling and hyperparams
# - predict on hold-out test

n ores am pl in g

# - report the same metrics + business metrics

9) Пример расширенной схемы $поискгиперпараметров + n es t e d C V$

Outer StratifiedKFold для оценки обобщающей способности.Inner StratifiedKFold для подбора гиперпараметров

g r i d / r an d o m se a rc h

, при этом все ресемплинги и трансформации выполняются в inner fold’ах.Для каждого outer fold фиксируем лучший набор гиперпараметров и оцениваем на outer validation.

10) Что делать при очень малом числе позитивов (например, <50)

Предпочтительнее: собрать больше меток

разметка

, специализированные эксперименты.Попробовать one-class / anomaly detection.Использовать сильный простой модельный алгоритм

например, логистическаярегрессиясрегуляризацией

и class_weights.Использовать ручной fe engineering, rule-based подходы и затем hybrid

r u l es + M L

.

11) Контроль качества и интерпретация

Постройте confusion matrix, lift chart, PR-curve.Проанализируйте FP

возможноонинетакиеужи « плохие »

и FN

почему mi sse d

.Calibration: если будете использовать вероятности, то калибруйте модель на валидации

Pl a tt / i so t o ni c

.

12) Резюме рекомендаций

Начните с baseline: class_weights + простая модель; оцените PR-AUC, precision@k.Экспериментируйте с SMOTE / SMOTEENN / undersampling, но только внутри CV.При большом объёме негативов можно undersample, при малом числе позитивов осторожно с синтетикой.Если бизнес требует вероятностей — калибруйте модель.Используйте stratified CV; при temporal data — time-based split.В финале оптимизируйте порог по бизнес-метрике

e x p ec t e d cos t, p rec i s i o n @ k или Fβ

.

Если хотите, могу:

Составить конкретный pipeline и пример кода

скептично : p ro d u c t i o n - re a d y

для вашей конкретной модели

XGB oos t / L i g h tGBM / NN

и типа данных

табличные / текст / изображения

.Помочь подобрать конкретные гиперпараметры и стратегию ресемплинга, исходя из размера датасета

укажите N ичислопозитивов

.

Другие вопросы eva

Другие вопросы
eva