Дан несбалансированный набор данных с 1% положительных классов. Приведите стратегии предобработки, обучения и оценки (подбор метрик, ресемплинг, порог, кросс-валидация, штрафные функции), объясните, почему простая точность может ввести в заблуждение, и предложите конкретный план проверки модели в продакшене
Предыдущий
вопрос Следующий
вопрос

при нулевом захвате позитивов. Это не отражает важности ошибок типа FN и FP при редких классах.
2) Метрики (что выбирать и почему)
- Обязательные: precision

Precision=TPTP+FP\displaystyle \mathrm{Precision}=\frac{TP}{TP+FP}

, recall (sensitivity)

Recall=TPTP+FN\displaystyle \mathrm{Recall}=\frac{TP}{TP+FN}

.
- Комбинации:

F_1

(гармоническое среднее), но полезнее выбирать целевую метрику в соответствии с бизнес-стоимостью ошибок.
- Для ранжирования: PR-AUC (area under Precision–Recall) — более информативна при сильном дисбалансе, ROC-AUC — полезна, но может быть оптимистична.
- Дополнительно: precision@k / lift@k (важно, если кормят limited review budget), MCC (Matthews corr.), confusion matrix, и бизнес-ориентированная ожидаемая стоимость

E[C]=FP⋅cFP+FN⋅cFN\displaystyle E[C]=FP\cdot c_{FP}+FN\cdot c_{FN}

.
3) Предобработка данных
- Удалить дубли, корректно обработать пропуски, нормализовать признаки.
- Убедиться в отсутствии утечки целевой метки (target leakage).
- Баланс: не модифицировать валидационные/тестовые наборы — они должны отражать реальные 1%.
- Стратегия признаков: дополнительные признаки, агрегаты и временные фичи повышают separability для редкого класса.
- Разделение: если данные временные — использовать временные сплиты (time-based split), иначе stratified split по метке.
4) Ресемплинг (офлайн и онлайн)
- Офлайн/тренировка: варианты — (а) частичная undersampling большинства (сохранять разнообразие), (б) oversampling меньшинства: SMOTE/variants (Borderline-SMOTE, SVMSMOTE) — осторожно с синтетикой и leakage; (в) комбинированный: SMOTE + Tomek/ENN; (г) кластерный undersampling (удалять похожие отрицательные).
- В батчах для градиентного обучения: stratified mini-batches или oversample минорити внутри батча, чтобы градиент видел положительные примеры чаще.
- Альтернатива: importance sampling с весами на сэмплах.
5) Обучение и штрафные функции
- Class-weighted loss: взвесить классы по инверсу частоты (например, в BCE/CE) — реализуемо во многих фреймворках.
- Focal loss:

Lfocal=−α(1−pt)γlog⁡(pt)\displaystyle L_{focal} = -\alpha (1-p_t)^\gamma \log(p_t)

— уменьшает вклад хорошо классифицированных примеров, полезно при сильном дисбалансе; рекомендую

γ∈[1,3]\gamma\in[1,3]

.
- Оптимизация под cost-sensitive цель: минимизация эмпирического ожидания затрат

E [C]

при заданных

c_{FP}, c_{FN}

.
- Ensembles: градиентные бустинги + калибровка вероятностей часто дают сильные результаты.
6) Каллибровка вероятностей и подбор порога
- Модель возвращает вероятность

p(pos)p(\text{pos})

. Калибруйте (Platt scaling, isotonic) на валидации.
- Подбор порога: не брать 0.5 по-умолчанию. Оптимизировать порог на валидационной выборке по выбранной метрике (max F1, max recall при ограничении FP, минимизация

E [C]

, precision@k и т.д.). Формула отслеживания: выбрать

τ\tau

такое, что цель (например recall

≥R0\ge R_0

и precision максимальна) достигается.
- Если есть бизнес-стоимости: выбрать

τ=arg⁡min⁡τ(FP(τ)⋅cFP+FN(τ)⋅cFN)\tau=\arg\min_\tau (FP(\tau)\cdot c_{FP}+FN(\tau)\cdot c_{FN})

.
7) Кросс-валидация и валидация
- Использовать stratified k-fold (обычно

k = 5

или

10

), при временных данных — temporal / rolling-window CV.
- Повторяемость: повторенный stratified CV или bootstrap для оценки разброса метрик и доверительных интервалов.
- Не использовать ресемплированные обучающие подпоследовательности для оценки финальной производительности — валидация всегда на оригинальном (имбалансном) распределении.
8) Конкретная тренировочная конфигурация (пример)
- Подготовка: train/val/test — все отражают 1% prevalence.
- Обучение: использовать class_weight или focal loss (

γ=2\gamma=2

) + stratified batches + небольшое undersampling 1:3 (pos:neg) в батчах.
- Модель: GBM (LightGBM/CatBoost/XGBoost) или NN с calibrated output.
- Подбор гиперпараметров: оптимизировать PR-AUC и precision@k на валидации; контролировать recall.
- Оценка: final metrics — PR-AUC, precision@k (k = budget), recall@target_precision, CI via bootstrap.
9) Проверка в продакшене — конкретный план (по шагам)
- 1) Shadow mode (offline-online hybrid): запуск модели параллельно продакшен-продукту, фиксировать предсказания, не влиять на трафик, в течение 2–4 недель собирать поведение, метрики и реальные лейблы (если delay).
- 2) Canary rollout: 1–5% трафика с мониторингом метрик в реальном времени (precision, recall proxy, false alarm rate), сравнение с контрольной системой.
- 3) A/B тест (если применимо): использовать бизнес-метрики (conversion, cost saved), run-time 2–4 недели или пока статистическая мощность достаточна.
- 4) Полный релиз + мониторинг: ежедневные/почасовые дашборды: precision, recall, TP/FP/FN counts, PR-AUC (реал-тайм), latency, rate of positive predictions.
- 5) Датчики дрейфа и отклонений: PSI (population stability index), feature drift (KS-test), data schema changes, модельный дрейф (метрики vs baseline). Триггеры: существенное падение precision/recall или PSI>threshold.
- 6) Обратная связь и человек в петле: для неопределённых случаев — human review, использовать эти метки для непрерывного обучения.
- 7) Обновления и ретренинг: расписание (например, ежемесячно) + триггерный ретренинг по накоплению N новых помеченных примеров или при падении метрик.
- 8) Безопасность: «kill switch», ограничение скорости (rate limit) для действий на основе предсказаний, логирование для аудита.
10) Практические советы и предостережения
- Всегда оценивать на несмонтированном распределении (реальное prevalence).
- Документировать бизнес-стоимости ошибок и переводить их в метрики/порог.
- Следить за leakage при генерации синтетики.
- Для редкого класса часто выгодней оптимизировать ranking (probabilities + human review top-k) вместо жёсткой бинарной автоматизации.
Если нужно, могу предложить конкретный pipeline с параметрами (SMOTE variant, focal loss

γ\gamma

, stratified k, метрика для threshold) под вашу задачу — укажите: доступные модели, временная природа данных и бизнес-стоимости FP/FN.

Другие вопросы eva

Другие вопросы
eva