Дан несбалансированный датасет для задачи классификации резюме по релевантности вакансии: 95% отрицательных и 5% положительных примеров опишите набор методов для борьбы с дисбалансом на уровне данных и модели, критерии выбора метрик качества (precision, recall, F1, AUC, PR‑кривая), подходы к оценке риска систематической дискриминации и стратегии их проверки
Ниже — компактный, практичный набор методов и проверок для вашей задачи резюме:95резюме: 95% negative / 5% positiveрезюме:95. Разобью на: 111 методы на уровне данных, 222 методы на уровне модели, 333 выбор и интерпретация метрик, 444 оценка риска систематической дискриминации и 555 практические стратегии проверки и мониторинга.
Методы на уровне данных
РесэмплингRandom undersampling отрицательного класса — быстро и просто, но теряете информацию и рискуете переобучиться на небольшом наборе положительных/оставшихся отрицательных. Подходит как baseline.Random oversampling положительного класса — копирование редких примеров; простое, но увеличивает риск переобучения.SMOTE/варианты SMOTE,borderline−SMOTE,ADASYNSMOTE, borderline-SMOTE, ADASYNSMOTE,borderline−SMOTE,ADASYN — генерируют синтетические положительные примеры в признаковом пространстве; полезно для табличных признаков, осторожно с текстом нужнавекторизациянужна векторизациянужнавекторизация.Генерация данных для текстов: back-translation, synonym replacement, paraphrasing, условные генеративные модели GPT−тип,VAE,GANGPT-тип, VAE, GANGPT−тип,VAE,GAN — создавать дополнительные резюме положительных примеров; контролировать качество и метки.Стратифицированные подходы: комбинировать undersampling больших классов и oversampling малых hybridhybridhybrid.Балансировка при сборе и разметкеАктивная выборка activelearningactive learningactivelearning: выбирать примеры, которые модель считает неопределёнными, и разметка их человеком — ускоряет сбор "информативных" положительных примеров.Целевая разметка: собрать дополнительные положительные примеры целевойресёрч/краудсорсингцелевой ресёрч/краудсорсингцелевойресёрч/краудсорсинг.Учет временных и когортых сдвиговСохраняйте временные метки, чтобы не смешивать когорты при обучении/тесте; при переобучении на исторические данные риск усиления устаревших паттернов.Обогащение признаковДобавьте полезные признаки экстракциянавыков,образование,релевантныеключевыесловаэкстракция навыков, образование, релевантные ключевые словаэкстракциянавыков,образование,релевантныеключевыеслова, чтобы сделать классы более разделимыми — эффективнее, чем простое ресэмплинг.
Методы на уровне модели
Взвешивание классов / cost-sensitive learningЗадайте веса классов в функции потерь например,вес inverseclassfrequencyиливесапобизнес‑стоимостиFNvsFPнапример, вес ~ inverse class frequency или веса по бизнес‑стоимости FN vs FPнапример,весinverseclassfrequencyиливесапобизнес‑стоимостиFNvsFP. Поддерживается большинством библиотек sklearn,XGBoost,LightGBMsklearn, XGBoost, LightGBMsklearn,XGBoost,LightGBM.Специальные loss-функцииFocal loss чтобыфокусироватьсянаредких/трудныхпримерахчтобы фокусироваться на редких/трудных примерахчтобыфокусироватьсянаредких/трудныхпримерах; оптимизация для имбаланса.Алгоритмы для имбалансаBoosting/ensemble LightGBM/XGBoost/RandomForestLightGBM/XGBoost/RandomForestLightGBM/XGBoost/RandomForest с параметрами для imbalance scaleposweight,classweightscale_pos_weight, class_weightscaleposweight,classweight.Balanced bagging/ensemble over undersampled subsets — уменьшает потерю информации при undersampling.Постобработка и порогиКалибровка вероятностей Plattscaling,isotonicPlatt scaling, isotonicPlattscaling,isotonic — важна, если нужен реальный риск/score.Подбор порога на валидации по бизнес‑метрике maximizeexpectedutility,Fβ,precision@kит.п.maximize expected utility, Fβ, precision@k и т. п.maximizeexpectedutility,Fβ,precision@kит.п..Если задача — ранжирование кандидатов, рассмотреть обучение ранжирующим методом pairwise/listwisepairwise/listwisepairwise/listwise и метрики top‑k.Fairness-aware методыВстраивание ограничений справедливости в оптимизацию constrainedoptimizationconstrained optimizationconstrainedoptimization, adversarial debiasing, post-processing Hardtetal.equalizedoddsHardt et al. equalized oddsHardtetal.equalizedodds — подробнее в разделе о дискриминации.
Критерии выбора метрик качества Ключевые замечания: при сильном дисбалансе ROC‑AUC может быть оптимистичной; PR‑кривая и метрики, ориентированные на редкий класс, информативнее.
Precision точностьточностьточность: доля истинно релевантных среди отобранных. Важна, если каждая отборная карточка требует «человеческого времени» хочетсявысокуюточностьхочется высокую точностьхочетсявысокуюточность.Recall полнотаполнотаполнота: доля найденных релевантных среди всех релевантных. Важна, если пропуск релевантного кандидата дорогостоящ — потеря таланта.F1: гармоническое среднее precision и recall; полезна, если важны оба в равной степени.Fβ: позволяет задать приоритет (β>1 — ставим акцент на recall; β<1 — на precision). Выбирать β по бизнес-стоимости FP vs FN.PR‑кривая и Average Precision APAPAP: дают сводную оценку поведения при разных порогах для редкого класса — гораздо информативнее, чем ROC‑AUC при 95/5.ROC‑AUC: полезна для общего порядка качества модели, но может быть вводящей в заблуждение при сильном дисбалансе многоTNделаетеёвысокойдажеприплохойдетекцииредкихклассовмного TN делает её высокой даже при плохой детекции редких классовмногоTNделаетеёвысокойдажеприплохойдетекцииредкихклассов.Precision@k, Recall@k, Lift, Gain: критичны если система используется как ранжер и реальный рабочий процесс смотрит только top‑k кандидатов.Calibration metrics: Brier score, calibration plots — важны если вы используете вероятности для принятия решений или комбинируете с cost‑sensitive правилами.CI/статистика: всегда рассчитывайте интервалы доверия bootstrapbootstrapbootstrap для метрик и проверяйте статистическую значимость улучшений.
Рекомендация: основной набор для мониторинга и выбора модели — PR‑AUC илиAPили APилиAP, precision@k и recall илиFβ,выбранныйпобизнес‑приоритетуили Fβ, выбранный по бизнес‑приоритетуилиFβ,выбранныйпобизнес‑приоритету, дополнительно calibration metrics и ROC‑AUC как вспомогательная информация.
Оценка риска систематической дискриминации Риски: данные резюме и метки могут отражать исторические предубеждения пол,возраст,этничность,география,образованиепол, возраст, этничность, география, образованиепол,возраст,этничность,география,образование. Модель может: воспроизводить имеющуюся предвзятость biasreproductionbias reproductionbiasreproduction;усиливать её biasamplificationbias amplificationbiasamplification;использовать прокси‑фичи имена,хобби,почтовыекодыимена, хобби, почтовые кодыимена,хобби,почтовыекоды для реконструкции защищённых атрибутов.
Подходы к оценке риска:
Проведите аналитическую разведку EDAEDAEDA по защищённым группам: Разбейте данные по группам пол,возрастныекогорты,место,образованиепол, возрастные когорты, место, образованиепол,возрастныекогорты,место,образование и сравните base rates доляположительныхдоля положительныхдоляположительных, precision/recall/FN/FP по группам.Посмотрите на разницу ошибок FNR/FPRFNR/FPRFNR/FPR между группами — ключевые показатели несправедливости.Формализованные fairness‑метрики выберитевзависимостиотзадачивыберите в зависимости от задачивыберитевзависимостиотзадачи: Statistical parity difference / demographic parity: Ppred=1∣group=Apred=1 | group=Apred=1∣group=A vs Ppred=1∣group=Bpred=1 | group=Bpred=1∣group=B.Disparate impact = ratio Ppred=1∣Apred=1|Apred=1∣A/Ppred=1∣Bpred=1|Bpred=1∣B.Equal opportunity: сравнение TPR recallrecallrecall между группами.Equalized odds: сравнение и TPR, и FPR.Predictive parity: precision между группами.Calibration within groups: модель откалибрована отдельно по группам?Explainability / feature reliance: SHAP/Integrated Gradients/feature importance по подгруппам — смотрите, на какие признаки модель опирается для разных групп наличиеадреса,имя,gapвопытеит.д.наличие адреса, имя, gap в опыте и т.д.наличиеадреса,имя,gapвопытеит.д..Проверьте, не является ли имя/почтовый код/университет явным или скрытым прокси. Попробуйте отключать/маскировать такие признаки и смотреть, как меняются метрики и fairness.Counterfactual / perturbation testing: Перегенерируйте резюме с изменением защищённого атрибута сменаимени,гендерныхмаркеров,фото/адресовсмена имени, гендерных маркеров, фото/адресовсменаимени,гендерныхмаркеров,фото/адресов и проверьте изменение предсказания. Это показывает, использует ли модель признаки, связанные с группой.Causal / bias attribution есливозможноесли возможноесливозможно: Анализ причинно-следственных связей, чтобы понять, откуда метки идут и какие признаки отражают дискриминацию в исходных метках.Разделите источники предвзятости: Label bias разметкаисторическипредвзятаразметка исторически предвзятаразметкаисторическипредвзята vs sample bias различнаяпредставленностьгруппразличная представленность группразличнаяпредставленностьгрупп vs measurement bias неодинаковыепризнакинеодинаковые признакинеодинаковыепризнаки.Business impact assessment: Моделируйте экономические/операционные последствия различий например,сколькокандидатоводнойгруппыпропустятнапример, сколько кандидатов одной группы пропустятнапример,сколькокандидатоводнойгруппыпропустят — это помогает принять компромиссы.
Стратегии проверки, валидации и мониторинга
Валидация и CVИспользуйте стратифицированный k‑fold по целевому классу; при проверке fairness делайте stratify по сочетанию class,protectedgroupclass, protected_groupclass,protectedgroup если выборка позволяет.Не смешивайте когорты по времени. Для production — time‑split validation.Тесты на устойчивостьPerturbation tests: измените имена/города/университет в резюме и сравните предсказания.Adversarial testing: найдите примеры, где небольшие изменения меняют предсказание.A/B и канареечные релизыПеред массовым деплоем — проводить A/B тесты с человеческим оценщиком HRHRHR и измерять качество и fairness в реальных процессах.Использовать shadow mode продакшна: модель делает предсказания, но решения остаются за людьми; логируйте предсказания и результаты.Мониторинг после деплояОтслеживайте drift в input distribution, predicted score distribution, и метрики по группам TPR,FPR,precisionTPR, FPR, precisionTPR,FPR,precision периодически.Настройте алерты при резких изменениях и при достижении порогов неравенства.Постобработка для смягчения дискриминацииЕсли обнаружены различия, возможны меры: скорректировать пороги по подгруппам thresholdingthresholdingthresholding — простая, но юридически и бизнес‑опасная мера; методы постобработки для equalized odds HardtHardtHardt, reweighing (Kamiran & Calders), reject option AIF360AIF360AIF360.Оцените побочные эффекты trade‑offмеждуoverallperformanceиfairnesstrade‑off между overall performance и fairnesstrade‑offмеждуoverallperformanceиfairness.Документация и людиДокументируйте: датасеты, метрики, known limitations, decision log — критично для аудита.Включите HR/юристов/представителей групп в оценку рисков и критериев.Оценка статистической значимостиИспользуйте бутстрэп для CI метрик и тесты на различия между группами; не полагайтесь на point estimates.
Практический pipeline — пошаговый план 1) EDA: анализ class imbalance + разбивка по защищённым атрибутам; base rates. 2) Соберите больше релевантных примеров activelearning/targetedlabelingactive learning / targeted labelingactivelearning/targetedlabeling если возможно. 3) Экспериментально сравните: baseline + undersampling, oversampling, SMOTE длявекторныхпризнаковдля векторных признаковдлявекторныхпризнаков, class_weight, focal loss, ensembling. Для текстов — текст‑аугментации/генерация. 4) Метрики: на валидации смотрите PR‑AUC, precision@k, recall / Fβ которыйотражаетбизнес‑приоритеткоторый отражает бизнес‑приоритеткоторыйотражаетбизнес‑приоритет, calibration. Анализ по подгруппам. 5) Fairness testing: subgroup metrics, counterfactual perturbations, explainability. 6) Подбор порога по бизнес‑функции utilityutilityutility, с учетом различий по группам и возможной юридической оценки. 7) Shadow mode + A/B, мониторинг, периодические аудиты, логирование.
Короткие практические рекомендации
При 95/5 приоритетно: повысить recall позитивного класса без экстремального падения precision; оптимизируйте по PR‑AUC и precision@k.Собирайте/размечайте данные целенаправленно: больше положительных примеров даёт лучший эффект, чем только ресэмплинг.Всегда проверяйте метрики по подгруппам и делайте perturbation tests на имена/признаки.Логируйте и мониторьте после деплоя: bias и drift могут проявиться со временем.
Если нужно, могу:
предложить конкретный набор гиперпараметров/скриптов в sklearn / LightGBM / XGBoost для обработки imbalance;предложить чек‑лист для fairness‑аудита нарусскомна русскомнарусском;помочь составить план A/B теста и метрики для бизнес‑оценки FP vs FN в вашей компании.
Ниже — компактный, практичный набор методов и проверок для вашей задачи резюме:95резюме: 95% negative / 5% positiveрезюме:95. Разобью на: 111 методы на уровне данных, 222 методы на уровне модели, 333 выбор и интерпретация метрик, 444 оценка риска систематической дискриминации и 555 практические стратегии проверки и мониторинга.
Методы на уровне данных
РесэмплингRandom undersampling отрицательного класса — быстро и просто, но теряете информацию и рискуете переобучиться на небольшом наборе положительных/оставшихся отрицательных. Подходит как baseline.Random oversampling положительного класса — копирование редких примеров; простое, но увеличивает риск переобучения.SMOTE/варианты SMOTE,borderline−SMOTE,ADASYNSMOTE, borderline-SMOTE, ADASYNSMOTE,borderline−SMOTE,ADASYN — генерируют синтетические положительные примеры в признаковом пространстве; полезно для табличных признаков, осторожно с текстом нужнавекторизациянужна векторизациянужнавекторизация.Генерация данных для текстов: back-translation, synonym replacement, paraphrasing, условные генеративные модели GPT−тип,VAE,GANGPT-тип, VAE, GANGPT−тип,VAE,GAN — создавать дополнительные резюме положительных примеров; контролировать качество и метки.Стратифицированные подходы: комбинировать undersampling больших классов и oversampling малых hybridhybridhybrid.Балансировка при сборе и разметкеАктивная выборка activelearningactive learningactivelearning: выбирать примеры, которые модель считает неопределёнными, и разметка их человеком — ускоряет сбор "информативных" положительных примеров.Целевая разметка: собрать дополнительные положительные примеры целевойресёрч/краудсорсингцелевой ресёрч/краудсорсингцелевойресёрч/краудсорсинг.Учет временных и когортых сдвиговСохраняйте временные метки, чтобы не смешивать когорты при обучении/тесте; при переобучении на исторические данные риск усиления устаревших паттернов.Обогащение признаковДобавьте полезные признаки экстракциянавыков,образование,релевантныеключевыесловаэкстракция навыков, образование, релевантные ключевые словаэкстракциянавыков,образование,релевантныеключевыеслова, чтобы сделать классы более разделимыми — эффективнее, чем простое ресэмплинг.Методы на уровне модели
Взвешивание классов / cost-sensitive learningЗадайте веса классов в функции потерь например,вес inverseclassfrequencyиливесапобизнес‑стоимостиFNvsFPнапример, вес ~ inverse class frequency или веса по бизнес‑стоимости FN vs FPнапример,вес inverseclassfrequencyиливесапобизнес‑стоимостиFNvsFP. Поддерживается большинством библиотек sklearn,XGBoost,LightGBMsklearn, XGBoost, LightGBMsklearn,XGBoost,LightGBM.Специальные loss-функцииFocal loss чтобыфокусироватьсянаредких/трудныхпримерахчтобы фокусироваться на редких/трудных примерахчтобыфокусироватьсянаредких/трудныхпримерах; оптимизация для имбаланса.Алгоритмы для имбалансаBoosting/ensemble LightGBM/XGBoost/RandomForestLightGBM/XGBoost/RandomForestLightGBM/XGBoost/RandomForest с параметрами для imbalance scaleposweight,classweightscale_pos_weight, class_weightscalep osw eight,classw eight.Balanced bagging/ensemble over undersampled subsets — уменьшает потерю информации при undersampling.Постобработка и порогиКалибровка вероятностей Plattscaling,isotonicPlatt scaling, isotonicPlattscaling,isotonic — важна, если нужен реальный риск/score.Подбор порога на валидации по бизнес‑метрике maximizeexpectedutility,Fβ,precision@kит.п.maximize expected utility, Fβ, precision@k и т. п.maximizeexpectedutility,Fβ,precision@kит.п..Если задача — ранжирование кандидатов, рассмотреть обучение ранжирующим методом pairwise/listwisepairwise/listwisepairwise/listwise и метрики top‑k.Fairness-aware методыВстраивание ограничений справедливости в оптимизацию constrainedoptimizationconstrained optimizationconstrainedoptimization, adversarial debiasing, post-processing Hardtetal.equalizedoddsHardt et al. equalized oddsHardtetal.equalizedodds — подробнее в разделе о дискриминации.Критерии выбора метрик качества
Precision точностьточностьточность: доля истинно релевантных среди отобранных. Важна, если каждая отборная карточка требует «человеческого времени» хочетсявысокуюточностьхочется высокую точностьхочетсявысокуюточность.Recall полнотаполнотаполнота: доля найденных релевантных среди всех релевантных. Важна, если пропуск релевантного кандидата дорогостоящ — потеря таланта.F1: гармоническое среднее precision и recall; полезна, если важны оба в равной степени.Fβ: позволяет задать приоритет (β>1 — ставим акцент на recall; β<1 — на precision). Выбирать β по бизнес-стоимости FP vs FN.PR‑кривая и Average Precision APAPAP: дают сводную оценку поведения при разных порогах для редкого класса — гораздо информативнее, чем ROC‑AUC при 95/5.ROC‑AUC: полезна для общего порядка качества модели, но может быть вводящей в заблуждение при сильном дисбалансе многоTNделаетеёвысокойдажеприплохойдетекцииредкихклассовмного TN делает её высокой даже при плохой детекции редких классовмногоTNделаетеёвысокойдажеприплохойдетекцииредкихклассов.Precision@k, Recall@k, Lift, Gain: критичны если система используется как ранжер и реальный рабочий процесс смотрит только top‑k кандидатов.Calibration metrics: Brier score, calibration plots — важны если вы используете вероятности для принятия решений или комбинируете с cost‑sensitive правилами.CI/статистика: всегда рассчитывайте интервалы доверия bootstrapbootstrapbootstrap для метрик и проверяйте статистическую значимость улучшений.Ключевые замечания: при сильном дисбалансе ROC‑AUC может быть оптимистичной; PR‑кривая и метрики, ориентированные на редкий класс, информативнее.
Рекомендация: основной набор для мониторинга и выбора модели — PR‑AUC илиAPили APилиAP, precision@k и recall илиFβ,выбранныйпобизнес‑приоритетуили Fβ, выбранный по бизнес‑приоритетуилиFβ,выбранныйпобизнес‑приоритету, дополнительно calibration metrics и ROC‑AUC как вспомогательная информация.
Оценка риска систематической дискриминацииРиски: данные резюме и метки могут отражать исторические предубеждения пол,возраст,этничность,география,образованиепол, возраст, этничность, география, образованиепол,возраст,этничность,география,образование. Модель может:
воспроизводить имеющуюся предвзятость biasreproductionbias reproductionbiasreproduction;усиливать её biasamplificationbias amplificationbiasamplification;использовать прокси‑фичи имена,хобби,почтовыекодыимена, хобби, почтовые кодыимена,хобби,почтовыекоды для реконструкции защищённых атрибутов.
Подходы к оценке риска:
Проведите аналитическую разведку EDAEDAEDA по защищённым группам:Разбейте данные по группам пол,возрастныекогорты,место,образованиепол, возрастные когорты, место, образованиепол,возрастныекогорты,место,образование и сравните base rates доляположительныхдоля положительныхдоляположительных, precision/recall/FN/FP по группам.Посмотрите на разницу ошибок FNR/FPRFNR/FPRFNR/FPR между группами — ключевые показатели несправедливости.Формализованные fairness‑метрики выберитевзависимостиотзадачивыберите в зависимости от задачивыберитевзависимостиотзадачи:
Statistical parity difference / demographic parity: Ppred=1∣group=Apred=1 | group=Apred=1∣group=A vs Ppred=1∣group=Bpred=1 | group=Bpred=1∣group=B.Disparate impact = ratio Ppred=1∣Apred=1|Apred=1∣A/Ppred=1∣Bpred=1|Bpred=1∣B.Equal opportunity: сравнение TPR recallrecallrecall между группами.Equalized odds: сравнение и TPR, и FPR.Predictive parity: precision между группами.Calibration within groups: модель откалибрована отдельно по группам?Explainability / feature reliance:
SHAP/Integrated Gradients/feature importance по подгруппам — смотрите, на какие признаки модель опирается для разных групп наличиеадреса,имя,gapвопытеит.д.наличие адреса, имя, gap в опыте и т.д.наличиеадреса,имя,gapвопытеит.д..Проверьте, не является ли имя/почтовый код/университет явным или скрытым прокси. Попробуйте отключать/маскировать такие признаки и смотреть, как меняются метрики и fairness.Counterfactual / perturbation testing:
Перегенерируйте резюме с изменением защищённого атрибута сменаимени,гендерныхмаркеров,фото/адресовсмена имени, гендерных маркеров, фото/адресовсменаимени,гендерныхмаркеров,фото/адресов и проверьте изменение предсказания. Это показывает, использует ли модель признаки, связанные с группой.Causal / bias attribution есливозможноесли возможноесливозможно:
Анализ причинно-следственных связей, чтобы понять, откуда метки идут и какие признаки отражают дискриминацию в исходных метках.Разделите источники предвзятости:
Label bias разметкаисторическипредвзятаразметка исторически предвзятаразметкаисторическипредвзята vs sample bias различнаяпредставленностьгруппразличная представленность группразличнаяпредставленностьгрупп vs measurement bias неодинаковыепризнакинеодинаковые признакинеодинаковыепризнаки.Business impact assessment:
Моделируйте экономические/операционные последствия различий например,сколькокандидатоводнойгруппыпропустятнапример, сколько кандидатов одной группы пропустятнапример,сколькокандидатоводнойгруппыпропустят — это помогает принять компромиссы.
Стратегии проверки, валидации и мониторинга
Валидация и CVИспользуйте стратифицированный k‑fold по целевому классу; при проверке fairness делайте stratify по сочетанию class,protectedgroupclass, protected_groupclass,protectedg roup если выборка позволяет.Не смешивайте когорты по времени. Для production — time‑split validation.Тесты на устойчивостьPerturbation tests: измените имена/города/университет в резюме и сравните предсказания.Adversarial testing: найдите примеры, где небольшие изменения меняют предсказание.A/B и канареечные релизыПеред массовым деплоем — проводить A/B тесты с человеческим оценщиком HRHRHR и измерять качество и fairness в реальных процессах.Использовать shadow mode продакшна: модель делает предсказания, но решения остаются за людьми; логируйте предсказания и результаты.Мониторинг после деплояОтслеживайте drift в input distribution, predicted score distribution, и метрики по группам TPR,FPR,precisionTPR, FPR, precisionTPR,FPR,precision периодически.Настройте алерты при резких изменениях и при достижении порогов неравенства.Постобработка для смягчения дискриминацииЕсли обнаружены различия, возможны меры: скорректировать пороги по подгруппам thresholdingthresholdingthresholding — простая, но юридически и бизнес‑опасная мера; методы постобработки для equalized odds HardtHardtHardt, reweighing (Kamiran & Calders), reject option AIF360AIF360AIF360.Оцените побочные эффекты trade‑offмеждуoverallperformanceиfairnesstrade‑off между overall performance и fairnesstrade‑offмеждуoverallperformanceиfairness.Документация и людиДокументируйте: датасеты, метрики, known limitations, decision log — критично для аудита.Включите HR/юристов/представителей групп в оценку рисков и критериев.Оценка статистической значимостиИспользуйте бутстрэп для CI метрик и тесты на различия между группами; не полагайтесь на point estimates.Практический pipeline — пошаговый план
1) EDA: анализ class imbalance + разбивка по защищённым атрибутам; base rates.
2) Соберите больше релевантных примеров activelearning/targetedlabelingactive learning / targeted labelingactivelearning/targetedlabeling если возможно.
3) Экспериментально сравните: baseline + undersampling, oversampling, SMOTE длявекторныхпризнаковдля векторных признаковдлявекторныхпризнаков, class_weight, focal loss, ensembling. Для текстов — текст‑аугментации/генерация.
4) Метрики: на валидации смотрите PR‑AUC, precision@k, recall / Fβ которыйотражаетбизнес‑приоритеткоторый отражает бизнес‑приоритеткоторыйотражаетбизнес‑приоритет, calibration. Анализ по подгруппам.
5) Fairness testing: subgroup metrics, counterfactual perturbations, explainability.
6) Подбор порога по бизнес‑функции utilityutilityutility, с учетом различий по группам и возможной юридической оценки.
7) Shadow mode + A/B, мониторинг, периодические аудиты, логирование.
Короткие практические рекомендации
При 95/5 приоритетно: повысить recall позитивного класса без экстремального падения precision; оптимизируйте по PR‑AUC и precision@k.Собирайте/размечайте данные целенаправленно: больше положительных примеров даёт лучший эффект, чем только ресэмплинг.Всегда проверяйте метрики по подгруппам и делайте perturbation tests на имена/признаки.Логируйте и мониторьте после деплоя: bias и drift могут проявиться со временем.Если нужно, могу:
предложить конкретный набор гиперпараметров/скриптов в sklearn / LightGBM / XGBoost для обработки imbalance;предложить чек‑лист для fairness‑аудита нарусскомна русскомнарусском;помочь составить план A/B теста и метрики для бизнес‑оценки FP vs FN в вашей компании.