Стартап по подписке на образовательные курсы использует поведенческие данные пользователей для предсказания оттока: какие модели и маркетинговые действия можно внедрить для снижения churn и как оценить их эффективность
Коротко и по делу — модели, маркетинговые действия и способы оценки эффективности. Модели (что и зачем): - Бинарная классификация (предсказание churn в горизонте ddd дней): логистическая регрессия, случайный лес, градиентный бустинг (XGBoost/LightGBM/CatBoost). Быстро работает, интерпретируемо, хороша для раннего обнаружения риска. - Survival / time-to-event (когда важен момент оттока): Kaplan–Meier, Cox PH, survival forests, DeepSurv. Даёт прогнозы вероятности выживания по времени и учитывает цензуру. Формула оценки функции выживания: S^(t)=∏ti≤t(1−dini)\hat S(t)=\prod_{t_i\le t}\Big(1-\dfrac{d_i}{n_i}\Big)S^(t)=∏ti≤t(1−nidi). Cox: h(t∣x)=h0(t)exp(x⊤β)h(t|x)=h_0(t)\exp(x^\top\beta)h(t∣x)=h0(t)exp(x⊤β). - Sequence / временные модели (если есть логи событий): RNN/LSTM, Transformer, TCN — полезны для моделирования поведения по сессиям. - Uplift / heterogeneous treatment effect (для выбора, кого таргетировать специальными предложениями): двумодельный подход, Causal Forest, X-learner. Цель — предсказать прирост retention от конкретного воздействия. Uplift: Uplift=P(Y=1∣T=1)−P(Y=1∣T=0)\text{Uplift}=P(Y=1|T=1)-P(Y=1|T=0)Uplift=P(Y=1∣T=1)−P(Y=1∣T=0). - Кластеризация и сегментация (RFM/behavioral embeddings) — для создания персонализированных сценариев удержания. Ключевые фичи (обязательно): - Активность: частота сессий, длительность, глубина потребления курса, прогресс по курсу, время с последнего входа. - Финансы: подписочный план, способ оплаты, история платежей, просрочки. - Взаимодействие: открытые письма, клики, ответы саппорта, оценки NPS. - КоHORTы/временные признаки: дата регистрации, источник трафика, trial vs платный. - Поведенческие эмбеддинги и агрегаты по оконным периодам. Маркетинговые действия (что внедрить): - Автоматизированные ранние сигналы и персональные цепочки (onboarding, триггерные письма/push при снижении активности). - Персонализированные рекомендации курсов/контента на основе интересов и прогресса. - Ретеншн-офферы: targeted скидки/пробные периоды для высокоурожайных (high-uplift) пользователей. - Re-engagement кампании: win-back письма, карусели достижений, напоминания о незавершённых уроках. - Геймификация: бейджи, прогресс-бары, челленджи для повышения вовлечённости. - Human touch: консультации/менторство для пользователей с высоким CLTV или риском ухода. - Изменения продукта: улучшение контента, UX, скорость загрузки — по инсайтам из фичевой важности. Как выбирать, кого таргетировать: - Использовать uplift-модель, чтобы направлять дорогостоящие офферы только тем, у кого положительный ожидаемый прирост. - Оптимизировать правило: таргетировать пользователей с максимальным predicted uplift×ARPUcost of action\dfrac{\text{predicted uplift}\times \text{ARPU}}{\text{cost of action}}cost of actionpredicted uplift×ARPU. Оценка эффективности (метрики и методы): - Базовые метрики: churn rate и retention: ChurnRate=число ушедшихчисло находящихся в риске\text{ChurnRate}=\dfrac{\text{число ушедших}}{\text{число находящихся в риске}}ChurnRate=числонаходящихсяврискечислоушедших, Retention=1−ChurnRate\text{Retention}=1-\text{ChurnRate}Retention=1−ChurnRate. Оценивать на горизонтах ddd дней/недель/месяцев. - Модельные метрики: AUC, PR-AUC, calibration, Brier score; для survival — concordance index (C-index). - Оценка интервенций (каузально): рандомизированный контроль (A/B тест) — основной метод. Эффект: Uplift=P(Y=1∣T=1)−P(Y=1∣T=0)\text{Uplift}=P(Y=1|T=1)-P(Y=1|T=0)Uplift=P(Y=1∣T=1)−P(Y=1∣T=0). Использовать лог-ранговые тесты / Kaplan–Meier для временных эффектов. - Оценить экономику: ожидаемая чистая выгода на пользователя: ΔR=Uplift×ARPU−cost\Delta R=\text{Uplift}\times \text{ARPU}-\text{cost}ΔR=Uplift×ARPU−cost. Суммарный ROI: ROI=∑ΔRtotal cost\text{ROI}=\dfrac{\sum \Delta R}{\text{total cost}}ROI=total cost∑ΔR. - Оценка таргетинга без рандома: IPS / DR методы — например IPS-оценка эффекта: τ^IPS=1n∑i(TiYie(Xi)−(1−Ti)Yi1−e(Xi))\hat\tau_{IPS}=\dfrac{1}{n}\sum_i\Big(\dfrac{T_iY_i}{e(X_i)}-\dfrac{(1-T_i)Y_i}{1-e(X_i)}\Big)τ^IPS=n1∑i(e(Xi)TiYi−1−e(Xi)(1−Ti)Yi) (требует оценки propensity score e(X)e(X)e(X)). - Для uplift-моделей: Qini / uplift-curve, uplift@k (прибавка ретеншен среди топ-k целевых). - Статистика: планировать размер выборки и мощность теста (power) заранее, контролировать множественные тесты. Внедрение и мониторинг (коротко): - Серый путь: оффлайн-валидация → A/B тестирование → production scoring (реальное время/батч). - Мониторинг: drift фич и качества модели, ретроспективный lift, отток по когортам. - Объяснимость: SHAP/feature importance, чтобы маркетинг понимал причины риска и мог генерировать гипотезы. - Частота переобучения: ежемесячно/ежеквартально в зависимости от изменения поведения. Рекомендации по приоритетам: 1) Быстрый выигрыш: классификатор + триггерные re-engagement письма и персон. рекомендации. 2) Среднесрочно: uplift-модель для оптимизации офферов. 3) Долгосрочно: survival-модель для понимания времени ухода и продуктовые изменения по insights. Этические и правовые моменты: - Согласие пользователей, соблюдение GDPR/локальных правил, аккуратность с персонализацией финансовых предложений. Если нужно — дам пример конкретной метрики для A/B теста и формулу расчёта размера выборки.
Модели (что и зачем):
- Бинарная классификация (предсказание churn в горизонте ddd дней): логистическая регрессия, случайный лес, градиентный бустинг (XGBoost/LightGBM/CatBoost). Быстро работает, интерпретируемо, хороша для раннего обнаружения риска.
- Survival / time-to-event (когда важен момент оттока): Kaplan–Meier, Cox PH, survival forests, DeepSurv. Даёт прогнозы вероятности выживания по времени и учитывает цензуру. Формула оценки функции выживания: S^(t)=∏ti≤t(1−dini)\hat S(t)=\prod_{t_i\le t}\Big(1-\dfrac{d_i}{n_i}\Big)S^(t)=∏ti ≤t (1−ni di ). Cox: h(t∣x)=h0(t)exp(x⊤β)h(t|x)=h_0(t)\exp(x^\top\beta)h(t∣x)=h0 (t)exp(x⊤β).
- Sequence / временные модели (если есть логи событий): RNN/LSTM, Transformer, TCN — полезны для моделирования поведения по сессиям.
- Uplift / heterogeneous treatment effect (для выбора, кого таргетировать специальными предложениями): двумодельный подход, Causal Forest, X-learner. Цель — предсказать прирост retention от конкретного воздействия. Uplift: Uplift=P(Y=1∣T=1)−P(Y=1∣T=0)\text{Uplift}=P(Y=1|T=1)-P(Y=1|T=0)Uplift=P(Y=1∣T=1)−P(Y=1∣T=0).
- Кластеризация и сегментация (RFM/behavioral embeddings) — для создания персонализированных сценариев удержания.
Ключевые фичи (обязательно):
- Активность: частота сессий, длительность, глубина потребления курса, прогресс по курсу, время с последнего входа.
- Финансы: подписочный план, способ оплаты, история платежей, просрочки.
- Взаимодействие: открытые письма, клики, ответы саппорта, оценки NPS.
- КоHORTы/временные признаки: дата регистрации, источник трафика, trial vs платный.
- Поведенческие эмбеддинги и агрегаты по оконным периодам.
Маркетинговые действия (что внедрить):
- Автоматизированные ранние сигналы и персональные цепочки (onboarding, триггерные письма/push при снижении активности).
- Персонализированные рекомендации курсов/контента на основе интересов и прогресса.
- Ретеншн-офферы: targeted скидки/пробные периоды для высокоурожайных (high-uplift) пользователей.
- Re-engagement кампании: win-back письма, карусели достижений, напоминания о незавершённых уроках.
- Геймификация: бейджи, прогресс-бары, челленджи для повышения вовлечённости.
- Human touch: консультации/менторство для пользователей с высоким CLTV или риском ухода.
- Изменения продукта: улучшение контента, UX, скорость загрузки — по инсайтам из фичевой важности.
Как выбирать, кого таргетировать:
- Использовать uplift-модель, чтобы направлять дорогостоящие офферы только тем, у кого положительный ожидаемый прирост.
- Оптимизировать правило: таргетировать пользователей с максимальным predicted uplift×ARPUcost of action\dfrac{\text{predicted uplift}\times \text{ARPU}}{\text{cost of action}}cost of actionpredicted uplift×ARPU .
Оценка эффективности (метрики и методы):
- Базовые метрики: churn rate и retention: ChurnRate=число ушедшихчисло находящихся в риске\text{ChurnRate}=\dfrac{\text{число ушедших}}{\text{число находящихся в риске}}ChurnRate=число находящихся в рискечисло ушедших , Retention=1−ChurnRate\text{Retention}=1-\text{ChurnRate}Retention=1−ChurnRate. Оценивать на горизонтах ddd дней/недель/месяцев.
- Модельные метрики: AUC, PR-AUC, calibration, Brier score; для survival — concordance index (C-index).
- Оценка интервенций (каузально): рандомизированный контроль (A/B тест) — основной метод. Эффект: Uplift=P(Y=1∣T=1)−P(Y=1∣T=0)\text{Uplift}=P(Y=1|T=1)-P(Y=1|T=0)Uplift=P(Y=1∣T=1)−P(Y=1∣T=0). Использовать лог-ранговые тесты / Kaplan–Meier для временных эффектов.
- Оценить экономику: ожидаемая чистая выгода на пользователя: ΔR=Uplift×ARPU−cost\Delta R=\text{Uplift}\times \text{ARPU}-\text{cost}ΔR=Uplift×ARPU−cost. Суммарный ROI: ROI=∑ΔRtotal cost\text{ROI}=\dfrac{\sum \Delta R}{\text{total cost}}ROI=total cost∑ΔR .
- Оценка таргетинга без рандома: IPS / DR методы — например IPS-оценка эффекта: τ^IPS=1n∑i(TiYie(Xi)−(1−Ti)Yi1−e(Xi))\hat\tau_{IPS}=\dfrac{1}{n}\sum_i\Big(\dfrac{T_iY_i}{e(X_i)}-\dfrac{(1-T_i)Y_i}{1-e(X_i)}\Big)τ^IPS =n1 ∑i (e(Xi )Ti Yi −1−e(Xi )(1−Ti )Yi ) (требует оценки propensity score e(X)e(X)e(X)).
- Для uplift-моделей: Qini / uplift-curve, uplift@k (прибавка ретеншен среди топ-k целевых).
- Статистика: планировать размер выборки и мощность теста (power) заранее, контролировать множественные тесты.
Внедрение и мониторинг (коротко):
- Серый путь: оффлайн-валидация → A/B тестирование → production scoring (реальное время/батч).
- Мониторинг: drift фич и качества модели, ретроспективный lift, отток по когортам.
- Объяснимость: SHAP/feature importance, чтобы маркетинг понимал причины риска и мог генерировать гипотезы.
- Частота переобучения: ежемесячно/ежеквартально в зависимости от изменения поведения.
Рекомендации по приоритетам:
1) Быстрый выигрыш: классификатор + триггерные re-engagement письма и персон. рекомендации.
2) Среднесрочно: uplift-модель для оптимизации офферов.
3) Долгосрочно: survival-модель для понимания времени ухода и продуктовые изменения по insights.
Этические и правовые моменты:
- Согласие пользователей, соблюдение GDPR/локальных правил, аккуратность с персонализацией финансовых предложений.
Если нужно — дам пример конкретной метрики для A/B теста и формулу расчёта размера выборки.