欧莱雅美容 - 预测客户成交量
一、项目简介(简历原文精简版)
两阶段模型设计与开发:
阶段 1(分类模型): 主要使用随机森林等算法,预测客户是否会进行交易,精准识别过去成交量为 0 的客户。
阶段 2(回归模型): 在阶段 1 结果基础上,对预测为 0 的客户进行修正后,针对其余客户进行成交量预测;应用随机森林、梯度提升、模型堆叠等回归方法,显著提升预测精度。
预测指标: 两阶段模型的 R² 可达 0.87,并针对高度不平衡数据集进行了处理和优化。
成果: 两阶段方法有效提高了潜在高价值客户的挖掘与成交量预测的准确度,为后续个性化营销与重点客户管理提供数据支持。
二、项目主要思路与流程
在项目中,为了更好地模拟真实业务场景,我们将预测客户是否会下单和预测具体下单金额分成两个阶段:
阶段 1:分类(是否下单)
先对大量历史成交为 0 的客户进行建模,区分出可能会“复购”的潜在客户;对其余确定性极低者统一视为 0 交易。
阶段 2:回归(成交金额预测)
对阶段 1 预测为“可能会下单”的用户构建回归模型,进一步细化预测他们的成交量。模型采用随机森林、回归树、Lasso、梯度提升等,并通过交叉验证筛选出最佳参数,最终在验证集上取得了理想的 R²(约 0.86~0.87)。
模型整体流程示意(引用报告中原图 Figure 3.1):
Figure 3.1:两阶段建模的示意图(Stage 1 先判定“是否交易”,Stage 2 再行回归成交额)
三、核心分析与关键图表
阶段 1 分类模型表现
为了验证分类模型效果,报告中给出了在验证集上的准确率(Accuracy)与F1 Score。
其中,随机森林在阶段 1 取得了约 76.41% 的准确率,F1 Score 约为 0.82,相比逻辑回归有更优表现。
Figure 3.6 & 3.7(报告原文节选)
图中可见 Random Forest 的 Accuracy≈0.76,F1≈0.82
阶段 2 回归模型表现
针对仅剩的“会发生交易”的客户数据做成交金额预测。
从报告中可见,在回归树、Lasso等多种方法对比后,最终Random Forest取得了最高 R²≈0.87,RMSE 较低,说明预测精度较高。
Figure 3.8(报告原文节选)
可见 Random Forest 的 R² ≈ 0.868,优于其它回归模型
变量重要性与特征工程
在两阶段模型中,“过去 12 个月(或更长时间)累计消费额”和“是否购买特定品类(如 Face Care)”对预测最为关键。
通过对数变换、Box-Cox 等方法减少数据偏度,并提取“人均交易额”等新特征,显著改善了模型的学习效果。
Figure 3.4(示例:阶段 2 的特征重要度图)
四、项目贡献与总结
洞察与成就:
首创两阶段建模思路,可屏蔽掉大量历史成交为 0 的噪声用户,把资源集中在真正有交易潜力的客户。
分析结果为营销部门提供了针对高潜客户的推荐策略,如 VIP 专属折扣、个性化推送等。
项目成果在校内竞赛与企业实习中均获得认可,为后续在其他业务场景(如活动复购、精准促销)提供可复制的建模模板。
后续优化:
持续补充更多客户画像(如访问时长、偏好品类、地域分布),构建更全面的特征集;
动态更新预测模型,定期用最新交易数据进行再训练,不断提升模型鲁棒性与精度。