招商银行2022精英训练营数据赛道面经
TimeLine:笔试202204??,面试20220517,线下比赛20220701-20220703
当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师
写在前面的话:以下问题的答案可能存在错误,敬请读者批评指正
笔试
笔试为期两周,数据赛道的笔试内容是训练模型进行线上打榜(形式很像kaggle上的比赛),分为A榜和B榜,A榜数据集的正负样本分布相对均匀,B榜数据集的分布相对失衡,最终得分为A榜得分和B榜得分的加权和,Github上应该有笔试题目和代码,读者可自行搜索
笔试前200名有奖金,打不到前200名也没事,训练营的录取结果会综合各方面因素进行判定
面试
面试时时间紧凑,问题接踵而来,没有特别长的思考时间
1.请简述一下数据赛道线上打榜的建模思路
1)先查看各特征的缺失比例,缺失比例过高(>=50%)的特征直接舍弃,剩余特征的缺失值用均值/众数填充
2)判定各特征的线性相关性,对于存在较强相关性的一对特征,保留其中相关系数绝对值均值较低的那一个
3)对于正负样本不均衡的情况,采取重采样的方法
4)连续性特征分箱,离散性特征作one-hot/get_dummy
5)拆分训练集和测试集,开交叉验证,训练LightGBM分类器,根据ROC曲线下AUC评估模型表现
6)预测test_A和test_B的结果
注:当时的回答非常简陋,仅供读者参考,读者可至其他平台搜索更详细的建模思路
2. 缺失值的处理方法
1)舍弃
2)均值/中位数填充,众数填充
3)插值法填充
4)机器学习模型填充(要填充的特征作label,剩余特征作features,训练模型来预测)
3. 正负样本不均衡的处理方法
1)采用ROC曲线下AUC作为分类判定标准,该指标不会受到样本集分布不均衡的影响
此处有追问:为什么AUC不会受到样本集分布不均衡的影响?
假设负样本扩大10倍,且扩大后的负样本与原负样本分布一致
TPR不受影响
FPR的分母扩大10倍(FP和TN本质上都是负样本),分子也扩大10倍(扩大负样本分布同原来一致,因此扩大负样本中被判定为FP的样本也近似扩大10倍),因此FPR的结果近似不受影响
2)过采样和欠采样(基于数据的方法)
过采样,即增加少数类样本集的样本量,如SMOTE算法、Tomek Links算法等
欠采样,即减少多数类样本集的样本量,如Easy Ensemble算法、NearMiss算法等
3)调整正负样本的权重惩罚(基于算法的方法)
改变模型训练时的目标函数,对少数类样本分类赋高权重,多数类样本分类赋低权重
4)转化为单类学习、异常检测(基于算法的方法)
4.请简述一下支持向量机
SVM实现二分类,基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,主要有三种形式:
1)训练样本线性可分,使用硬间隔最大化
2)训练样本近似线性可分,引入松弛变量,使用软间隔最大化
3)训练数据线性不可分时,使用核技巧(把样本从原始空间映射到更高维的特征空间中,使样本在这个高维的特征空间中线性可分)和软间隔最大化
5. 简述朴素贝叶斯
朴素贝叶斯通过贝叶斯公式计算样本属于某一类别的概率,朴素体现在:
1)特征条件独立性假设,即假设各特征之间相互独立
2)假设各特征同等重要
6. 简述XGBoost
本质上是GBDT,XGB力争将速度和效率发挥极致,因此被称为Extreme Gradient Boosting(极端梯度提升机)。不论是GBDT还是XGB,都属于集成思想中的boosting流派,即不断生成树,每生成一棵新树都是在拟合前一棵树的预测残差,在预测新样本时综合各棵树的预测结果即可
注:此回答没有答到点子上,读者自行搜索相关资料以形成自己的观点
7. 简述梯度下降
函数在梯度方向的方向导数取得最大值,也就是说,函数在梯度方向增加得最快,在逆梯度方向减小得最快。在训练机器学习模型时,我们总是希望模型的损失函数越小越好,因此我们会选择逆梯度方向对参数进行更新,梯度下降具体包括随机梯度下降、小批量梯度下降和批量梯度下降
8. 请简要介绍一下聚类算法有哪些?
1)Hierarchical methods:层次聚类,有两种路径——自下而上(agglomerative),先将所有样本的每个点都看成一个簇,然后合并两个最相似的簇,不断重复到预定簇数或者其他终止条件;自上而下(divisive),先将所有样本当作一整个簇,然后找出簇中距离最远的两个簇进行分裂,不断重复到预期簇或者其他终止条件
2)Partition-based methods,例如:KMeans等
3)Density-based methods,例如:DBSCAN等
4)Model-based methods,例如:高斯混合模型GMM等
9. 对于深度学习的了解如何?
10. 与美团实习经历相关的问题,此处略
11. 场景题:如何构建对公客户(企业客户)用户画像?
搭建指标体系如下:
1)行业属性,不同行业有着不同的市场结构、运作模式和规律,调研目标企业在其行业的发展情况,如企业收入、企业目标用户、企业生命周期
2)企业属性:企业成立时间、资金规模、人员规模等
注:完全没接触过这种问题,回答得乱七八糟
12. 腾讯是一个国民级的APP,如何评价这款APP?
通过搭建指标体系的方式来评价,指标体系如下:
1)社交价值:人均好友数、好友互动率
2)消费价值:日活、留存
3)生产价值:人均投稿数、投稿渗透率
4)广告主价值:ARPU
5)社会价值:生活服务的渗透率
此处有追问:简述一下搭建这个指标体系的思路?
1)社交价值:微信是国民级社交APP的典型代表,可联想到与社交好友相关的指标
2)消费价值:微信本质上也是一款产品,每天都在被用户所”消费“,可联想到日活、留存等消费指标
3)生产价值:微信提供了诸如公众号、视频号、直播等UGC入口,给予用户生产内容的权利,可联想到与生产相关的指标
4)广告主价值:微信同样提供了诸多广告的资源位,在公众号和朋友圈经常看见广告,可联想到ARPU这类广告指标
5)社会价值:微信提供了如企业微信、理财、缴费、出行等诸多生活服务的功能,可联想到这些功能的渗透率
线下比赛
一共分为三期进行,前两期为研发赛道,第三期为产品赛道和数据赛道
产品赛道和数据赛道的同学会共同合作完成一个项目,时间非常紧凑,有极大可能性需要通宵
数据赛道的同学除了向产品赛道的同学提供数据方面的内容输出以外,还有打榜的要求
比赛表现优异的同学可直接获得招商银行总行的金融科技生offer
#暑期实习##数据分析##招行招聘#