招商银行2022精英训练营数据赛道面经

TimeLine:笔试202204??,面试20220517,线下比赛20220701-20220703

当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师

写在前面的话:以下问题的答案可能存在错误,敬请读者批评指正

笔试

笔试为期两周,数据赛道的笔试内容是训练模型进行线上打榜(形式很像kaggle上的比赛),分为A榜和B榜,A榜数据集的正负样本分布相对均匀,B榜数据集的分布相对失衡,最终得分为A榜得分和B榜得分的加权和,Github上应该有笔试题目和代码,读者可自行搜索

笔试前200名有奖金,打不到前200名也没事,训练营的录取结果会综合各方面因素进行判定

面试

面试时时间紧凑,问题接踵而来,没有特别长的思考时间

1.请简述一下数据赛道线上打榜的建模思路

1)先查看各特征的缺失比例,缺失比例过高(>=50%)的特征直接舍弃,剩余特征的缺失值用均值/众数填充

2)判定各特征的线性相关性,对于存在较强相关性的一对特征,保留其中相关系数绝对值均值较低的那一个

3)对于正负样本不均衡的情况,采取重采样的方法

4)连续性特征分箱,离散性特征作one-hot/get_dummy

5)拆分训练集和测试集,开交叉验证,训练LightGBM分类器,根据ROC曲线下AUC评估模型表现

6)预测test_A和test_B的结果

注:当时的回答非常简陋,仅供读者参考,读者可至其他平台搜索更详细的建模思路

2. 缺失值的处理方法

1)舍弃

2)均值/中位数填充,众数填充

3)插值法填充

4)机器学习模型填充(要填充的特征作label,剩余特征作features,训练模型来预测)

3. 正负样本不均衡的处理方法

1)采用ROC曲线下AUC作为分类判定标准,该指标不会受到样本集分布不均衡的影响

此处有追问:为什么AUC不会受到样本集分布不均衡的影响?

假设负样本扩大10倍,且扩大后的负样本与原负样本分布一致

TPR不受影响

FPR的分母扩大10倍(FPTN本质上都是负样本),分子也扩大10倍(扩大负样本分布同原来一致,因此扩大负样本中被判定为FP的样本也近似扩大10倍),因此FPR的结果近似不受影响

2)过采样和欠采样(基于数据的方法)

过采样,即增加少数类样本集的样本量,如SMOTE算法、Tomek Links算法等

欠采样,即减少多数类样本集的样本量,如Easy Ensemble算法、NearMiss算法等

3)调整正负样本的权重惩罚(基于算法的方法)

改变模型训练时的目标函数,对少数类样本分类赋高权重,多数类样本分类赋低权重

4)转化为单类学习、异常检测(基于算法的方法)

4.请简述一下支持向量机

SVM实现二分类,基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,主要有三种形式:

1)训练样本线性可分,使用硬间隔最大化

2)训练样本近似线性可分,引入松弛变量,使用软间隔最大化

3)训练数据线性不可分时,使用核技巧(把样本从原始空间映射到更高维的特征空间中,使样本在这个高维的特征空间中线性可分)和软间隔最大化

5. 简述朴素贝叶斯

朴素贝叶斯通过贝叶斯公式计算样本属于某一类别的概率,朴素体现在:

1)特征条件独立性假设,即假设各特征之间相互独立

2)假设各特征同等重要

6. 简述XGBoost

本质上是GBDTXGB力争将速度和效率发挥极致,因此被称为Extreme Gradient Boosting(极端梯度提升机)。不论是GBDT还是XGB,都属于集成思想中的boosting流派,即不断生成树,每生成一棵新树都是在拟合前一棵树的预测残差,在预测新样本时综合各棵树的预测结果即可

注:此回答没有答到点子上,读者自行搜索相关资料以形成自己的观点

7. 简述梯度下降

函数在梯度方向的方向导数取得最大值,也就是说,函数在梯度方向增加得最快,在逆梯度方向减小得最快。在训练机器学习模型时,我们总是希望模型的损失函数越小越好,因此我们会选择逆梯度方向对参数进行更新,梯度下降具体包括随机梯度下降、小批量梯度下降和批量梯度下降

8. 请简要介绍一下聚类算法有哪些?

1)Hierarchical methods:层次聚类,有两种路径——自下而上(agglomerative),先将所有样本的每个点都看成一个簇,然后合并两个最相似的簇,不断重复到预定簇数或者其他终止条件;自上而下(divisive),先将所有样本当作一整个簇,然后找出簇中距离最远的两个簇进行分裂,不断重复到预期簇或者其他终止条件

2)Partition-based methods,例如:KMeans

3)Density-based methods,例如:DBSCAN

4)Model-based methods,例如:高斯混合模型GMM

9. 对于深度学习的了解如何?

10. 与美团实习经历相关的问题,此处略

11. 场景题:如何构建对公客户(企业客户)用户画像?

搭建指标体系如下:

1)行业属性,不同行业有着不同的市场结构、运作模式和规律,调研目标企业在其行业的发展情况,如企业收入、企业目标用户、企业生命周期

2)企业属性:企业成立时间、资金规模、人员规模等

注:完全没接触过这种问题,回答得乱七八糟

12. 腾讯是一个国民级的APP,如何评价这款APP?

通过搭建指标体系的方式来评价,指标体系如下:

1)社交价值:人均好友数、好友互动率

2)消费价值:日活、留存

3)生产价值:人均投稿数、投稿渗透率

4)广告主价值:ARPU

5)社会价值:生活服务的渗透率

此处有追问:简述一下搭建这个指标体系的思路?

1)社交价值:微信是国民级社交APP的典型代表,可联想到与社交好友相关的指标

2)消费价值:微信本质上也是一款产品,每天都在被用户所”消费“,可联想到日活、留存等消费指标

3)生产价值:微信提供了诸如公众号、视频号、直播等UGC入口,给予用户生产内容的权利,可联想到与生产相关的指标

4)广告主价值:微信同样提供了诸多广告的资源位,在公众号和朋友圈经常看见广告,可联想到ARPU这类广告指标

5)社会价值:微信提供了如企业微信、理财、缴费、出行等诸多生活服务的功能,可联想到这些功能的渗透率

线下比赛

一共分为三期进行,前两期为研发赛道,第三期为产品赛道和数据赛道

产品赛道和数据赛道的同学会共同合作完成一个项目,时间非常紧凑,有极大可能性需要通宵

数据赛道的同学除了向产品赛道的同学提供数据方面的内容输出以外,还有打榜的要求

比赛表现优异的同学可直接获得招商银行总行的金融科技生offer

#暑期实习##数据分析##招行招聘#
全部评论
笔试前200名有奖金?大概多少啊?😂
点赞 回复 分享
发布于 2023-03-23 09:57 河南
这也太详细了吧,谢谢大佬的面经
点赞 回复 分享
发布于 2023-03-23 10:03 湖北
十分感谢!
点赞 回复 分享
发布于 2023-03-30 14:30 广东
感谢
点赞 回复 分享
发布于 2023-09-26 19:40 河南

相关推荐

一笑而过2222:一、测试点 1. 最小长度测试:输入空字符串或少于最小长度(如 1 位)的字符。 2. 最大长度测试:输入超过最大长度(如 10 位以上)的字符。 3. 边界值测试:正好输入 1 位的密码;正好输入 10 位的密码。 4. 强度验证:输入仅包含数字、仅包含字母(大小写敏感)、包含特殊字符、包含数字字母和特殊字符组合的密码。 5. 字符类型测试:输入包含非 ASCII 字符(如中文、日文等)的密码;输入包含空白符(空格、制表符等)的密码。 6. 格式测试:输入包含不允许字符的密码;输入符合特定格式要求的密码(如必须包含一个大写字母、一个小写字母、一个数字)。 7. 历史密码测试:尝试使用最近一次使用的密码(若系统有规定不能使用最近使用过的密码)。 8. 锁定机制测试:连续输入错误密码检查账户是否被锁定及锁定后解锁账号并重新登录。 9. 重置密码流程测试:模拟忘记密码场景测试重置密码流程及验证重置密码后的密码规则是否一致。 10. 用户体验测试:检查用户输入密码时是否有实时反馈(如强度条显示)及输入过长密码时前端是否给予即时提示。
点赞 评论 收藏
分享
一笑而过2222:微信发朋友圈功能的测试用例设计: 基本功能测试 1. **发布文本动态** - 输入有效的文本内容,点击发送,验证是否能够成功发布。 - 输入特殊字符(如表情、特殊符号),点击发送,验证是否能够正确显示。 - 输入超长文本,验证是否有字数限制。 2. **发布图片/视频动态** - 选择一张图片/一个视频,点击发送,验证是否能够成功发布。 - 选择多张图片/多个视频,验证是否能够批量发布。 - 上传超过大小限制的图片/视频,验证是否有错误提示。 3. **位置标签** - 添加位置标签,验证是否能够正确显示。 - 删除位置标签,验证是否能够取消显示。 4. **可见性设置** - 设置公开,验证所有好友可见。 - 设置私密,验证仅自己可见。 - 设置部分可见/不给谁看,验证相应的好友可见性。 5. **@功能** - @一个好友,验证该好友是否能够收到提醒。 - @多个好友,验证所有被@的好友都能收到提醒。 6. **评论和点赞** - 验证自己能否对自己发布的朋友圈进行评论和点赞。 - 验证好友能否对自己发布的朋友圈进行评论和点赞。 边界条件测试 7. **网络状态** - 在网络状况良好时发布,验证发布是否成功。 - 在网络状况差时发布,验证是否有相应的错误提示。 8. **账户权限** - 验证未登录用户是否能发布朋友圈。 - 验证被限制发朋友圈的账户是否能发布。 异常情况测试 9. **内容安全** - 发布包含敏感词汇的内容,验证是否能够成功发布。 - 发布违反微信规定的内容,验证是否会被拦截。 10. **系统稳定性** - 连续发布多条朋友圈,验证系统是否稳定。 - 在朋友圈功能使用高峰期发布,验证系统是否稳定。 兼容性测试 11. **不同设备** - 在不同型号的手机上发布朋友圈,验证功能是否一致。 - 在不同操作系统的设备上发布朋友圈,验证功能是否一致。 性能测试 12. **响应时间** - 测量从点击发送到朋友圈成功显示的时间。 13. **资源消耗** - 监控发布朋友圈时的CPU和内存使用情况。 用户界面测试 14. **界面布局** - 验证发布按钮、图片/视频选择器等控件是否正确显示。 15. **提示信息** - 验证所有提示信息是否准确、友好。
点赞 评论 收藏
分享
19 94 评论
分享
牛客网
牛客企业服务