2021中兴捧月-迪杰斯特拉赛道-面经
两位面试官,30分钟整,全程聊比赛
个人情况:211+985,21年应届毕业,本硕通信,rank 23
- 2分钟自我介绍--着重科研项目(通信方向)、各类比赛情况。
- 做比赛时的思路,详细讲一下。--初赛滑动平均、复赛xgb+时序特征,并与初赛模型融合,预测结果利用规则适当放缩调整。
- 数据归一化方面做了哪些处理?归一化和标准化如何选择?--一般采用“最大-最小”归一化方法和“均值方差”标准化方法,根据数据分布选择,如果是正态分布的话,采用标准化方法;其他的,如果各列数据取值范围差别较大的话,考虑归一化方法。
- 数据中的缺失值如何处理的?---正常来说树模型对缺失值不敏感,如果填充的话,均值、方差等填充。本次比赛缺失数据较多的直接填'nan'可以得40分,部分缺失采用滑动平均预测,如果数据完整的话,采用xgb模型预测。
- 这样处理缺失值的好处?---自由发挥了😂
- 数据突变/阶跃如何处理?--(1)选取近期数据(2)尖峰突变视为异常值(3)节假日突变加入一些节假日标识特征,并对结果适当放缩。
- 数据中有很多nan值,在什么情况下输出nan?----缺失值较多、时序数据数较少的部分直接填nan
- 为什么选择xgb?优势?---树模型训练速度快,数据比赛大杀器,限于硬件设备无法使用深度学习。
- 特征构造过程,模型实现过程--构造时序特征,窗口设置为91天(与测试集预测长度一致,保证特征能够对应上);构造时间相关特征,年月日、周数、天数等,刻画周期性和对称性的特征。
- 有关xgb参数的考虑?--主要关注“学习率”、“特征选择比例”、“树的最大深度”等等,进行网格搜索调参。
- 能否把现在的模型用到实际生产当中,是否重新训练调整?---进行适当的微调即可,调整特征维度,构造时序特征。
- 模型的创新点?--数据缺失值、异常值处理,时序特征构造,周期性、对称性等等
- 专业情况
- 软件和计算机课程学习情况
- 编程语言情况:科研matlab,竞赛python
- lambda表达式---不太清楚,dataframe里面apply和map函数中会用到
- 了解函数式编程嘛?---python中用def定义函数,然后后面调用😂
- 设计模式了解吗?--单例设计模式,回收站😂(面试官是不是搞软件开发的啊,我一脸懵逼)
- 反问环节:中兴招聘官网填写简历时,“重庆”下拉框里面有重邮、川外、西政,没有西南大学有些难受,我们是教育部直属211,通信工程国家一流本科专业,能否改进一下系统呢😂(虽然应届生去决赛无望,但是还想为我母校争取一下),面试官表示理解,并会反馈。
总结:中兴聊比赛还是挺细的,挖的很深,不过面试官感觉更偏向软件开发方向,自由发挥程度搞一些hhh😂