还愿 阿里数据分析面经 已收意向书
3.23投递简历,3.25完成素质测评,4.2简历评估面-4.17HR面,总共五轮面试,4月24日上午收到意向书,等了一周还以为凉了,太开心啦!
简历评估面
4.2 45min
训练集、验证集、测试集分别是用来干什么?
样本不平衡的问题怎么解决?
怎么切分训练集验证集?K-fold
过拟合的情况怎么处理?
Grid search怎么做?
调参的方向怎么确定?
棵树、深度哪个往小了调带来的收益更大?
固定一个深度,那么20棵树和50棵树差别会大吗?
xgboost算法原理看过没有?有没有手推过?讲讲整个算法的原理吧,涉及到哪些关键点的变化?相对于GBDT,做了哪些改进使得xgboost能够在企业级数据上进行应用?
原理我答不上来。面试官引导我来说,目标函数包括了惩罚项,那么树的复杂度如何考量?xgboost做了二阶泰勒展开,整个推导中做了一个变换,每个叶子节点给出一个值,和原先的值相减得到一个loss,再加上惩罚项得到目标函数……然后自己放弃问原理了,因为我没推导过……
xgboost构建树的时候以什么标准决定要不要做分支?解释一下信息增益是什么样的含义?
随机森林的核心思想是什么?bagging的思想解释一下?
随机森林对样本进行抽样是一个有放回抽样还是无放回抽样?
类别特征怎么处理?不做独热编码会有什么问题?
Xgboost怎么衡量特征重要性?
还了解什么机器学习模型?
美赛只有6万条数据,为什么要用lstm这么重的模型?lstm需要的数据应该是在一个长的时间跨度里,需要有一些因子能够被捕捉到,这么少的数据不会过拟合吗?为什么不用传统机器学习,其他时间序列模型去做呢?你在美赛中的分工是什么?解释一下什么是层次分析法,怎么用。
毕业论文有在实际工程项目中落地吗?还是只是做了实验?只做了实验。。。
运筹这块了解的深度怎样?商用场景用得比较多的是线性规划,整数规划,不是每个场景都需要用二次规划等复杂的算法。简单一点问,线性规划了解多少?传统的用单纯形法,内点法也可以解。单纯形法简单的用画表格的方式,那么如何从几何意义上解释单纯形法?如何能确保单纯形法最后能找到最优值而不是陷入死循环,或者产生退化?想让我回答线性规划是不是凸优化问题。
实习经历没有做机器学习,没有做模型,做得更多的是指标分析,自己当时是怎么考虑这个事情的?
实习期间在做指标分析的时候,肯定有个商业目标,怎么根据目标设计指标体系,怎么做分析,怎么通过指标体系再来衡量,得出什么样的结论?
假如某个国家的GMV没有达到预期(我实习在电商),怎么去分析这个问题?从哪些角度去看?
物流和供应链有学过?
训练集、验证集、测试集分别是用来干什么?
样本不平衡的问题怎么解决?
怎么切分训练集验证集?K-fold
过拟合的情况怎么处理?
Grid search怎么做?
调参的方向怎么确定?
棵树、深度哪个往小了调带来的收益更大?
固定一个深度,那么20棵树和50棵树差别会大吗?
xgboost算法原理看过没有?有没有手推过?讲讲整个算法的原理吧,涉及到哪些关键点的变化?相对于GBDT,做了哪些改进使得xgboost能够在企业级数据上进行应用?
原理我答不上来。面试官引导我来说,目标函数包括了惩罚项,那么树的复杂度如何考量?xgboost做了二阶泰勒展开,整个推导中做了一个变换,每个叶子节点给出一个值,和原先的值相减得到一个loss,再加上惩罚项得到目标函数……然后自己放弃问原理了,因为我没推导过……
xgboost构建树的时候以什么标准决定要不要做分支?解释一下信息增益是什么样的含义?
随机森林的核心思想是什么?bagging的思想解释一下?
随机森林对样本进行抽样是一个有放回抽样还是无放回抽样?
类别特征怎么处理?不做独热编码会有什么问题?
Xgboost怎么衡量特征重要性?
还了解什么机器学习模型?
美赛只有6万条数据,为什么要用lstm这么重的模型?lstm需要的数据应该是在一个长的时间跨度里,需要有一些因子能够被捕捉到,这么少的数据不会过拟合吗?为什么不用传统机器学习,其他时间序列模型去做呢?你在美赛中的分工是什么?解释一下什么是层次分析法,怎么用。
毕业论文有在实际工程项目中落地吗?还是只是做了实验?只做了实验。。。
运筹这块了解的深度怎样?商用场景用得比较多的是线性规划,整数规划,不是每个场景都需要用二次规划等复杂的算法。简单一点问,线性规划了解多少?传统的用单纯形法,内点法也可以解。单纯形法简单的用画表格的方式,那么如何从几何意义上解释单纯形法?如何能确保单纯形法最后能找到最优值而不是陷入死循环,或者产生退化?想让我回答线性规划是不是凸优化问题。
实习经历没有做机器学习,没有做模型,做得更多的是指标分析,自己当时是怎么考虑这个事情的?
实习期间在做指标分析的时候,肯定有个商业目标,怎么根据目标设计指标体系,怎么做分析,怎么通过指标体系再来衡量,得出什么样的结论?
假如某个国家的GMV没有达到预期(我实习在电商),怎么去分析这个问题?从哪些角度去看?
物流和供应链有学过?
小哥问得比较细,然后总体来说挺nice的,会引导我去回答。
一面
4.7 31min
简单介绍一个比较典型的做过的项目,被打断直接提问:用了什么模型,模型的loss函数是什么
ROC曲线和PR曲线之间的区别
在比赛里的名次是什么,有没有到10%,跟第一名差了多少,有没有看过第一名的代码?这个比赛里有哪些地方可以优化提升?你比赛的名次也不高,为什么这个比赛你做得比较好呢?你自己的工作有什么亮点?(面试官觉得我说的亮点很普通)怎么调参的过程说一下?特征工程上有没有一些思考?
除了这个比赛还有其他的做的比较好的吗?我介绍了一下我实习的工作。问了我公司名称,估计他在现场搜索。关于月复盘的分析怎么做的?
在学校里研究过什么论文?我介绍了一下最近在跟导师做的工作和看的论文
ML是自己学的吗?
运筹方向和NLP方向了不了解?解释一下什么是动态规划?P问题和NP问题的区别在哪里?NP问题怎么求解?大规模运算下怎么求解?
一面面完感觉很不好,好多问题没答上来或者说回答的面试官觉得很普通,没想到能过。。。
简单介绍一个比较典型的做过的项目,被打断直接提问:用了什么模型,模型的loss函数是什么
ROC曲线和PR曲线之间的区别
在比赛里的名次是什么,有没有到10%,跟第一名差了多少,有没有看过第一名的代码?这个比赛里有哪些地方可以优化提升?你比赛的名次也不高,为什么这个比赛你做得比较好呢?你自己的工作有什么亮点?(面试官觉得我说的亮点很普通)怎么调参的过程说一下?特征工程上有没有一些思考?
除了这个比赛还有其他的做的比较好的吗?我介绍了一下我实习的工作。问了我公司名称,估计他在现场搜索。关于月复盘的分析怎么做的?
在学校里研究过什么论文?我介绍了一下最近在跟导师做的工作和看的论文
ML是自己学的吗?
运筹方向和NLP方向了不了解?解释一下什么是动态规划?P问题和NP问题的区别在哪里?NP问题怎么求解?大规模运算下怎么求解?
二面
4.7 晚上打电话约面试时间,这是唯一一次不是突袭面。
4.8 67min
选一个比较得意的项目进行介绍?项目的挑战是什么,我的贡献是什么?
项目里某个数据有没有考虑季节性影响?
缺失值怎么处理?
boosting和bagging哪个减少方差哪个减少偏差?为什么?
介绍了本科毕业论文以及相关的一些拓展问题,讨论了我在接下来跟导师做的研究当中打算怎么继续做,有些他觉得可能存在的问题问我有没有考虑到?
介绍实习的业务背景,需要完成什么工作,为什么工作重要,我又是怎么做的?分析过程中过于在意长期和过于在意短期可能会带来的问题,怎么做平衡?怎么判断我从数据中看到的变化是真实有效的而不是单纯扰动?
介绍美赛怎么做的?我做了哪些任务?小组当中有没有出现争论,怎么解决的?
类似PDP方法的分析中,可能会出现A增加输出而B减小输出,导致输出不变,你又发现不了AB变量的作用?怎么解决这个问题?
XGBoost的并行化思想体现在哪里?哪些地方可以并行,哪些地方不可以并行?
我的项目涉及的领域还蛮不一样的,都有一些兴趣,那我将来的职业发展如何考虑的?
现实中可以做类似咨询的工作的方向,也有类似于应用工程的方向,我选哪个?
选一个比较得意的项目进行介绍?项目的挑战是什么,我的贡献是什么?
项目里某个数据有没有考虑季节性影响?
缺失值怎么处理?
boosting和bagging哪个减少方差哪个减少偏差?为什么?
介绍了本科毕业论文以及相关的一些拓展问题,讨论了我在接下来跟导师做的研究当中打算怎么继续做,有些他觉得可能存在的问题问我有没有考虑到?
介绍实习的业务背景,需要完成什么工作,为什么工作重要,我又是怎么做的?分析过程中过于在意长期和过于在意短期可能会带来的问题,怎么做平衡?怎么判断我从数据中看到的变化是真实有效的而不是单纯扰动?
介绍美赛怎么做的?我做了哪些任务?小组当中有没有出现争论,怎么解决的?
类似PDP方法的分析中,可能会出现A增加输出而B减小输出,导致输出不变,你又发现不了AB变量的作用?怎么解决这个问题?
XGBoost的并行化思想体现在哪里?哪些地方可以并行,哪些地方不可以并行?
我的项目涉及的领域还蛮不一样的,都有一些兴趣,那我将来的职业发展如何考虑的?
现实中可以做类似咨询的工作的方向,也有类似于应用工程的方向,我选哪个?
是个特别特别友善的leader,语气很好,全程用您称呼我,我害怕得一批。。。
交叉面
4.13 40min
主要就是聊项目,发散性问一些问题
自我简单介绍下做的项目
先了解了一下我所学的专业情况
实习就是问我怎么做分析,用了什么指标?有没有自己设计出来的指标?分析完之后需不需要给出结论性的决策方案?
场景题,几十个仓库怎么根据销售额补货,我答了先做需求预测,再做运输成本最优的运输方案,然后他一直追问我还有呢我又憋出了俩
自我简单介绍下做的项目
先了解了一下我所学的专业情况
实习就是问我怎么做分析,用了什么指标?有没有自己设计出来的指标?分析完之后需不需要给出结论性的决策方案?
场景题,几十个仓库怎么根据销售额补货,我答了先做需求预测,再做运输成本最优的运输方案,然后他一直追问我还有呢我又憋出了俩
然后问了我怎么看京东和亚马逊之间的对比,我不知道亚马逊,就说了说京东,然后他问我京东砸钱搞基建的战略最大得问题是什么
数据挖掘的项目和数学建模的项目简单问了问,问了随机森林的原理和优缺点,缺点我没答好只准备了优点;问了我机器学习学了哪些方面?我比较懵逼不知道问的是什么意思;然后他问机器学习里的attention机制是什么?
你学过的物流和供应链管理的知识有哪些方面?
我觉得自己最大的优势是什么?
毕业时间,家在哪里,为什么想来阿里?
这一场4.10就打电话来面了,当时人在外面没面,结果4.13是晚上20点打过来,我人还在外面,直接在我妈车后座面了。
数据挖掘的项目和数学建模的项目简单问了问,问了随机森林的原理和优缺点,缺点我没答好只准备了优点;问了我机器学习学了哪些方面?我比较懵逼不知道问的是什么意思;然后他问机器学习里的attention机制是什么?
你学过的物流和供应链管理的知识有哪些方面?
我觉得自己最大的优势是什么?
毕业时间,家在哪里,为什么想来阿里?
这一场4.10就打电话来面了,当时人在外面没面,结果4.13是晚上20点打过来,我人还在外面,直接在我妈车后座面了。
HR面
4.15上午接到电话,在看病不方便没面
4.17上午面试 24min
自我介绍
介绍一下实习经历
介绍一下一个项目
介绍一下建模比赛
成绩怎么样,均绩多少?我现场算的,少算了0.7分哭了
数据和建模偏向于哪一侧的实习?
前面几轮的面试自己什么感受?
家是哪里人?
手头有其他公司的面试吗?
未来的职业规划,有没有读博打算?
问我是不是没有参加笔试?是想让我补一个笔试吗,数分好像本来就没有笔试鸭
自我评价,最大的优点和需要自我提升的地方?缺点举个例子说明
反问什么时候出结果?3-5工作日,3个就差不多了。
介绍一下实习经历
介绍一下一个项目
介绍一下建模比赛
成绩怎么样,均绩多少?我现场算的,少算了0.7分哭了
数据和建模偏向于哪一侧的实习?
前面几轮的面试自己什么感受?
家是哪里人?
手头有其他公司的面试吗?
未来的职业规划,有没有读博打算?
问我是不是没有参加笔试?是想让我补一个笔试吗,数分好像本来就没有笔试鸭
自我评价,最大的优点和需要自我提升的地方?缺点举个例子说明
反问什么时候出结果?3-5工作日,3个就差不多了。
转正流程?专门的小组答辩,不仅看动手能力还要看学习能力。
没有绝命问题,都是常规问题,但是感觉HR姐姐在走流程,好像对我没啥兴趣的样子,我每次说完一段话就有一段恐怖的空白。。紧张死了。