数分人的秋招记录贴——奥力给!
LZ想过冲算法但是发觉我的脑壳和coding能力不允许,于是冲进了茫茫一片数分大军,把秋招面试记录在这,供同学萌参考参考,大家一起快落拿offer!
9.20情况
意向:京东、pdd、虎牙
在面:g社
等结果:携程、腾讯、字节
挂了的:莉莉丝、米哈游、阿里、美团、蔚来、快手
没被理过的:b站、小米(投完两个月之后发来的,拒辽)、百度、小红书、网易互联网、tme
【京东 提前批】
一面(1h)
自我介绍环节
对每一段实习经历和项目经历进行提问和深挖
线性回归的假设是什么(基础不牢,地动山摇orz)
极大似然估计与最小二乘法的异同
L1 L2范数
如何避免过拟合
两道easy算法题(它本身很easy,但对我有点艰难orz)
一道sql题(提取每一科成绩>80分的总分top10同学)
组内介绍
反问环节:面试评价 部门定位(偏ds) base 对接哪一方
二面(1h)
自我介绍
自我优势是什么
说一说逻辑回归
为什么用sigmoid函数,怎么找出来的
极大似然估计方法是怎么来的,基于哪些假设
举个样本间不独立的例子
介绍一下A/B Test内容
怎么判断实验量够不够
是否指标只要显著就可以得出结论
什么情况下做T检验,假设是什么
调研的因果推断类的一些结果
概率题(两人轮流扔色子 先扔到6获胜 第一个人获胜的概率)
会写快排吗
怎么从很大的样本池中抽样
不同搜索排序下,不同商品的转化率不一样,怎么确定这个转化率的区别是由排序导致的还是商品种类导致的
反问
三面(40min)
自我介绍
挖第一个实习
怎么使得下钻分析时,结果更加置信(提到了均匀分组)
怎么均匀分组
构建倾向性得分的方法
在不同下钻维度下,如果在多个维度下都有提升,怎么评估哪种维度下效果最好
置信区间的定义是什么
p-value定义
方差一定,置信区间越窄,p-value怎么变
挖第二个实习经历
怎么用数值模拟方法估计pi
对ds的了解和未来职业规划
反问环节
hr面
常规问题,问性格问经历规划,薪资预期
意向get
【蔚来 数据挖掘算法开发工程师 】
已笔试
一面挂(30min)
自我介绍,问了经历后就感觉面试官不太满意了
涉及建模的经历和所做的方法
XGB、随机森林和GBDT的异同
了解电池业务吗(.......这咋会了解这个的)
面试官耐心的介绍了很久,并表示希望找懂电池寿命与质量的候选人(暗示我没了orz)
反问
重新投递数据分析师!
【百度 数据分析师】
应该是没人捞了qaq
【pdd 数据分析师】
已笔试(20选择+3SQL)
一面 (40min)
自我介绍
深挖实习,做了啥,逻辑是啥,怎么提升
两道SQL
费米问题:估上海每日地铁客流量
作为电商 两个关注指标,做个异动分析(经典八股)
职业规划
反问
二面
自我介绍
挑一个项目讲讲,做这件事的目的是啥,怎么做的,效果怎么样
abtest的理解(显著性水平、样本量、样本分流方向等要点)
相关性怎么检测
缺失值处理、归一化怎么理解
异常值检测和处理
讲讲isolation forest的原理
讲讲特征选择和降维
模型过拟合、欠拟合
如何解决过拟合
怎么处理数据不平衡(10倍以上)
贝叶斯公式与参数估计中的贝叶斯估计
描述正态分布以及它所用的场景
两道sql
反问
三面
自我介绍+简历面
sql题+贝叶斯定理题
问规划
反问
hr面
自我介绍
成绩、是否保研
优缺点
职业规划与城市选择
对加班怎么看
薪资预期
反问
意向get
【虎牙 数据分析工程师】
一面
简历挖掘
sql题
直播场景业务题*1
反问
二面
自我介绍
问经历、讲一个做的最好的项目
sql * 1
贝叶斯题 * 1
RF XGB GBDT的异同
聊规划
反问
三面
介绍简历,简单问了几个问题
开始聊天......
hr面
评价自己优缺点
选择工作,各类因素排序
成绩、家庭情况巴拉巴拉
【网易 战略分析(data方向)】
七月投的,九月底才笔试,提前批 提前了个寂寞
【Garena 数据分析】
已笔试
十道不定项选择,涵盖概率论数理统计、数据挖掘、sql以及游戏知识
三道编程题(实际上是6个sql加一个python)
两道问答题(其实也是sql题)
【字节 算法工程师(其实是数分)】
一面(90min)
自我介绍
leetcode一道(写了20min orz)
极大似然估计是啥
eg:抛硬币问题
为啥极大似然可以用ln对似然函数做处理,其他行不行
参数估计是啥
点估计和区间估计的区别和联系
假设检验:第一类错误和第二类错误是啥
如何权衡第一类错误和第二类错误
如何评价估计量好坏
辛普森悖论是啥,abtest怎么避免它(随机分流)
参数估计和假设检验的联系和区别
(联系:a、都是根据样本信息推断总体参数;
b、都以抽样分布为理论依据,建立在概率论基础之上的推断;
c、二者可相互转换,形成对偶性。
区别: a、参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;
b、区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;
c、区间估计立足于大概率,假设检验立足于小概率。)
深挖实习经历
因果推断工作的内容
对因果推断的了解,介绍一些常见的算法
如果要在字节落地这些东西,有哪些难点,需要做哪些事儿
XGBoost解释
为什么用二阶导数而不用一阶导数
考虑三阶导数会更好吗,或者有什么问题?(额滴神。。。)
导数阶数实际是在工程上的一个trade-off,是在什么上做权衡呢
CART树 ID3 C4.5区别
类别特征一般怎么输出给模型,比如全国城市特征。
反问:
业务、工作内容 push中台
ds da 数仓都有
工作强度
二面(45min)
自我介绍
简历面
一道SQL
一道业务题
问对于做技术向和做业务向的看法
反问环节(硬是没把这位面试官的业务问出来orz)
三面(1h)
挖简历(讲的很多为什么做,做了什么,产出什么形式)
怎么理解数据分析师的价值
两道业务场景题(好久了...记不太起来)
讲随机森林、XGB和GBDT
了解推荐系统的链路吗
贝叶斯概率题
圆上取三点,形成锐角三角形的概率
飞机座位题(n个人上飞机,第一个人随便坐,后续上飞机的人坐自己的位置,如果位置被占,则随便坐,求最后一个人坐对的概率)
反问
许愿个hr面....等了半个月了
挂了重新投递
【数据分析师】
一面(60min)
自我介绍
对比较感兴趣的因果和数据挖掘项目做了深入提问
说一些因果算法(讲了xlearner和因果森林)
介绍一下PSM和IPTW
知道doubly robust吗(。。不会了)
讲讲降维算法,PCA与LDA
基于LDA讲瑞利商(自己踩坑了)
了解非线性降维吗(讲了核PCA)
知道t-sne吗(不知道了....)
讲讲自动编码(没听过这个词,不过和词向量模型做embedding差不多,蒙中了)
讲一个em算法的例子(混合高斯聚类)
混合高斯聚类中,哪个是隐变量
什么是假设检验,t检验和z检验区别
一道python题(写一个类,实现一些功能)
反问
(面完感觉自己的模型基础还是不太牢...以为自己挂了,后来还是约了二面,很希望这个能过吧)
【阿里 数据开发(捞歪了orz)】
8.8 一面(1h10min 电话面)
介绍了下这是个开发组,问了问情况
两道sql调优
四种连接
连接时,on后面加分区字段和where后面加分区字段有什么区别(挠头.jpg)
数据库三范式是什么
计算机相关知识会什么
python的set和list区别
python的对象是可变类型,怎么实现的(。。。)
介绍了下部门
反问
(投数分被拉到数据研发了,忐忑)
8.13 二面(50min 电话面) 被diss得很惨,教训是要果断拒绝不合适的岗位
自我介绍
在校成绩怎么样,学过哪些课,成绩怎么样(就不该说数据库分高的.....全忘了)
开始问数据库知识
mapreduce原理
数据倾斜与解决方案
索引原理和种类,可以全表加索引吗
procedure和view的相同与区别
知道xxx吗(甚至没听懂是啥)
python深拷贝与浅拷贝
is与==的异同
栈和队列怎么实现的
知道计算机内存结构吗
(面到这里我和面试官都麻了......)
聊规划
反问
然后挂了orz
【携程 大数据分析工程师】
笔试
- 选择题(具体忘辽,大概是概率题+sql+机器学习)
- 两道SQL一道python
8.20 一面(45min)
- 挖简历
- 面试官介绍了做反作弊、风控的
- 异常检测怎么做
- 过拟合咋办
- XGBoost和随机森林的异同
- 场景题(如何识别携程机票中的黑卡交易,用什么特征、有监督还是无监督)
- 反问
8.25 二面(45min)
- 深挖简历
- 重点讲实习中做的建模部分
- 场景题(异常邮箱识别)
- emmm这次没有反问环节
hr面
常规问题
【美团 商业分析】
到店:8.13一面 8.18二面
一二面都是聊简历,一面聊的很开心,问了sql和excel基础的知识(sumif和sumsif的区别,这个被问倒了)
二面同样是挖简历,但面试官比较严肃,也对我实习中做得浅 比较不满意,还问了怎么看共享单车的商业模式和进入市场需要考虑的因素.....(摊手.jpg)
挂.....
优选:
9.3 一面:
简历面
如何评价自己(措手不及)
基于自己对自己的评价,在过去实习经历或者校园活动中说一个自己比较满意的case(这段嘴瓢,讲的很烂)
如何给小朋友通俗易懂的讲正态分布(我在想怎么讲中心极限定理,而面试官的意思是举个例子,然后说下分布的趋势就可以)
对商业分析的理解(我:数据分析+业务挖掘+行业扫描,面试官不太感冒)
对美团了解吗(我说了自己用的app)
为什么投递美团(我:商业分析师紧跟市场,视野比较宽,发展比较好+在上海+大厂,面试官:就这?)
反问(我自知已凉orz)
估计是挂了,复盘起来还是自己的商业sense太弱了,以及过去实习工作在业务侧做的很浅,实际策略和运营都是产品方负责,面商分着实是暴露自己的短板了
【莉莉丝 数据分析师】
一面 9.6(30min)
简历面(怎么做的,效果咋样)
数据库熟练程度
玩的比较多的手游(策略卡牌类)
case题两道:
分析新英雄流水下降的原因
为下期需要上线的新英雄做建议并预测流水
反问:
所在部门与业务,工作内容
对候选人能力的期许
工作强度
(聊的感觉还行..但是一面完一直也没消息了,在官网上查了下应该是挂了)
【快手 数据分析师(内容安全)】
一面(30min)
自我介绍,问了问实习
case:快手近期打赏退费额上升,怎么分析
问了问sql熟练程度
介绍下召回率和精确率
然后就是部门介绍了
二面(15min)
自我介绍
一直在聊简历,然后聊部门内容
hr面(10min)
常规问题
快手整个流程快的离谱,快的让我有点慌....三面加起来没有字节一面长orz
【米哈游 市场数据分析师】
一面
自我介绍
介绍下自己喜欢的游戏
面试官介绍了下这个岗位更偏市场,而不是游戏产品本身
问了一些case题,比如游戏用户的流失模型、如何基于市场上的数据去对一款游戏做分析(诸如此类,记不太清晰了)
反问了面试官对这个岗位候选人的要求(说需要具备多元的能力,数据分析、商业sense、市场分析、模型能力等)
一面挂了....