2023届校招面经:第四范式-数据科学家(商业分析)
TimeLine:一面20220722,二面20220727,三面20220810,HR面20220815,意向20220824
BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师
一面
1. 简述p值的概念
定义1:根据检验统计量的样本观察值得出的概率,此概率为原假设可被拒绝的最小显著性水平
本质上是一种概率,可以由统计量的样本观察值计算出来,与显著性水平作比较时可以得出拒绝/不拒绝原假设的判断,这种检验方法也被称为p值法
定义2:当原假设为真时,比所得到的样本观察结果更极端结果出现的概率
拿抛硬币为例子,假设A手上有一个两面都是字的硬币,想通过抛硬币的方式让B来猜自己手上的硬币是不是正常硬币(指一面字一面花)B作假设检验,原假设为”硬币正常“,备择假设为”硬币不正常“
当抛硬币抛到第5次时,概率已经很小了(甚至小于显著性水平0.05),则B可根据小概率原理拒绝原假设(如果硬币是正常的,那么”连续出现5次字“的概率非常低,若实验时观察到”连续5次字“的现象,则说明”连续5次字“不是小概率事件,因此拒绝原假设”硬币是正常的“)
2. 如何向没有统计学基础的业务方从p值的角度解读AB实验的结果
AB实验的核心思想是假设检验,原假设为“策略/功能无效”(线上指标并不显著),备择假设为“策略/功能有效”(线上指标显著)。对于业务方而言,无须特别细究p值的定义,只需要向其说明p值小于AB实验设定的显著性水平即可判定策略或功能有效。
3. 决策树有哪三种?
ID3(仅可分类,判定标准为信息增益)、C4.5(仅可分类,判定标准为信息增益率)、CART(分类的判定标准为基尼系数、回归的判定标准为均方误差MSE)
4. 随机森林对样本的采样方式是什么?
重采样,即有放回采样
5. 追问:样本有多大的可能性不会被选入数据集中?
6. 对深度学习的了解?
本科毕设做的是情感分析,用到了CNN、RNN/LSTM/GRU
7. 两道算法题
问题1:
给定升序的int的array,对每个元素进行平方操作,并返回升序数组。 例如,arr = [-4, -3, 0, 1, 5, 6], 返回 result = [0, 1, 9, 16, 25, 36]
def func(arr): #解法一:O(nlogn)时间复杂度 return list(map(lamdba x: x**2, arr)).sort(ascending=True) #解法二:找最大数字,O(n)时间复杂度 result = [] while arr: if len(arr) != 1: if abs(arr[0]) > abs(arr[-1]): result.append(abs(arr[0])**2) arr = arr[1:] else: result.append(abs(arr[-1])**2) arr = arr[:-1] else: reslut.append(abs(arr[0])**2) arr = [] return result.reverse()
问题2:
给定3个坐标点的集合,如points=[[x1,y1],[x2,y2],[x3,y3]],
如果符合以下条件:1)3个点都是不同的;2)3点不在一直线上,
则返回True,否则返回False
#判断任意两点连线的斜率是否相等 def func(points): return (points[0][1] - points[1][1]) * (points[0][0] - points[2][0]) != (points[0][0] - points[1][0]) * (points[0][1] - points[2][1])
二面
主要聊简历上的实习经历和项目经历
三面
主要聊简历上的实习经历和项目经历
HR面
1. 学校中导师的项目和实习中的项目有哪些区别?
2. 性格的优劣势?
3. 说说实习过程中最棘手的经历?
4. 如果后期有其他大厂的offer,会优先考虑范式吗?
#数据人的面试交流地##校招##秋招##面经##第四范式#