日常实习面经:腾讯-技术研究(数据科学方向)
TimeLine:一面20211102
当时的BG:北邮本硕,管理类专业,一段实习经历:美团商业分析师
写在前面的话:该文档记录日常实习面试的相关问题,面试时间为2021年。以下问题的答案可能存在错误,敬请读者批评指正
一面
1. 介绍一下假设检验
假设检验是用来判断样本与样本之间的差异究竟是抽样误差导致还是存在本质差别的统计推断方法,本质上是反证法(证实一个命题需要穷尽所有可能,证伪一个命题只需要一个反例)
1)需要先构造原假设和备择假设,其中,原假设是”差异是抽样误差所致“(例如AB测试中:”新功能/新策略没有效果“),备择假设是”差异是因为存在本质差别“(例如AB测试中:”新功能/新策略有效果“)
2)根据样本情况构造合适的统计量
3)根据样本数据计算统计量的值,根据显著性水平判定是否落入拒绝域内,若落入拒绝域,则根据小概率原理(小概率事件一般不会发生,如果我们观察到某一事件发生了,则说明这个事件不是小概率事件)拒绝原假设
2. 简要介绍一下AB测试
为了科学合理地评价产品的新功能或新的产运策略可否上线,应从大盘中命中一定比例的用户,使用合理的分流机制将命中的用户尽可能均匀地分配到不同的组内,其中,体验线上配置的用户群体被称为”对照组“,体验新功能的用户群体被称为”实验组“,在相同的观察周期内,观察对照组和实验组在关键的业务指标和性能指标上的显著差异,根据观察结果来判断新功能能否上线
3. 简述一下p值的概念
定义1:根据检验统计量的样本观察值得出的概率,此概率为原假设可被拒绝的最小显著性水平
本质上是一种概率,可以由统计量的样本观察值计算出来,与显著性水平作比较时可以得出拒绝/不拒绝原假设的判断,这种检验方法也被称为p值法(1.中所介绍的是临界值法)
定义2:当原假设为真时,比所得到的样本观察结果更极端结果出现的概率
拿抛硬币为例子,假设A手上有一个两面都是字的硬币,想通过抛硬币的方式让B来猜自己手上的硬币是不是正常硬币(指一面字一面花)
B作假设检验,原假设为”硬币正常“,备择假设为”硬币不正常“
当抛硬币抛到第5次时,概率已经很小了(甚至小于显著性水平0.05),则B可根据小概率原理拒绝原假设(如果硬币是正常的,那么”连续出现5次字“的概率非常低,若实验时观察到”连续5次字“的现象,则说明”连续5次字“不是小概率事件,因此拒绝原假设”硬币是正常的“)
这里的概率就是我们通常所说的p值,联动定义2再理解一遍:
当原假设为真(硬币正常)时,比所得到的样本观察结果更极端结果出现的概率(连续出现5次及以上次字的概率),一旦观测到”连续出现5次及以上次字“这一现象,则根据小概率原理拒绝原假设
4. SQL考察
数据表:用户关注表user,字段有:user_id '用户id',target_user_id'关注用户的id'
1)互关的人数
with a as ( select t1.user_id from user t1 where exists (select 1 from user t2 where t1.user_id = t2.target_user_id and t1.target_user_id = t2.user_id ) ) select count(user_id) / 2 from a
2)粉丝量在10-100的用户
select target_user_id from user group by target_user_id having(count(user_id)) between 10 and 100
5. SQL中partition by和group by的区别
1)从SQL的执行顺序来看
group by的执行顺序优先,partition by是在select子句中
2)group by只保留参与分组字段和聚合函数的结果,partition by可保留所有字段,并给出针对某字段的窗口函数结果
6. 简述一下一类错误和二类错误的概念?
注:建议画图进行辅助讲解
一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误
二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误
该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页
(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效
由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)
7. 如何降低二类错误?
1)降低置信度,提高显著性水平(但这样会提高一类错误概率)
2)增大数据量,减小方差,进而提升统计功效,降低二类错误概率
3)在保证样本量不变的前提下,增大MDE(Minimum Detectable Effect,最小检测效应,被定义为期望观察到的最小差异)将会提升统计功效,降低二类错误概率
MDE的概念参见下图:
8. 请简述一下t检验、z检验和方差分析的区别?
先区分t检验和z检验,区别在于构造不同的统计量:
1)t检验适用于样本量较小,总体方差未知
2)z检验适用于样本量大,或样本量小,但总体方差已知
再区分t检验和方差分析:
1)t检验:研究两组分类型自变量对数值型因变量的影响,通过判定两组均值是否相等
2)方差分析:研究两组或多组分类型自变量对数值型因变量的影响,直接检验各组均值是否相等
例如,假设这里有来自4个总体的样本,想探究这4类样本的均值差异,如果采用t检验,则需要做
共计6次假设检验,6次实验至少犯一次一类错误的概率为
而方差分析可以直接比较这4类样本均值差异(通过均值计算组间平方和SSA和组内平方和SSE,构造F统计量进行假设检验)
此处有追问:t检验共有哪几种形式?
三种——单样本t检验、独立样本t检验和配对样本t检验
9. 日均活跃时长下降,怎么分析?
#数据分析##数据科学##日常实习##腾讯#