日常实习面经:腾讯-技术研究(数据科学方向)

TimeLine:一面20211102

当时的BG:北邮本硕,管理类专业,一段实习经历:美团商业分析师

写在前面的话:该文档记录日常实习面试的相关问题,面试时间为2021年。以下问题的答案可能存在错误,敬请读者批评指正

一面

1. 介绍一下假设检验

假设检验是用来判断样本与样本之间的差异究竟是抽样误差导致还是存在本质差别的统计推断方法,本质上是反证法(证实一个命题需要穷尽所有可能,证伪一个命题只需要一个反例)

1)需要先构造原假设和备择假设,其中,原假设是”差异是抽样误差所致“(例如AB测试中:”新功能/新策略没有效果“),备择假设是”差异是因为存在本质差别“(例如AB测试中:”新功能/新策略有效果“)

2)根据样本情况构造合适的统计量

3)根据样本数据计算统计量的值,根据显著性水平判定是否落入拒绝域内,若落入拒绝域,则根据小概率原理(小概率事件一般不会发生,如果我们观察到某一事件发生了,则说明这个事件不是小概率事件)拒绝原假设

2. 简要介绍一下AB测试

为了科学合理地评价产品的新功能或新的产运策略可否上线,应从大盘中命中一定比例的用户,使用合理的分流机制将命中的用户尽可能均匀地分配到不同的组内,其中,体验线上配置的用户群体被称为”对照组“,体验新功能的用户群体被称为”实验组“,在相同的观察周期内,观察对照组和实验组在关键的业务指标和性能指标上的显著差异,根据观察结果来判断新功能能否上线

3. 简述一下p值的概念

定义1:根据检验统计量的样本观察值得出的概率,此概率为原假设可被拒绝的最小显著性水平

本质上是一种概率,可以由统计量的样本观察值计算出来,与显著性水平作比较时可以得出拒绝/不拒绝原假设的判断,这种检验方法也被称为p值法(1.中所介绍的是临界值法)

定义2:当原假设为真时,比所得到的样本观察结果更极端结果出现的概率

拿抛硬币为例子,假设A手上有一个两面都是字的硬币,想通过抛硬币的方式让B来猜自己手上的硬币是不是正常硬币(指一面字一面花)

B作假设检验,原假设为”硬币正常“,备择假设为”硬币不正常“

当抛硬币抛到第5次时,概率已经很小了(甚至小于显著性水平0.05),则B可根据小概率原理拒绝原假设(如果硬币是正常的,那么”连续出现5次字“的概率非常低,若实验时观察到”连续5次字“的现象,则说明”连续5次字“不是小概率事件,因此拒绝原假设”硬币是正常的“)

这里的概率就是我们通常所说的p值,联动定义2再理解一遍:

当原假设为真(硬币正常)时,比所得到的样本观察结果更极端结果出现的概率(连续出现5次及以上次字的概率),一旦观测到”连续出现5次及以上次字“这一现象,则根据小概率原理拒绝原假设

4. SQL考察

数据表:用户关注表user,字段有:user_id '用户id',target_user_id'关注用户的id'

1)互关的人数

 with a as
 (
 select t1.user_id
 from user t1
 where exists
 (select 1
 from user t2
 where t1.user_id = t2.target_user_id and t1.target_user_id = t2.user_id 
 )
 )
 select count(user_id) / 2 from a

2)粉丝量在10-100的用户

select target_user_id
from user
group by target_user_id
having(count(user_id)) between 10 and 100

5. SQL中partition by和group by的区别

1)从SQL的执行顺序来看

group by的执行顺序优先,partition by是在select子句中

2)group by只保留参与分组字段和聚合函数的结果,partition by可保留所有字段,并给出针对某字段的窗口函数结果

6. 简述一下一类错误和二类错误的概念?

注:建议画图进行辅助讲解

一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误

二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误

该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页

(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效

由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)

7. 如何降低二类错误?

1)降低置信度,提高显著性水平(但这样会提高一类错误概率)

2)增大数据量,减小方差,进而提升统计功效,降低二类错误概率

3)在保证样本量不变的前提下,增大MDEMinimum Detectable Effect,最小检测效应,被定义为期望观察到的最小差异)将会提升统计功效,降低二类错误概率

MDE的概念参见下图:

8. 请简述一下t检验、z检验和方差分析的区别?

先区分t检验和z检验,区别在于构造不同的统计量:

1)t检验适用于样本量较小,总体方差未知

2)z检验适用于样本量大,或样本量小,但总体方差已知

再区分t检验和方差分析:

1)t检验:研究两组分类型自变量对数值型因变量的影响,通过判定两组均值是否相等

2)方差分析:研究两组或多组分类型自变量对数值型因变量的影响,直接检验各组均值是否相等

例如,假设这里有来自4个总体的样本,想探究这4类样本的均值差异,如果采用t检验,则需要做

共计6次假设检验,6次实验至少犯一次一类错误的概率为

而方差分析可以直接比较这4类样本均值差异(通过均值计算组间平方和SSA和组内平方和SSE,构造F统计量进行假设检验)

此处有追问:t检验共有哪几种形式?

三种——单样本t检验、独立样本t检验和配对样本t检验

9. 日均活跃时长下降,怎么分析?

#数据分析##数据科学##日常实习##腾讯#
全部评论
题目倒是很基础,谢啦
1 回复 分享
发布于 2023-03-23 09:33 辽宁
m
点赞 回复 分享
发布于 2023-03-22 13:23 上海
m
点赞 回复 分享
发布于 2023-08-23 14:26 江苏

相关推荐

#牛友打假中心#当年高考完填志愿的时候,人家就跟我说:“自动化专业啊,就是万金油,啥都学,啥都不精~”我不以为意,然后就发现本科的时候弱电也学一点儿,强电也学一点儿,计算机也学一点儿,电子信息也学一点儿,机械也学一点儿,电气也学一点儿,机器人也学一点儿……后来保研选择了继续留在控制系,控制科学与工程专业,本以为会精进我的研究,没想到单单学院里划分的领域,就包括了:控制理论、机器人技术、机器人控制、视觉CV、硬件设计、生物医学、电气工程、新能源、物流管理……控制科学与工程的核心是系统建模、优化与自动化,理论上可应用于工业、航空航天、生物医学等多个领域。然而,其交叉学科属性既是优势也是陷阱:课程设置庞杂:学生需学习数学建模、信号处理、机器学习、嵌入式开发等多领域知识,但容易陷入“样样通,样样松”的困境。许多院校课程停留在理论推导,缺乏与行业需求接轨的实践项目;研究方向分化严重:部分高校仍聚焦传统工业控制(如PID算法、PLC编程),而另一些则包装为“人工智能控制”“智能机器人”,实际研究内容与计算机科学、电子信息工程高度重叠,导致学生竞争力非常非常不明确。当然,导师也是非常重要的一环,“得益于”这一领域下研究方向的复杂性,很多导师也啥活都接,拿我举例子,读研期间给导师搞了无篇论文,分别的研究方向是:自然语言处理、多机器人调度、机械臂控制避障、点云配准、本体知识图谱推理……不过嘛不过嘛,也不是无解,注意如下四点吧:方向选择重于学校排名:优先选择与产业界合作紧密的课题组(如工业机器人、智能驾驶),避免陷入纯理论“纸面科研”;技能树需“软硬兼修”:强化编程能力(Python/C++)、掌握ROS、MATLAB/Simulink等工具,同时积累硬件开发经验(如FPGA、嵌入式系统);就业早规划:若志在互联网,需补充数据结构、深度学习等计算机核心课程;若深耕制造业,需熟悉SCADA、MES等工业系统;警惕“伪交叉学科”陷阱:部分院校为蹭热点将传统控制专业简单嫁接“人工智能”概念,需仔细调研导师实际课题方向和毕业生去向。
牛客刘北:我真的!我要打假单片机!
点赞 评论 收藏
分享
评论
26
184
分享

创作者周榜

更多
牛客网
牛客企业服务