字节跳动数据分析面经(已oc)

第一次投游戏业务朝夕光年,二面挂,被抖音部门捞起来,三面挂。
–––––––––朝夕光年–––––––––
8.11游戏一面
问了实习和游戏的经历,实习问的比较细,实习里的业务指标的定义也会被问到。后半场全是游戏业务问题,问了我王者荣耀为什么那么受欢迎,这题答得不太好。
8.13游戏二面
问了项目和比赛,但问的不是很深,把流程叙述一遍就好了,有问到项目原始数据的选取。介绍一款游戏,然后问如果这个游戏推进一个活动,哪些指标可以衡量活动好坏。游戏里氪金的方式有哪些。游戏如何维持各氪金程度用户继续氪金。除了最后一个问题,觉得大体都答出来了,但还是收到感谢信。
复盘一下,游戏业务挂的原因可能是我对游戏了解太少了,业务理解比较浅,回答没有亮点。
––––––抖音/抖音火山版/直播––––
8.19一面
感觉碰上技术大牛,项目会挖的很深,问了项目里用的交叉熵函数,没答上来。问了一些统计知识,像是相关系数,p值含义等,问了数据清洗,zscore和最大最小值法的区别,以及他们的应用场景,还有召回率的应用场景。写了道SQL,找出工资top10的员工,这里order by默认升序我记反了。最后反问,我提到业务问题,面试官让我说一下竞品分析,也就是抖音和快手的区别。面试官又问了一个全屏沉浸式瀑布流和分栏式瀑布流对社区(?这里记不清了)和日活的影响。
一面完以为凉了,结果还是收到了二面。
8.21二面
二面问了业务问题,哪些指标可以衡量抖音推荐
算法是否准确。答了完播率,转赞评率,平均使用时长等,面试官接着让我从里面挑一个核心的指标。接着出了SQL题,问了开窗函数,连续登录2.3.5天以上的用户ID,多表链接问题,但我只答出登录连续两天以上的问题。然后面试官出了一道智力题,25只乌龟,5个赛道,找出速度top3的乌龟,至少需要几轮,这题做出来了,7轮。
二面面试体验最好,在回答业务问题时,面试官会和你探究,交流,出现错误的地方他也会暗示你,整个人很亲切。
8.24三面(2小时.......)
三面可以用魔鬼来形容,我太菜了,已经跪了。
面试官上来怼了我的项目,认为bp神经网络预测股票不该用交叉熵函数。接着手推算法,我选了线性回归.....我想从一元推起,然后推广到多元,面试官直接让我推多元,推到dl/dai=0就推不动了,又被怼了一波基本功。接着让我分析一个case,case背景是陌陌换了匹配算法,要做abtest,这里我用的是匹配之后的搭讪率,我提到统计变量是转化率用卡方检验,被追问为什么,没答上来。又问了样本量分配的问题,列了一波公式,勉强过关,接着被问小样本做实验可能出现的问题,没答上来。(答案:小样本可能会存在多次重复匹配同一个人的现象),对了还问了辛普森悖论,以及如何避免这种现象。
接着最魔鬼的部分来了,手撕SQL,第一道题不难,做出来了,但是面试官觉得我的SQL执行起算来效率不高还占内存,让我换种方法写,没写出来....第二道SQL,题意比较复杂,我第一次理解错题意了,写错了,第二次改还是不对....然后没有反问环节,面试就结束了....
面试时,Sql题是口述的,我凭回忆整理列下面

补充一下,求和是指求整张表里这些数的分组总和..题意比较绕人,例如
uid1 uid2 value
1       2        2
2       3        2
1       4        3
1       2        4
给定值为1,2和4都和1同行,对2进行求总和:2+2+4(第一行,第二行,第四行的value值),对4求总和:3(第三行),到现在还是没写出来,欢迎大家讨论
–––––––––––––––––––––
自己项目细节确实没弄清楚,唉....一开始挺难受的,现在已经想开了,不纠结字节了,大不了去小公司,下面的好好准备。面经发出来供大家参考,顺便攒一波人品,大家加油!
–––––––––––9.16更新––––––––
三面回答的很不好,一度以为凉了...但没收到感谢信,打电话问了HR,HR说三面过了,接着就是漫长的审批环节.....8.24终面,9.15等到意向书……太不容易了.....最后,表白我的对接HR小姐姐,负责耐心又温柔!祝愿大家早日上岸,都会收到喜欢的offer的!!#面经##字节跳动##数据分析工程师##实习#
全部评论
想了半天,这个场景可能是要某个用户的关注/被关注用户列表,再分析这些用户所有关系对应指标和 大家看看这样行不行😂 1. select distinct(case when uid1=1 then uid2 when uid2=1 then uid1 else null end) as cor_id from 原始表,这个表记成cor_table 2. select cor_table.cor_id, sum(原始表.value) from 原始表, cor_table where cor_table.cor_id=原始表.uid1&nbs***bsp;cor_table.cor_id=原始表.uid2 group by cor_table.cor_id
2 回复 分享
发布于 2020-08-25 20:37
三面_为什么转化率要用卡方检验:转化率属于二分类问题,即转化1和不转化0,所以转化人数X服从伯努利分布(二项分布);当np和n(1-p)均大于5时,转化人数X也服从正态分布。卡方检验的检验统计量等于∑(实际转化人数A-理论转化人数T)^2/T,当转化人数X服从正态分布时,检验统计量服从卡方分布,然后可进行卡方检验。
2 回复 分享
发布于 2020-09-17 23:57
lz这个数据分析面试好难啊 加油加油鸭!
3 回复 分享
发布于 2020-08-25 18:21
交叉熵一般作为分类的损失函数,回归一般用RMSE, MAE等
点赞 回复 分享
发布于 2020-08-25 18:45
你的结果很好指的是损失函数值很低还是预测值很接近呢,如果只看损失函数的话,实际预测出来的值和真实值会相差很大的
点赞 回复 分享
发布于 2020-08-25 19:02
大佬,第一道SQL是用where进行分级找出没级的前十名然后再用select把所有的前十名提取出来吗
点赞 回复 分享
发布于 2020-08-25 19:51
三面那里看的我要窒息了。。也问的太细了。。。
点赞 回复 分享
发布于 2020-08-25 21:09
第二道SQL: select t2.dd,   sum(if (uid2 in (t2.dd)&nbs***bsp;uid1 in(t2.dd),value,0)) from 原表 t1  join (select distinct uid2 dd    from 原表    where uid1 = 1) t2 where uid1 = t2.dd&nbs***bsp;uid2 = t2.dd group by t2.dd
点赞 回复 分享
发布于 2020-08-25 23:35
楼主您好,请问面朝夕光年时,您二面后多久收到感谢信呀?
点赞 回复 分享
发布于 2020-08-26 20:35
请问楼主大大,手推公式那里,还可以选择哪些😂谢谢啦~
点赞 回复 分享
发布于 2020-08-27 16:52
楼主我今天一面的数据分析 疯狂问ab测试的问题 太细了都是我听都没听说过的点 还问了dau下降要怎么分析 紧接着问了一道SQL题就是你的SQL第二题。。。我十分钟之内没写对就跳过了 (要是我早点看到这个帖子就好了)。然后让我手写推算logistics regression的loss function和推最优解 面试官全程不提示的 面无表情 我真的是凉的彻彻底底。
点赞 回复 分享
发布于 2020-09-16 17:03
请问楼主是Data数分吗,一直以为字节的面试偏产品,你的咋这么硬核。。。
点赞 回复 分享
发布于 2020-09-16 23:42
楼主我也面的抖音/抖音火山版/直播的数分!一面的问题跟你二面很像,sql和龟兔赛跑都有!
点赞 回复 分享
发布于 2020-09-17 21:52
点赞 回复 分享
发布于 2020-09-18 17:48
您好 想问下 字节一般有几面呀 hr面刷人多吗
点赞 回复 分享
发布于 2020-09-19 09:19
求个楼主的bg~
点赞 回复 分享
发布于 2021-02-07 18:22
请问楼主是没有hr面吗
点赞 回复 分享
发布于 2021-02-08 22:35
楼主这个是实习还是校招呀?
点赞 回复 分享
发布于 2021-02-24 16:50
请问楼主是不是全职啊?
点赞 回复 分享
发布于 2021-08-12 10:20
三面的sql题目不太清楚意思
点赞 回复 分享
发布于 2022-02-19 19:23

相关推荐

11-15 19:28
已编辑
蚌埠坦克学院 硬件开发
点赞 评论 收藏
分享
评论
23
230
分享
牛客网
牛客企业服务