首页 / 数据分析面经
#

数据分析面经

#
19194次浏览 301人互动
此刻你想和大家分享什么
热门 最新
25校招-字节跳动-数据分析面经
秋招已经结束啦,写个面经攒人品,也欢迎大家就下面的场景题进行讨论,希望下次跳槽可以去字节~反思自己非科班出身基础不够扎实,也没有过电商和短视频平台的实习经历,很多业务场景都理解的不够透彻,所以到最后还是挂掉啦一面(考察基础)1.本硕为什么选择这个专业?非统计/数学/ds出身,做数分的motivation?每段实习的成长是什么?2.拷打实习项目:侧重提问因果推断和AB实验项目3.手撕两道SQL,涉及窗口函数和join,不难4.机器学习:阐述Kmeans和集成学习的原理5.AB testing:一二类错误、最小样本量公式、实验周期怎么确定,不同指标类型用什么检验方式以及为什么6.统计学:几种t检验的区别和应用场景二面(考察ds方法和具体情景的结合)1.深挖因果推断项目2.抖音用户增长团队发现app的DAU较上周环比持平,但人均使用时长增长了10%,排除内部数据口径问题,如何做异动拆解?答:先确定大的影响因素,再拆解细分维度。节假日、竞对产品结束大促等活动、抖音内部上线活动,结合历史10%增长数据情况,识别单因素or多因素影响及对影响的贡献。按营销渠道、用户画像、抖音细分产品版块拆解3.定位到是内部电商版块双十一活动带来的在线时长增长,具体活动策略是给用户发券(使用app 1小时就可以领5元电商券,时长重复累计)(1)这种情况下可以开AB嘛?答:不行,因为活动是平台公开透明的,无法满足AB随机分流的条件(2)那怎么评估增量效果?答:PSM+DID,利用活动前的相似用户群体进行DID评估增量,可以从画像属性特征、用户浏览app行为习惯、购买偏好特征进行混杂变量的选取(3)如果只有30%的用户能匹配上,该怎么办?答:调整混杂变量的选取方式或者调整匹配过程中的相似度度量方式(4)除了psm还有其他办法解决吗?可以从DAU一直在稳步增长的趋势考虑答:时间序列模型预测(5)具体说说对时间序列的理解答:粗略分两种,一种是根据所有历史数据预测,另一种通过滑动窗口预测(6)更细致的话,时间序列模型可以用什么,考虑进什么因素答:prophet,考虑周期性变化、季节和节假日影响、异常值或缺失值4.为了进一步提升人均在线时长,内容团队决定优化推荐策略,在海量宠物狗类视频上为用户推荐top10的优质内容:(1)该如何设计指标体系衡量优质内容(聚焦在用户历史播放行为数据指标上,假设所有指标都可取到)?答:(重新clarify问题:通过用户历史行为数据设计指标体系来衡量优质内容)可以分三个方面:- 播放本身:用户跳出率(设置5s/10s跳出的分段),完播率(设置50%/75%/100%分段)- 互动情况:转评赞收藏率- 关注情况:观看后对博主的关注率(2)追问:假设用了跳出率、点赞率和关注率三个指标衡量内容优质得分,该怎么设计评分标准?答:结合历史数据或其他领域的内容视频推荐情况,训练回归预测模型,确立各指标的权重(3)每个指标的取值范围不同,直接建模会有影响,怎么做标准化处理?答:Min Max Scaler/standard scaler....反问了对校招生的要求:面试官说这些题比较灵活,主要考察候选人的思维方式和对待这类问题的态度三面(什么都会问问,比较全面)1.仍然拷打因果推断项目,但更关注项目的背景和对业务方的impact2.除了CI还有别的因果推断方法吗?答:PSM+阐述应用场景+流程(识别对照用户群体+计算倾向分+找衡量方式matching+DID平行性检验)问:计算倾向分的方式?以及更喜欢用哪种&为什么?答:回归/树模型;树模型更好,可以拟合非线性关系3.AB实验样本量计算涉及的因素答:犯一二类错误的概率,样本方差和预期提升【过渡】因为前面的项目涉及到了roi的评估指标,在这里重新定义新指标“体验roi”,下面围绕着这个的场景来问:---这道题太长了,面试时理解成本有点高,答得不好---4.假设滴滴打车用户在某次订单结束后有了差体验,平台想要挽留用户,会对他差体验这单进行补贴,这里产生体验成本;但如果平台并不对这部分用户进行补贴,只是道个歉,短期内滴滴也没有更好的替代品,这部分即使体验不好但也会继续使用滴滴,gmv不会降低。但是从长期来看,如果市场出现了一款滴滴竞品,那么这部分有过差体验的用户就会流失掉成为竞对的用户,长期的gmv会下降,想要看补贴这部分用户的“体验roi”,delta gmv没法用短期数据衡量,可以通过短期的用户满意度指标衡量,给出一个方案建立用用户满意度度量长期gmv变化值的系数答:给了两个方向(1)通过历史数据,加入其他相关指标和用户满意度指标共同拟合出长期gmv变化关系,带入用户满意度的系数;(2)通过其他竞品或公司其他产品的系数作参考追问:回归方程变量前的系数代表什么?答:相对的影响权重 追问:这里的满意度怎么取数?按人群取还是by天(我不太懂)答:按时间分段?某一类人群有失偏颇,不能代表全量用户值5.滴滴这种平台涉及到合理分配资源,尽量满足供需关系。那如何衡量达到了供需平衡的状态呢?答:拆分时段x区域(poi)交叉维度,看应答率、完单率以及司机空闲率问:这是三个指标,怎么根据它们仨判断出一个具体的供需平衡态呢?答:根据每个细分时段x区域,分别作曲线图找拐点:横坐标为在线车辆(司机)数量,纵坐标为三个率指标,分别找拐点,取三条线都最接近拐点的司机数则为当下时段x区域的供需平衡态6.美团单车用户中有一部分是羊毛党,他们可能真实骑了半小时、5块钱的单,但是骑行结束付款后找平台客服撒谎:只骑了1块钱的单,是平台多收钱了,要求退款,怎么帮助客服识别这部分羊毛党答:通过这单骑行路线+时间+相似订单价格+历史沟通(要求refund)记录;其中骑行路线可以细化到骑行路线中是否在某点有停留以及停留时长7.如果把第4题这种roi的测算专项交给我,我怎么展开工作?答:先查看团队空间是否有相似需求的历史文档可参考+询问有经验同事的思路,拟定一版思路和业务团队讨论,看是否有没考虑到的业务因素,和业务拉齐后重新修订,再找自己leader review是否在数据侧可行,是否需要做进一步调整8.三个词评价自己?能接受加班吗?笑死当然是能加班了!9.可以更早地到岗提前实习吗?最近组里有大项目需要人跟人还在国外上学,不能回去打工...orzz#数据分析##数据分析秋招[话题]##数据科学家##数据分析面经##字节数分##字节跳动#
查看28道真题和解析
点赞 评论 收藏
分享
建信金科-数据分析面试总结
笔试一道算法一道sql40分,20道选择60分选择:python字符串和指针,java,c++;简单概率论、特征向量算法:c++递归,算一颗树的得分(左右子树得分+该节点两条边新增的得分=该子树的得分)sql:求每个department中到岗时间最早的员工(用子查询先计算每个department最早的时间,然后拿员工信息和它比对)2022.12.1一面,有四位老师:三范式的定义:答:原子性,依赖主键,去掉非主键之间的函数依赖,去掉主键之间的函数依赖mysql有哪些删除表的方式,有什么区别logistic损失函数是什么:交叉熵(没答上来,答了个MSE。。)kmeans k怎么选,优化?:我只答了grid search可以先挑远一些的k,然后确定最优k大致在什么范围。实际上有kmeans++算法(在初始化k个中心时,先随机选n个,然后之后离这n个中心远的点有更高概率被选为新的中心)、ISODATA(当属于某个类别的样本数过少时把这个类别去除,当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别)、Kernel K-means(核函数核技巧,类似于SVM,映射到高维空间后在进行聚类)时间序列一般可以分解为哪些因子:趋势,周期,季节,节日,周末python [1,2,3]*2=?:[1,2,3,1,2,3]。如果想要得到[2,4,6],怎么做?答:1.numpy 2. [2*i for i in [1.2.3]]二面2022.12.7,高级技术专家的感觉:DL:RNN:模型大致流程,gru门的细节,更新门重置门CNN:模型大致流程(input、卷积、池化、全连接),卷积核的作用,(m,k,s,p)求输出神经元个数bert:怎么encodeML:聚类:kmeans:k怎么选(不需要kmeans++),怎么衡量聚类结果(聚类距离)SVM:损失函数:hinge losspython:tuple/list可以作为key吗?作为key需要有什么条件?:list、dict、set以及带有这三者的tuple不可以,其余的都行;1. 不重复 2. hashable寄#建信金科面试##数据分析面经#
Dog_God:数分竟然问这么多算法的问题嘛
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务