07-15 21:54 江西财经大学数据分析师发布于江西

关注

数据分析面经-问答（个人自用）

描述ABtest中z统计量，t统计量，F统计量？

Z统计量，用于大样本（>30），总体方差已知

T统计量，用于小样本（<30）或总体方差未知

F统计量，用于比较两个或多个组之间的方差差异，例如在方差分析（ANOVA）【没了解过，可以康康】中使用。它的计算方式涉及两个样本或多个组的方差比率，通常用于比较两个或多个组的均值是否存在显著差异。它通过计算组间方差和组内方差的比值（F统计量），来判断组间均值的差异是否超过了由随机因素引起的差异。

Z分布，T分布的区别？

Z分布是标准正态分布，T分布是学生分布，当样本容量足够大时，T分布近似于Z分布。Z分布通常用于描述总体参数的分布，而T分布则更适合于样本统计量的分布，特别是在样本较小或者总体标准差未知的情况下。

如何优化查询语句？

不使用select * ，而是明确列出需要的字段，减少不必要的数据传输。

使用join替代子查询，效率更高。

使用exists替代in，前者在处理大数据集时效率更高。

有没有了解过数据倾斜（完全不懂）？

数据倾斜（Data Skew）是指在数据处理过程中，某些数据分布不均匀或不平衡的现象。这种不均匀分布可能会导致一些数据节点负载过重，从而影响整体系统的性能和并行处理能力。数据倾斜通常在大数据处理、分布式计算和数据库查询等场景中出现。——白话文就是分配不合理，人少事多做不完

常见数据倾斜类型（GPT搜的，不保真）

分区倾斜：分布数据时某个节点负载过高

键值倾斜：某些关键字（键）出现频率过高，导致数据操作时少数关键字所在节点承担大部分计算

连接倾斜：在连接两个数据集时，某些连接键的值集中在一个数据集中，导致该数据集的处理任务远大于另一个数据集

聚合倾斜：在进行聚合操作（如COUNT、SUM）时，部分数据分布在某些分区或节点上，导致这些节点的聚合结果远大于其他节点，增加了整体处理时间

如何计算AB测试的最小样本量？

字节跳动官方答案

join函数区别，排序函数（编号函数）内容

全部评论

推荐最新楼层

09-14 14:03

门头沟学院前端开发其它

小红书感谢信（笔试挂）

xhs 笔试挂

投递小红书等公司10个岗位 > 你都收到了哪些公司的感谢信？

点赞评论收藏

09-14 20:15

广东工业大学后端

中秋放假前一天，连收两封感谢信

尤其点名三七互娱，笔试记得考得很简单，结果告诉我笔试挂，简历挂你直说

投递三七互娱等公司10个岗位 >

点赞评论收藏

09-13 19:51

腾讯_前端(实习员工)

转正拿顺下

只有一个hc ，因为我值得

点赞评论收藏

09-10 10:10

浙江大学游戏测试

对米哈游实习祛魅了

首先，进米哈游实习真的不容易，比大厂还难进。他们网撒得特别大，但要的都是尖子生，主要看作品。内部已经饱和了，内推都没啥位置，和字节一个套路。部门和部门之间差距非常大，可能是天堂地狱的差别。工作氛围浓厚，极其爱护自己的IP。面试难度也很高，尤其是游戏部门，筛人很严。至于其他部门，除了游戏部门，可能就不太建议了。想去的朋友们，自己掂量掂量吧。

米哈游公司氛围 550人发布

投递米哈游等公司10个岗位 >

点赞评论收藏

17 76 评论

全站热榜

正在热议