数据分析面经-问答(个人自用)

描述ABtest中z统计量,t统计量,F统计量?

Z统计量,用于大样本(>30),总体方差已知

T统计量,用于小样本(<30)或总体方差未知

F统计量,用于比较两个或多个组之间的方差差异,例如在方差分析(ANOVA)【没了解过,可以康康】中使用。它的计算方式涉及两个样本或多个组的方差比率,通常用于比较两个或多个组的均值是否存在显著差异。它通过计算组间方差和组内方差的比值(F统计量),来判断组间均值的差异是否超过了由随机因素引起的差异。

Z分布,T分布的区别?

Z分布是标准正态分布,T分布是学生分布,当样本容量足够大时,T分布近似于Z分布。Z分布通常用于描述总体参数的分布,而T分布则更适合于样本统计量的分布,特别是在样本较小或者总体标准差未知的情况下。

如何优化查询语句?

不使用select * ,而是明确列出需要的字段,减少不必要的数据传输。

使用join替代子查询,效率更高。

使用exists替代in,前者在处理大数据集时效率更高。

有没有了解过数据倾斜(完全不懂)?

数据倾斜(Data Skew)是指在数据处理过程中,某些数据分布不均匀或不平衡的现象。这种不均匀分布可能会导致一些数据节点负载过重,从而影响整体系统的性能和并行处理能力。数据倾斜通常在大数据处理、分布式计算和数据库查询等场景中出现。——白话文就是分配不合理,人少事多做不完

常见数据倾斜类型(GPT搜的,不保真)

分区倾斜:分布数据时某个节点负载过高

键值倾斜:某些关键字(键)出现频率过高,导致数据操作时少数关键字所在节点承担大部分计算

连接倾斜:在连接两个数据集时,某些连接键的值集中在一个数据集中,导致该数据集的处理任务远大于另一个数据集

聚合倾斜:在进行聚合操作(如COUNT、SUM)时,部分数据分布在某些分区或节点上,导致这些节点的聚合结果远大于其他节点,增加了整体处理时间

如何计算AB测试的最小样本量?

字节跳动官方答案

join函数区别,排序函数(编号函数)内容

全部评论

相关推荐

17 76 评论
分享
牛客网
牛客企业服务