数据分析面经-问答(个人自用)
描述ABtest中z统计量,t统计量,F统计量?
Z统计量,用于大样本(>30),总体方差已知
T统计量,用于小样本(<30)或总体方差未知
F统计量,用于比较两个或多个组之间的方差差异,例如在方差分析(ANOVA)【没了解过,可以康康】中使用。它的计算方式涉及两个样本或多个组的方差比率,通常用于比较两个或多个组的均值是否存在显著差异。它通过计算组间方差和组内方差的比值(F统计量),来判断组间均值的差异是否超过了由随机因素引起的差异。
Z分布,T分布的区别?
Z分布是标准正态分布,T分布是学生分布,当样本容量足够大时,T分布近似于Z分布。Z分布通常用于描述总体参数的分布,而T分布则更适合于样本统计量的分布,特别是在样本较小或者总体标准差未知的情况下。
如何优化查询语句?
不使用select * ,而是明确列出需要的字段,减少不必要的数据传输。
使用join替代子查询,效率更高。
使用exists替代in,前者在处理大数据集时效率更高。
有没有了解过数据倾斜(完全不懂)?
数据倾斜(Data Skew)是指在数据处理过程中,某些数据分布不均匀或不平衡的现象。这种不均匀分布可能会导致一些数据节点负载过重,从而影响整体系统的性能和并行处理能力。数据倾斜通常在大数据处理、分布式计算和数据库查询等场景中出现。——白话文就是分配不合理,人少事多做不完
常见数据倾斜类型(GPT搜的,不保真)
分区倾斜:分布数据时某个节点负载过高
键值倾斜:某些关键字(键)出现频率过高,导致数据操作时少数关键字所在节点承担大部分计算
连接倾斜:在连接两个数据集时,某些连接键的值集中在一个数据集中,导致该数据集的处理任务远大于另一个数据集
聚合倾斜:在进行聚合操作(如COUNT、SUM)时,部分数据分布在某些分区或节点上,导致这些节点的聚合结果远大于其他节点,增加了整体处理时间
如何计算AB测试的最小样本量?
字节跳动官方答案
join函数区别,排序函数(编号函数)内容