【精华总结】数据分析岗|面试必备分析方法(一)
在面试过程中,是不是常被问到这样的问题:
- 你知道哪些数据分析方法?
- 有哪些指标可以描述一个数据集的分布特征
- 如何衡量某个核心指标与分析指标的相关性
- 新产品上线可以从哪些角度进行分析和改进
这些问题,不仅在面试中经常被问到。在实际工作中,其实也是经常会遇到
因此,结合相关业务背景
熟悉并掌握常用的分析方法,不仅对面试有所帮助
本文结构速览:一、描述性分析
二、相关性分析
三、假设检验
四、AARRR模型
五、RFM模型
六、波士顿矩阵
一、描述性分析
描述性分析在统计学上也称数据度量。用来测量和描述一个分布的特征。
主要从集中趋势、离散程度、分布形状三个角度进行描述。
【集中趋势】分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度。常用的指标有:
众数
中位数和分位数
平均数
【离散程度】分布的离散程度,反应各数据远离其中心值的趋势。常用的指标有:
异众比例
四分位差
方差和标准差
离散系数
【分布形状】
分布的形状,反映数据分布的偏态和峰态。常见的指标有:
偏度
峰度
面试题:某电商平台用户的平均成交金额为20,成交金额的中位数为0,标准差为80,用户成交的分布呈现左偏长尾,请问从以上数据可以得出哪些结论?
解题思路:
- 标准差是成交金额的4倍,说明用户成交金额较为分散
中位数为0元,说明平台一半以上的用户无成交记录
分布呈现左偏长尾,说明存在大额成交用户,但是用户量较少
二、相关性分析
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。注意:相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
常用的相关系数有以下三种:
以上三个相关系数适用的数据类型有所差异。
Pearson相关系数
Kendall相关系数
Spearman相关系数
【Pearson相关系数】
Pearson相关系数是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。皮尔逊相关系数适用于:① 两个变量之间是线性关系,且是连续数据。② 两个变量的总体都是正态分布,或接近正态的单峰分布。
③ 两个变量的观测值是成对的,每对观测值之间相互独立。
【Kendall相关系数】
Kendall相关系数 用于反映分类变量相关性的指标,故适用于有序分类的两个分类变量。Kendall相关系数的取值范围在-1到1之间:
- 当τ为1时,表示两个随机变量拥有一致的等级相关性;
当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;
当τ为0时,表示两个随机变量是相互独立的。
【Spearman相关系数】
Spearman等级相关系数又称秩相关系,它是利用两变量的秩次大小作线性相关分析。Spearman等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。
三、假设检验
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差异造成的统计推断方法。
显著性检验是假设检验中最常见的一种方法,也是一种最基本的统计推断形式。
其基本原理是:先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
最常用的假设检验方法有U检验、T检验:假设检验在AB实验中最为常见。而互联网使用最多的是U检验,因为样本量大于30这个条件非常容易满足。
- U检验:当样本量较大时(一般指样本量大于30),使用U检验
T检验:当样本量较小时(一般指样本量小于30),使用T检验
面试中,常作为AB相关的高频考点做提问。
(可文末看看六哥往期文章)
四、AARRR模型
AARRR模型在往期的文章中做了非常详细的介绍:
(可以看下六哥往期文章)
下面引用往期文章中对AARRR模型的介绍部分~有兴趣的,可通过以上链接进行详细了解。
AARRR是Acquisition、Activation、Retention、Revenue、Refer这个五个单词的缩写。分别对应用户生命周期中的5个重要环节:
- 用户获取
提高活跃度
提高留存率
获取收入
自传播
如果把产品看做一个蓄水池的话,那么AARRR模型就可以形象的表示成下面5个环节:
通俗一点来说,AARRR模型就是对应下面五个环境:
- 获取用户:用户如何找到我们?
激活用户:用户的首次体验如何?
提高留存:用户会回来吗?
增加收入:如何赚到更多钱?
推荐:用户会转介绍,告诉其他人吗?
面试题:假设携程新上新一个特价酒店频道,可以从哪些角度进行频道的拉新和成交?
解题思路:结合特价酒店频道特有的属性,使用AARRR模型进行解答。注意:切记面试中所有的分析方法必须结合特定的业务背景进行解答,不要对分析方法直接死记硬背,面试官贼烦套模板。重点是要活学活用,形成自己的见解和思路。
五、RFM模型
RFM模型是衡量客户价值和客户创利能力的重要工具和手段。
在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该模型涉及到以下三个变量:
- R-最近一次消费距当前的时长(Recency)
F-消费频率(Frequency)
M-消费金额(Monetary)
通过聚类算法,将用户划分为八类
并对不同类型的用户采取不同的营销策略手段
面试题:在电商领域,对重要挽留客户有哪些措施可以进行干预?
解题思路:
- 流失原因:首先可以通过电话调研确认用户流失的原因
营销手段:采取营销手段进行干预挽留,比如发放优惠券、低价商品引流
产品优化:如果是产品或者功能上的问题,可以通过优化产品提高用户体验减少流失
六、波士顿矩阵
波士顿矩阵(BCG Matrix),又称市场增长率-相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法等。
波士顿矩阵通过销售增长率和市场占有率两个指标对公司和产品进行四象限分类。
以上就是面试中常见的部分分析方法