数据分析 | 群组分析:交互项回归or分组回归?

大家好,我是你的老朋友,数据道术器SamFeng。

前文数据分析 | 群组分析提到,在业务中我们经常可按照样本的一些属性对样本进行分组,使用分组回归的方法来洞察分组之间的不同规律。

在实际应用中我们也常常能看到给回归方程引入交互项的形式来考察分组之间的差异,交互项即某个解释变量乘以虚拟变量。例如我们考虑对用户性别进行分组,研究年龄和点击率之间的关系时,我们可以将虚拟变量设计为:男性标为1,女性为0,之后用年龄变量乘以虚拟变量。

那么问题来了,引入交互项和直接把样本分成男性组、女性组后进行分组回归在实际应用中该如何抉择呢?

为了弄清楚这个问题,我们必须站在对这两种操作的深刻理解上。


一、交互项回归和分组回归的差异

这两种操作方式的差异集中体现在两种方法的假设上:交互项回归假设除了核心解释变量外的控制变量系数一致,分组回归则放松了这个假设,允许核心解释变量和其余控制变量系数不一致。

通过观察公式结构,我们便可以清晰地看到这两种操作方式的差异。

首先是交互项回归:

其中X1是核心解释变量,Ci是其他控制变量。可以看到,虚拟变量取值不同时,回归方程的差异仅仅体现在截距项和核心解释变量X1系数上。

接下来我们看看分组回归的结构:


可以看到,在分组回归中,我们放松了解释变量系数一致这个假设要求,我们允许在不同分组,解释变量系数可以不一致,当然我们不能忘了后续需要使用统计检验方法来论证系数确实存在差异。


二、不能用分组回归的情形

在前面的一顿展示后,相信大家都能了解交互项回归和分组回归两组操作方法,在实际应用中这两种方法确实区别不大。比如我们分组的依据选取的是用户的性别、地域、职业等。以样本属性作为分组依据时,交互项回归和分组回归仅仅体现在前置假设上。

那什么时候,我们不能用分组回归呢?

这里先给出答案:当分组依据不是样本属性,而是时间属性时。

样本属性作为分组依据,我们可以把样本完美的分成若干组,每一组中的个体信息都是完整的。比如我们现在有1000个用户的点击历史数据,我们按照性别分组,我们总能得到性别i中x个用户的完整信息,性别j中y个用户的完整信息,且x+y=1000。

但是当我们分组的依据是不同的时间段时,每个分组的时间段中,我们得到的都是1000个用户在该时段的信息。也就是说时段i有1000个用户的点击信息,时段j也有1000个用户的点击信息。

这种情形如果我们使用分组回归的方式来探究不同时间段下用户点击规律差异的话,我们就无法解释点击率差异的产生是核心解释变量X1的差异引起,还是其他控制变量Ci的差异引起的。

因此,当我们需要论证解释变量的差异源自于某些解释变量,而非全部控制变量时,我们使用交互项回归是最妥当的。


#数据分析师##学习路径#
全部评论
要是我就交互项回归
点赞 回复 分享
发布于 2022-01-12 19:52

相关推荐

评论
2
4
分享

创作者周榜

更多
牛客网
牛客企业服务