大家好,我是你的老朋友,数据道术器SamFeng。
    在实际应用中我们也常常能看到给回归方程引入交互项的形式来考察分组之间的差异,交互项即某个解释变量乘以虚拟变量。例如我们考虑对用户性别进行分组,研究年龄和点击率之间的关系时,我们可以将虚拟变量设计为:男性标为1,女性为0,之后用年龄变量乘以虚拟变量。
    那么问题来了,引入交互项和直接把样本分成男性组、女性组后进行分组回归在实际应用中该如何抉择呢?
    为了弄清楚这个问题,我们必须站在对这两种操作的深刻理解上。
    一、交互项回归和分组回归的差异
    这两种操作方式的差异集中体现在两种方法的假设上:交互项回归假设除了核心解释变量外的控制变量系数一致,分组回归则放松了这个假设,允许核心解释变量和其余控制变量系数不一致。
    通过观察公式结构,我们便可以清晰地看到这两种操作方式的差异。
    首先是交互项回归:
    其中X1是核心解释变量,Ci是其他控制变量。可以看到,虚拟变量取值不同时,回归方程的差异仅仅体现在截距项和核心解释变量X1系数上。
    接下来我们看看分组回归的结构:
    可以看到,在分组回归中,我们放松了解释变量系数一致这个假设要求,我们允许在不同分组,解释变量系数可以不一致。
    二、不能用分组回归的情形
   在前面的一顿展示后,相信大家都能了解交互项回归和分组回归两组操作方法,在实际应用中这两种方法确实区别不大。比如我们分组的依据选取的是用户的性别、地域、职业等。以样本属性作为分组依据时,交互项回归和分组回归仅仅体现在前置假设上。
   那什么时候,我们不能用分组回归呢?
   这里先给出答案:当分组依据不是样本属性,而是时间属性时。
   样本属性作为分组依据,我们可以把样本完 美的 分成若干组,每一组中的个体信息都是完整的。比如我们现在有1000个用户的点击历史数据,当我们分组的依据是不同的时间段时,每个分组的时间段中,我们得到的都是1000个用户在该时段的信息。也就是说时段i有1000个用户的点击信息,时段j也有1000个用户的点击信息。
    这种情形如果我们使用分组回归的方式来探究不同时间段下用户点击规律差异的话,我们就无法解释点击率差异的产生是核心解释变量X1的差异引起,还是其他控制变量Ci的差异引起的。
   

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务