数据分析 | 群组分析:交互项回归or分组回归?

大家好,我是你的老朋友,数据道术器SamFeng。

前文数据分析 | 群组分析提到,在业务中我们经常可按照样本的一些属性对样本进行分组,使用分组回归的方法来洞察分组之间的不同规律。

在实际应用中我们也常常能看到给回归方程引入交互项的形式来考察分组之间的差异,交互项即某个解释变量乘以虚拟变量。例如我们考虑对用户性别进行分组,研究年龄和点击率之间的关系时,我们可以将虚拟变量设计为:男性标为1,女性为0,之后用年龄变量乘以虚拟变量。

那么问题来了,引入交互项和直接把样本分成男性组、女性组后进行分组回归在实际应用中该如何抉择呢?

为了弄清楚这个问题,我们必须站在对这两种操作的深刻理解上。


一、交互项回归和分组回归的差异

这两种操作方式的差异集中体现在两种方法的假设上:交互项回归假设除了核心解释变量外的控制变量系数一致,分组回归则放松了这个假设,允许核心解释变量和其余控制变量系数不一致。

通过观察公式结构,我们便可以清晰地看到这两种操作方式的差异。

首先是交互项回归:

其中X1是核心解释变量,Ci是其他控制变量。可以看到,虚拟变量取值不同时,回归方程的差异仅仅体现在截距项和核心解释变量X1系数上。

接下来我们看看分组回归的结构:


可以看到,在分组回归中,我们放松了解释变量系数一致这个假设要求,我们允许在不同分组,解释变量系数可以不一致,当然我们不能忘了后续需要使用统计检验方法来论证系数确实存在差异。


二、不能用分组回归的情形

在前面的一顿展示后,相信大家都能了解交互项回归和分组回归两组操作方法,在实际应用中这两种方法确实区别不大。比如我们分组的依据选取的是用户的性别、地域、职业等。以样本属性作为分组依据时,交互项回归和分组回归仅仅体现在前置假设上。

那什么时候,我们不能用分组回归呢?

这里先给出答案:当分组依据不是样本属性,而是时间属性时。

样本属性作为分组依据,我们可以把样本完美的分成若干组,每一组中的个体信息都是完整的。比如我们现在有1000个用户的点击历史数据,我们按照性别分组,我们总能得到性别i中x个用户的完整信息,性别j中y个用户的完整信息,且x+y=1000。

但是当我们分组的依据是不同的时间段时,每个分组的时间段中,我们得到的都是1000个用户在该时段的信息。也就是说时段i有1000个用户的点击信息,时段j也有1000个用户的点击信息。

这种情形如果我们使用分组回归的方式来探究不同时间段下用户点击规律差异的话,我们就无法解释点击率差异的产生是核心解释变量X1的差异引起,还是其他控制变量Ci的差异引起的。

因此,当我们需要论证解释变量的差异源自于某些解释变量,而非全部控制变量时,我们使用交互项回归是最妥当的。


#数据分析师##学习路径#
全部评论
要是我就交互项回归
点赞 回复 分享
发布于 2022-01-12 19:52

相关推荐

从输入URL到页面加载发生了什么:总体来说分为以下几个过程: 1.DNS解析 2.TCP连接 3.发送HTTP请求 4.服务器处理请求并返回HTTP报文 5.浏览器解析渲染页面 6.连接结束。简述了一下各个过程的输入输出作用:以下是对从输入 URL 到页面加载各过程的输入、输出或作用的一句话描述:DNS 解析: 输入:用户在浏览器地址栏输入的域名(如 www.example.com)。输出:对应的 IP 地址(如 192.168.1.1)。作用:将易于记忆的域名转换为计算机能够识别和用于网络通信的 IP 地址,以便浏览器与目标服务器建立连接。TCP 连接: 输入:浏览器获得的服务器...
明天不下雨了:参考一下我的说法: 关键要讲出输入网址后涉及的每一个网络协议的工作原理和作用: 涉及到的网络协议: HTTP/HTTPS协议->DNS协议->TCP协议->IP协议->ARP协议 面试参考回答: 第一次访问(本地没有缓存时): 一般我们在浏览器地址栏输入的是一个域名。 浏览器会先解析 URL、解析出域名、资源路径、端口等信息、然后构造 HTTP 请求报文。浏览器新开一个网络线程发起HTTP请求(应用层) 接着进行域名解析、将域名解析为 IP 地址 浏览器会先检查本地缓存(包括浏览器 DNS 缓存、操作系统缓存等)是否已解析过该域名 如果没有、则向本地 DNS 服务器请求解析; 本地服务器查不到会向更上层的 DNS 服务器(根域名服务器->顶级域名服务器->权威域名服务器询问)递归查询 最终返回该域名对应的 IP 地址。(应用层DNS协议)DNS 协议的作用: 将域名转换为 IP 地址。 由于 HTTP 是基于 TCP 传输的、所以在发送 HTTP 请求前、需要进行三次握手、在客户端发送第一次握手的时候、( 浏览器向服务器发送一个SYN(同步)报文、其中包含客户端的初始序列号。TCP头部设置SYN标志位、并指定客户端端口 同时填上目标端口和源端口的信息。源端口是浏览器随机生成的、目标端口要看是 HTTP 还是 HTTPS、如果是 HTTP 默认目标端口是 80、如果是 HTTPS 默认是 443。(传输层) 然后到网络层:涉及到(IP协议) 会将TCP报文封装成IP数据包、添加IP头部,包含源IP地址(浏览器)和目标IP地址(服务器)。IP 协议的作用: 提供无连接的、不可靠的数据包传输服务。 然后到数据链路层、会通过 ARP 协议、获取目标的路由器的 MAC 地址、然后会加上 MAC 头、填上目标 MAC 地址和源 MAC 地址。 然后到物理层之后、直接把数据包、转发给路由器、路由器再通过下一跳、最终找到目标服务器、然后目标服务器收到客户的 SYN 报文后,会响应第二次握手。 当双方都完成三次握手后、如果是 HTTP 协议、客户端就会将 HTTP 请求就会发送给目标服务器。如果是 HTTPS 协议、客户端还要和服务端进行 TLS 四次握手之后、客户端才会将 HTTP 报文发送给目标服务器。 目标服务器收到 HTTP 请求消息后、就返回 HTTP 响应消息、浏览器会对响应消息进行解析渲染、呈现给用户
点赞 评论 收藏
分享
群星之怒:不是哥们,你就不好奇瘫痪三十年的老植物人是啥样的吗?
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客企业服务