数据分析|群组分析

大家好,我是数据道术器SamFeng。

    近期楼主在忙毕业论文,在实证部分用到的一些方法其实跟数据分析中的群组分析是异曲同工的,因此准备跟大家分享一下。其中用到的统计软件是stata,这个软件在统计方面属于利器:方法齐全,使用方便,感兴趣的朋友也可以关注了解了解。



一、群组分析简介

    群组分析在数据分析领域属于常见的操作,在实证分析范畴跟异质性分析是类似的。主要都是从样本中提取一些来自样本的特性,这些特性是导致数据层面差异的源头,基于这些特性对样本进行进一步的分析,从而挖掘出分组样本的不同规律。

    这里简单总结一下群组分析的步骤:



    ①明确业务分析目标。

    ②基于业务提出样本分组依据。

    ③对分组样本进行(回归)分析。   

    在业务上常见的分组特征有:性别、年龄、地域、职业等,这些特征先验得决定了一个个体在行为上可能存在的差异。举个例子,双十一购物节,男性和女性在购物的支付行为、策略、偏好等方面都因性别而存在差异;消费者身处不同地域,因所处地域的气候、经济和自身职业等因素的综合影响,在消费时也会存在差异。

图片

    从这些差异中我们能挖掘出什么信息呢?基于群组的差异,我们可以设计出不同的推荐、运营策略,这些策略最终是为了提高不同群组的用户体验,进而实现业务的增长。



二、实证分析往事

    做实证分析时我基于上述群组分析的逻辑,在探讨经济不确定性对消费的影响时考虑了城市间的异质效应。这部分分析的样本主要是城市的人均消费支出和经济不确定性,以及其他一些重要的控制变量。

    图片

    各个城市的人均消费支出作为被解释变量,经济不确定性作为核心解释变量,由于各个城市都有各自的人均消费支出时间序列,因此我们得到的是面板数据(m个城市,每个城市有样本长度为n的消费支出时间序列)。这里我们考虑的分组特征是城市等级,也就是说我们想探讨的是不同级别的城市,城市的人均消费支出受经济不确定性影响的差异。

   得出的结果是有趣的:经济不确定对于发达城市和欠发达城市的人均消费支出都有显著的抑制作用,而其对发达城市的消费抑制程度更大。这是为什么呢?这时我考虑到之前实习时学到的一招:路径分析,于是我开始思考居民收入的可能去向。

   不难想到,收入去向无非是消费、储蓄、投资。这正是解释上述不确定性对消费抑制程度差异的突破口。我提出一个猜想:发达城市居民较于欠发达城市居民具有更强的风险抵御意识、更丰富的风险转嫁方案:投资&储蓄,因此在不确定性较高时,发达城市居民更倾向压缩消费,转向储蓄和投资以抵御经济不确定。到这里,故事就结束了吗?当然不。

图片

   

    为了进一步严谨地论证上面猜想的合理性,我令城市储蓄作为被解释变量、经济不确定作为解释变量,按照城市等级分组再次进行了面板回归。出来的结果是:经济不确定性对发达城市和欠发达城市的人均储蓄均呈现显著的促进作用,而其对发达城市的人均储蓄促进程度更大。也就是说,从数据事实来看,发达城市居民消费受不确定性抑制程度更明显的现象可以解释为发达城市居民在不确定性下扛风险意识更强,更倾向于提高储蓄来应对宏观风险。到这里,关于经济不确定和消费的故事可以暂时收尾了。

   事实上,上面的实证分析用到的就是群组分析的思想,只不过分析的对象从个体、群体扩展到了城市。以上分析仅给出了事物发展规律的捕捉,基于这些规律,站在social planner的角度我们能提出哪些建议呢?这又是一块值得思考的内容,这部分内容恰恰是业务策略的构思。因此群组分析思想无论在学术实证分析还是业务数据分析中都是共通的。



三、分析时遇到的一些新事物

    在分组回归后,看到存在差异的系数,本人是欣喜的。但下一秒本人便陷入了沉思:系数的差异是否显著?系数是否可比?系数的差异是否稳定?这些问题也许会在答辩场上被逐一提问,如果没有提前解释,人没了是分分钟的事情。

    庆幸的是,对于异质效应、分组回归的系数检验问题早被统计大家们解决。在知乎畅游的时候看到相关检验起码有以下三种:

    ①引入交叉项

    ②SUEST (基于似无相关模型SUR的检验)

    ③费舍尔组合检验

    此处给出知乎传送门https://zhuanlan.zhihu.com/p/28502370,感兴趣的朋友们可以去拜读一下中大岭院连玉君副教授的总结。

    三种方法中,费舍尔组合检验感觉在使用上比较方便,因此推荐一下。


#数据分析#
全部评论

相关推荐

喜欢走神的孤勇者练习时长两年半:爱华,信华,等华,黑华
点赞 评论 收藏
分享
评论
3
4
分享
牛客网
牛客企业服务