爆肝100天接Offer - DAY 6

p.s.长文预警,没更新的日子也有在学习一月目标是对数分岗位和所需技能有框架性认知,刷完一轮leetcode,全面完成!!;二月开始整理面经和简历挖掘,二刷leetcode并对高频考题进行集中整理(读个水硕快送掉我半条命了..光应付学校的课程就蛮心累的。加签顺利递完啦,期待年中的麦吉尔交换!希望六月的时候oc多多,回国顺利进厂实习

)___________________________________

___________________________________

今日进度

1.业务:《数据分析师养成宝典》(6/6)

2.SQL:力扣sql题一轮结束(1/1)

3.Business senses:人人都是产品经理(1/1)

4.Business senses:费米问题(1/1)

5.岗位理解:《数据分析师技能点》(1/1)

___________________________________

___________________________________

《数据分析师养成宝典》笔记

4.数据建模

主要解决问题:数据分析师会使用的分析方法和分析模型,共计32个

笔记整理:

  • 相关性分析
  • 图示

  • 分析内容
  • 变量之间是否存在关系?有还是无?
  • 存在什么样的关系?正向还是负向?
  • 关系的强度如何?大还是小?
  • 应用场景
  • 分析两个变量是否存在相关关系且不需要区分自变量和因变量
  • 进行回归分析前,通常需要进行相关性分析
  • 如何进行相关性分析
  • 通过相关性系数进行判断(主要通过r),r的取值范围是[-1,1]
  • r > 0正相关,r < 0负相关
  • | r | > 0.95 显著性相关
    • | r | ≥ 0.8 高度相关
        • 0.5 ≤ | r | < 0.8 中度相关
        • 0.3 ≤ | r | < 0.5 低度相关
                • | r | < 0.3 弱相关
                • 目前的相关性系数有Pearson(最常用,当数据满足正态分布时会用)、Spearman(数据不满足正态分布时使用)和Kendall(通常用于非关系研究)
  • 通过绘制折线图或散点图判断
  • 点和趋势线基本在一条直线或在这条线附近时,说明存在相关性
  • 点在趋势线周围呈现无规律的分布状态,则说明不存在相关性
  • 通过计算显著性系数判断(主要是p值)
  • p值是用来进行显著性检验的,用来检验变量之间是否有差异以及差异是否显著,若p值 > 0.05代表数据之间不存在显著性差异;若p值 < 0.05代表数据之间存在显著性差异
  • 主成分分析(PCA)
  • 图示

  • 分析内容
  • 将大型数据集转化为较小的变量集,该变量集仍包含大量数据集中的大部分信息。降维的目的是牺牲一点准确性,使得机器学习算法析数据变得更容易、更快而无需处理无关变量
  • 应用场景
  • 确定哪几个指标是重要指标,而不是汇报20多个指标给老板听,即将原本的20多个变量降到用8个或者10个变量来解释,并且这几个变量可以解释原数据的大部分信息(如85%以上),且各个指标独立,而主成分分析法就是用来达到降维目的分析方法
  • 如何进行主成分分析
  • 标准化数据
  • 目的:使得每个变量对分析的贡献相等,通过减去平均值并除以每个变量每个值的标准偏差来实现
  • 计算协方差矩阵
  • 目的:识别相关性(了解输入数据集的变量如何相对于彼此的均值而变化,因为有时候有些变量以包含冗余信息的方式高度相关)
  • 计算协方差矩阵的特征向量和特征值
  • 目的:确定主成分数据
  • 重要概念解释:特征向量和特征值总是成对出现的,他们是线性代数概念;协方差矩阵的特征向量实际上是方差最大(信息最多)的轴的方向,被称为主成分,而协方差矩阵的特征值只是附加到特征向量的系数,它给出了每个主成分中携带的方差量;从几何上讲,主成分表示解释最大方差的数据方向,也就是说,捕获数据的大部分信息的线——一条线所携带的方差越大,沿线的数据点的离散度也越大,所包含的信息越多
  • 创建一个特征向量来决定保留哪些主成分
  • 目的:计算特征向量并按特征值降序对它们进行排列并按重要性顺序找到主成分,丢弃低特征值组件,并与剩余的组件形成一个称之为特征向量的向量矩阵,其列是我们决定保留的特征向量
  • 沿着主成分重铸数据
  • 目的:在上一步基础上,将数据从原始轴重新定向到由主成分表示的轴
  • 因子分析
  • 图示

  • 分析内容
  • 和主成分分析(PCA)一样是用来进行数据降维的方法,但它的优点是能对新的因子进行命名和解释,使因子具有可解释性
  • 应用场景
  • 在多变量场景下,挖掘背后影响因子:如在品牌调研中,消费者会调查很多问题来评估企业,对问题进行因子分析可以刻画出背后少量的潜在影响因素,如服务质量、商品质量等
  • 用于数学建模前的降维:对于有需要业务解释的数据建模,可以在建模前通过因子分析提取关键因子,再用因子得分为解释变量,通过回归或者决策树等分类模型去建模
  • 如何进行因子分析
  • 充分性检验
  • 目的:检验变量之间是否存在相关性,从而判断是否适合做因子分析
  • 方法:抽样适合性检验(KMO检验)或者巴特利特检验(Bartlett's Test)

  • 选择因子个数
  • 目的:通过数据定义最合适的潜在公共因子个数,这个决定后面的因子分析效果
  • 方法:Kaiser's准则或者累积贡献率原则

  • 提取公共因子并做因子旋转
  • 提取公因子是求解函数的过程,一般求解方法有主成分法、最大似然法、残差最小法等等
  • 因子旋转的原因是提取公共因子的解有很多,通过因子旋转可以使得因子更容易解释,常用的方法是方法最大法
  • 对因子做解释和命名
  • 目的:解释和命名是对潜在因子理解的过程,需要对业务非常熟悉
  • 方法:根据因子荷载矩阵发现因子特点
  • 计算因子得分
  • 对每一样本数据,得到它们在不同因子上的具体数据值,这些就是因子得分
  • 典型相关分析(CCA)
  • 图示

  • 分析内容
  • 为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性
  • 应用场景
  • 适合分析两组数据(每组数据间有多个指标)之间的关系时使用,比如,我们拿到了两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据,那么我们可以利用CCA来分析这两组数据是否相关
  • 如何进行典型相关分析
  • 数据分布的假设(预处理)
  • 对变量相关性检验(假设检验)
  • 标准化典型相关变量(做出典型相关模型)
  • 典型载荷分析(进一步对数据分析)
  • 操作链接:https://blog.csdn.net/CourserLi/article/details/107150405
  • 对应分析
  • 图示:对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的点较集中,联系疏远的类别点较分散,通过观察对应分布图就能直观地把握变量类别之间的联系

  • 分析内容
  • 适合于多分类型变量的研究,分为简单对应分析(一般只涉及两个分类变量)和多重对应分析(多于两个分类变量),广泛用于市场分析、产品定位、广告研究、社会学等
  • 注意点:对应分析不能用于相关关系的假设检验。它虽然可以揭示变量间的联系,但不能说明两个变量之间的联系是否显著,因而在做对应分析前,可以用卡方统计量检验两个变量的相关性;对应分析输出的图形通常是二维的,这是一种降维的方法,将原始的高维数据按一定规则投影到二维图形上。而投影可能引起部分信息的丢失;对极端值敏感,应尽量避免极端值的存在。如有取值为零的数据存在时,可视情况将相邻的两个状态取值合并;原始数据的无量纲化处理。运用对应分析法处理问题时,各变量应具有相同的量纲(或者均无量纲);定性变量划分的类别越多,对应分析方法的优越性越明显
  • 应用场景
  • 大脑疾病可能会出现壳核、尾状核、苍白球、丘脑、中脑、脑桥、小脑七个部位的损伤,并且可能会出现构音障害、动作迟缓、震颤、肌张力障碍等症状,寻找这些症状具体与哪个部位损伤关联最大。如下表所示根据数据的特征(“部位”“症状”其相关性)可选用简单对应分析

  • 分析内容
  • 聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。所以聚类效果的好坏依赖于两个因素(1)衡量距离的方法;(2)聚类算法
  • K-means是无监督数据算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。既可以作为一个单独过程,用于寻找数据内在规律,也可以作为分类等其他分析任务的前置探索

  • 应用场景
  • 在利用用户数据将用户分为不同的类别时,就会用到聚类分析,如我们逛电商网站都会收到一些推销活动的通知,但是我们之前也没关注过那个商品,这些电商网站是为什么决定给我们推销这个商品的呢?这是因为电商网站,可以根据用户的年龄、性别、地址以及历史数据等等信息,将其分为,比如“年轻白领”、“一家三口”、“家有一老”、”初得子女“等等类型,然后你属于其中的某一类,电商网站根据这类用户的特征向其发起不同的优惠活动
  • 如何进行聚类分析(K-means)
  • 读取数据
  • 特征选取
  • 标准化
  • k值选择
  • 模型建立
  • 聚类分析,对每一聚类进行进一步分析和描述
  • 操作链接:https://www.woshipm.com/data-analysis/4303709.htm
  • 时间序列
  • 图示

  • 分析内容
  • 时间序列分析既包含了对过去数据的诊断,也包括对未来数据的预测。数据点按照某个时间顺序排列,我们基于排列顺序进行相应的分析
  • 应用场景
  • 预测未来的股价
  • 预测商品的销售量等
  • 如何进行时间序列分析
  • 准备和处理时间序列数据
  • 准备数据集
  • 寻找时间轴
  • 清洗数据
  • 探索分析(EDA)
  • 分析
  • 基于统计学的时间序列分析
  • 思路:首先形成关于时间序列动力学的潜在理论,用统计学来表示噪声和不确定性,然后用假设的动力学去做预测,评估不确定性
  • 自回归模型
  • 移动平均模型
  • 差分整合移动平均自回归模型
  • 向量自回归模型
  • 优劣势:易于理解,适用于小数据集;但侧重点估计,例如整体分布的均值而不是分布本身,所以容易丢失信息;不擅长处理非线性问题
  • 基于机器学习的时间序列分析方法
  • 思路:不再事先做太多假定,而是试着去探索发现时间序列中的模式。应用于时间序列分析上的机器学习同样分为监督学习(分类、预测)和非监督学习(聚类)两类
  • 特征工程:分析过程不会用到全部数据点,所以用量化方式提取最重要的信息生成数值和类别标签
  • 时间序列分类
  • 时间序列聚类
  • 基于深度学习的时间序列分析方法
  • LSTM长短期记忆网络
  • CNN卷积神经网络
  • 模型评估和性能考虑
  • 参考链接:https://skywateryang.gitbook.io/timeseriesanalysis101/8.-mo-xing-ping-gu-he-xing-neng-kao-lv/8.2-ji-suan-xiao-lv-de-kao-lv
  • 线性回归
  • 图示
  • 分析内容
  • 线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系,一般处理因变量是连续变量的问题,如果因变量是定性变量,线性回归模型就不再适用
  • 例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄
  • 线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数
  • 应用场景
    • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);
    • 预测:自变量与因变量呈线性关系的预测;
  • 如何进行线性回归
  • 选自变量:对自变量进行筛选,基于业务、算法、数据分析特征,去除多重共线性(VIF)
  • 创建模型:对模型输入变量进行标准化(分类变量转哑变量,连续型变量标准化等)
  • 分析模型:驱动力分数,模型解释
  • 参考链接:https://www.niaogebiji.com/article-69057-1.htm
  • Logistic回归
    • 图示
    • 分析内容
      • 驱动力分析:某个事件发生与否受多个因素所影响,分析不同因素对事件发生驱动力的强弱(驱动力指相关性,不是因果性);
      • 预测:预测事件发生的概率;
      • 分类:适合做多种分类算法、因果分析等的基础组件;
    • 应用场景
    • 线性回归与逻辑回归的差异:例如我们想预测不同用户特征对所使用产品的满意分,可以采用线性回归模型;但是如果我们想根据这些因素去判断用户的性别,或者是否推荐使用等,之前的线性回归就不适用了,这时,我们就要用到逻辑回归进行二分类了
    • 如何进行逻辑回归
    • 自变量特征输入
    • 定义自变量的线性组合y,即对自变量线性回归
    • 将线性回归结果y映射到sigmoid函数,生成一个0-1范围的函数概率值
    • 根据概率值,定义阈值(通常为0.5),判定分类结果的正负
    • 参考链接:https://www.woshipm.com/data-analysis/4371902.html
  • 生存分析
    • 图示
    • 分析内容
    • 生存分析是一套统计方法,用来解决诸如“多长时间后,某个特定事件发生”这样的问题; 换句话说,也可以称之为事件时间分析
    • 应用场景
    • 客户分析(客户留存):通过生存分析,专注于那些高收益但低留存的客户,进行流失预防工作。这种分析也有助于计算客户生命时间价值;用生存分析评估每个营销渠道的留存率
    • 如何进行生存分析
    • 创建一个生存对象
    • 使用公式或已构建的Cox模型拟合生存曲线
    • 拟合Cox比例风险回归模型
    • 参考链接:https://shixiangwang.github.io/home/cn/post/r-survival/
  • 关联规则
    • 图示
    • 分析内容
    • 通过量化的方式描述甲的出现对乙的出现,究竟有多大影响(起初被用在超市销售数据库中不同的商品之间的关联关系)
    • 实际分析中即找出数据集中各项之间的关联关系,发现关联规则的算法为无监督学习算法-Apriori,Eclat,FP-Tree,灰色关联法
    • 应用场景
        • 哪组商品可能会在一次购物中同时购买
    • 如何进行关联规则分析
    • 在商品列表中找出频繁项集,构建商品列表
    • 找出频繁项集(创建模型,传入数据,输出的support就是支持度)
    • 筛选支持度大于某特定值的的二项集
    • 找出关联规则,输出结果
    • 参考链接:https://www.jianshu.com/p/a3bd093169bd
  • 序列模式挖掘
    • 图示
    • 分析内容
    • 序列模式挖掘,是数据挖掘里关联分析算法的一种
    • 应用场景
    • 分析单个页面内,用户行为是否有一些特定的模式(此时的行为可以定义为更细致的操作,如点击、滑动,长按等),从而进一步帮助优化用户体验,发现异常等
    • 如何进行序列模式挖掘
    • 发现未知行为
    • 用户群->行为聚类->人群分类->序列挖掘->行为分类->观察->异常行为 & 正常行为
    • 即利用序列模式挖掘,可以“归纳”和“总结”人群的行为共性,那么如果我们先根据行为数据对人群进行无监督聚类,然后再对聚类出的人群进行行为序列模式挖掘,就可以“归纳”出该人群的“行为特点”
    • 参考链接:https://developer.aliyun.com/article/726340
  • 决策树
    • 图示
    • 分析内容
    • 决策树是一种机器学习方法,决策树的生成算法有ID3(信息增益),C4.5(信息增益率)和CART(基尼指数)等。决策树的结构是树形的,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果
    • 决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测
    • 应用场景
    • 在Dating app上根据用户现有的好友数据,建立一个用户偏好分析模型,并根据这个模型,产生一系列规则。当某个用户未来的某个时刻遇到新的一个用户时,依据这些规则,即该新用户的年龄、职业、月薪等属性,来预测对其的喜好程度,从而决定是否把这个新的用户推荐出来,以及确定推荐的优先度等等。这里的用户偏好分析模型,就可以用一棵决策树来表示
    • 如何进行决策树分析
    • 构建决策树
    • 修建决策树(因为可能出现决策树过大或过度拟合)
    • 生成预测规则
    • 参考链接:
    • https://blog.csdn.net/qq_39783601/article/details/105761645
    • https://blog.csdn.net/qq_34069667/article/details/107786298
    • https://sq.sf.163.com/blog/article/191278704572182528
  • 贝叶斯分类
    • 图示
    • 分析内容
    • 在已知条件的前提下,先设定一个假设,然后通过先验实验来更新这个概率,每个不同的实验都会带来不同的概率
    • 应用场景
    • 广告商往往想知道关于一个人的一些特定人口统计信息,以便能更好地定向推销广告。我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实不同,那么他们各自常用的词是那些,从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解
    • 分析哪些行为暗示着顾客流失,如未读消息超过5条的用户流失概率为80%
    • 如何进行贝叶斯分类
    • 准备阶段:确定特征属性、获取训练样本
    • 分类训练阶段:生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录
    • 应用阶段:使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系
    • 参考链接:
    • https://www.cnblogs.com/-wenli/p/12888456.html
    • https://zhuanlan.zhihu.com/p/39415527
    • https://www.cnblogs.com/wxyz94/p/8976407.html
    • https://cloud.tencent.com/developer/article/1736682
  • GBDT(MART)迭代决策树
    • 图示
    • 分析内容
    • 该算法由多棵决策树组成,所有树的结论累加起来做最终答案,回归决策树。
    • GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。比如A的真实年龄是18岁,但第一棵树的预测年龄是12岁,差了6岁,即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习,如果第二棵树真的能把A分到6岁的叶子节点,那累加两棵树的结论就是A的真实年龄;如果第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里A的年龄就变成1岁,继续学
    • 应用场景
    • 可用于进行产品定价预测
    • 如何进行迭代决策树分析
    • 训练回归模型
    • 计算MSE(用来评估数据的变化大小,MSE越小说明预测模型描述实验数据时具有更好的精确度)
    • 比较测试误差
    • 画出属性重要性
    • 参考链接:
    • https://blog.csdn.net/u011630575/article/details/80233186;
    • https://blog.csdn.net/Kyrie_Irving/article/details/89885972;
    • https://blog.csdn.net/qq_42433311/article/details/124472417
  • KNN算法(最近临近法)
    • 图示
    • 分析内容
    • 假如有一个样本, 样本中的每一个叫做个体, 我们已经知道这些个体所属的类别。现在有一个新的未知类别的个体,我们可以通过计算它与样本中所有个体的相似距离,然后找出与它具体最小的k个个体, 这k个个体最多的类别就是这个新的个体的预测的类别
    • 应用场景
    • 利用KNN算法区别优质用户和垃圾用户的特征,去发现更多的优质用户,不断提高UGC内容质量
    • 如何进行KNN分析
    • 数据归一化,并测试数据与各个训练数据之间的距离
    • 按照距离的递增关系进行排序;
    • 选取距离最小的K个点;
    • 确定前K个点所在类别的出现频率;
    • 返回前K个点中出现频率最高的类别作为测试数据的预测分类
    • 参考链接:https://www.woshipm.com/ai/997260.html
  • Bagging回归
  • 随机森林
    • 图示
    • 分析内容
    • bagging + 决策树 = 随机森林
    • 随机森林是集成学习中非常经典的一种方法,基础原理简单,可即学即用。而且随机森林应用十分广泛,并不只是局限于常见的金融领域,只要数据不平衡或随机缺失严重都可以尝试
    • 应用场景
    • 通过年龄、使用时长、支付情况及流量和通话情况等变量对宽带用户是否会续费做出一个较准确的预测
    • 如何进行随机森林分析
    • 使用bagging在行列上进行随机抽样
    • 再使用决策树
    • 参考链接:https://zhuanlan.zhihu.com/p/164990454
  • 神经网络
    • 图示
    • 分析内容
    • 利用模拟神经网络的自我学习系统进行模型拟合,可以有效地解决很复杂的有大量相互相关变量的分类和回归问题,但对维度多,样本量小的数据模拟效果不好
    • 参考链接:https://www.woshipm.com/pmd/829268.html
  • 支持向量机
  • 图示
    • 分析内容
    • 是一种常见的判别方法,在机器学习的领域,是有监督学习模型,通常用来进行模式识别、分类及回归分析,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等
    • 简单来说,像找到分类之间的边界
    • 参考链接:https://www.cda.cn/bigdata/27791.html
    • 应用场景
    • 互联网产品用户分类
  • 文本挖掘
    • 图示
    • 
    • 分析内容
    • 指从文本数据中抽取有价值的信息和知识的计算机处理技术。常见的有7种文本挖掘方法,关键词提取、文本摘要、聚类、文本分类、文本主题模型、观点抽取、情感分析
    • 应用场景
    • 情景广告Admantx公司将文本挖掘技术定为上下文重定向的核心引擎,并因此取得了巨大的成功。与传统的基于cookie的方法相比,上下文广告有更高的准确性,并完全保护了客户的隐私
    • 社交媒体数据分析,了解情感和品牌之间的关系,以帮助公司的发展。
    • 如何进行文本挖掘
    • 数据收集
    • 文本预处理
    • 数据挖掘和可视化
    • 搭建模型
    • 模型评估
    • 参考链接:https://easyai.tech/ai-definition/text-mining/
  • 社会网络
    • 分析内容
    • 社会网络是来源于数学的图论,目前被广泛应用于社会学,经济学和管理学等领域。常被用到生产领域的缺陷数据中,进行设备缺陷的社会网络分析
  • 推荐系统
    • 分析内容
    • 推荐系统的实现主要分析两个方面:基于内容(用户或者物品基本信息的相似度)和协同滤波(基于历史数据,过滤复杂的、难以表达的概念)的实现
  • LDA(主题模型)
  • 异常检测
    • 分析内容
    • 发现与数据一般行为或特征不一致的模式,常用的有基于统计、距离、密度、深度、偏移、高维数据的异常点检测算法
    • 参考链接:https://cloud.tencent.com/developer/article/1416327
    • 应用场景
    • 用于用户用电量异常行为检测
  • EM算法(最大期望值算法)
    • 应用场景
    • 我们在收集男生和女生的身高的时候,我们确实记录了抽取出来的样本的身高,却没有记录样本的性别,并且我们又希望模型中考虑到性别的差异,因为男生和女生的身高的分布是不同的。在上述例子中,我们称没有被观测到的性别为隐变量或潜在变量。那些被我们观测到的变量,则称之为观测变量。如果数据集中含有隐变量的话,我们就无法简单地直接使用极大似然估计法或贝叶斯估计法来估计模型的参数,这时候,我们就需要使用EM算法了。
  • 遗传算法
    • 分析内容
    • 遗传算法是一种解决最优化的搜索算法,是进化算法的一种。遗传算法的操作使用适者生存的原则,在潜在的种群中逐次产生一个近似最优解的方案,在每一代中,根据个体在问题域中的适应度值和从自然遗传学中借鉴来的再造方法进行个体选择,产生一个新的近似解。这个过程会导致种群中个体的进化,得到的新个体比原来个体更能适应环境,就像自然界中的改造一样
    • 参考链接:https://www.afenxi.com/20621.html
  • FP-Growth算法
    • 分析内容
    • 关联算法的升级版,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率
    • 参考链接:https://www.cnblogs.com/pinard/p/6307064.html
  • 粗糙集方法
    • 分析内容
    • 粗糙集理论(Rough Set theory)是一个种处理数据分类的数据挖掘方法。当数据属于定性数据或不确定性数据,无法使用一般的统计方法时,粗糙集理论可以在信息不完整和信息不一致下,用来规约数据集合,发掘隐藏的数据阳性和数据相关性,以产生有用的分类规则
  • 模糊集方法
    • 分析内容
    • 一个男性(用1表示),一个女性(用0表示),但是随着科学技术的发展,出现了人妖这个生物,那TA属于男性或者女性的的界限就有点模糊了,如果用0,1就显得不太恰当,这时我们可以认为0.4的概率属于男性,0.6的概率属于女性。跟以前的硬聚类不一样,模糊聚类属于软聚类,它允许一个对象属于多个簇。
    • 参考链接:https://blog.csdn.net/yawei_liu1688/article/details/79664590
  • 空间数据挖掘
    • 应用场景
    • 公交车里外都贴了广告,如果这趟公交能被越多的人看到,那么广告的投放价值就越高;不同时间段发车所影响的受众也有所区别,比如早高峰或者早高峰之后、中午、以及晚高峰和半夜。这样来说我们是不是可以根据“在行驶过程中所影响的人群”来不同地定义它的广告价位呢?在早高峰发出的几辆车,它的广告价位是不是就可以适当调高一点,这是最朴素的一种空间数据挖掘的直观表现
  • 深度学习
    • 应用场景
    • 语言理解,如google AI和智能音箱等

___________________________________

___________________________________

思考总结:这部分内容做笔记的时候写的比较浅,主要是考虑到本身非统计专业出身,找实习的时候可能面试官不会面面俱到考这方面知识,打算2月收集面经的过程中整理重点模型再进行细致学习

___________________________________

5.价值展现

主要解决问题:怎么写数据分析报告

笔记整理

  • 画屁屁踢注意对象:高管要图、要趋势、要结论;业务要数据、读文字、推敲过程
  • 数据分析报告的类型和陈述思路
  • 描述性报告
  • 发生了什么事?
  • 因果类报告
  • 发生了什么事?
  • 为什么发生?
  • 预测类报告
  • 发生了什么事?
  • 未来如何发展?
  • 事情为什么会发生?
  • 咨询类报告
  • 发生了什么事?
  • 这事为何会发生?
  • 应如何决策?
  • 未来如何发展?
  • 数据分析报告的框架
  • 可视化图形适用场景

___________________________________

___________________________________

6.实战进阶

主要解决问题:基于R语言的数据分析项目案例

  • 校园网中推荐者的推荐价值分析
  • 目标:通过校园网中推荐者的消费行为数据分析,研究什么样的推荐者能带来高/低价值客户
  • 指标设计
  • 因变量:某推荐者所有推荐客户在加入校园网前后的相对利润变化
  • 注意:从统计学方法论角度看,研究一个因变量与分别研究多个因变量没有本质差异,同时自变量的多少,一般也不引起统计学方法论的本质改变,所以虽然实际工作中可以考虑的自/因变量有很多,为了简单起见,这里只考虑一部分。同时要记住,自变量的设计不需要太多,但要精,要深思熟虑,要对管理实践有指导意义
  • 指标
  • 通话总量X1:直接刻画了用户活跃度,且具有高通话总量特征的推荐者也更有可能带来优质客户
  • 大网占比X2:衡量用户所有的通话时长中,有多少发生在该运营商网内。通话总量一定程度上可以看作是他的社会关系网络,那么大网占比测算可以衡量推荐者的社会关系网络被现运营商所覆盖的程度
  • 小网占比X3:衡量大网前提下,有多少发生在校园网内。如果一名用户的小网占比高,那么他的主要可被推荐社会关系网络中绝大部分已经加入校园网,所以能为企业带来的价值不大
  • 描述性分析
  • read.csv, summary(), dim()数据规模,library(VIM)缺失值分析
  • X1: 用户平均通话总量2.5804log
  • X2:大网占比平均84.6%,中位数占比89.8%,说明用户的绝大部分关系网已被运营商覆盖
  • X3:小网占比平均25.2%,中位数占比19.8%,说明小网覆盖率低,样本用户的可推荐社会关系网络只有很小一部分进入了校园网,有可观的待开发空间
  • Y:代表因变量,推荐者为校园网带来了正的相对利润,平均水平为19.3%,中位数水平18.7%。注意最小值为-49.8%,说明确实有推荐者为企业带来了巨大利润损失,所以需要区分哪些推荐者能为企业带来正价值
  • 模型分析
  • 线性回归:lm(Y~X,data)
  • 方差分析:anova(lm)
  • 参数估计:summary(lm)
  • 模型诊断:plot(lm1, which=c(1:4))
    • 模型整体F检验高度显著(p<0.0001)说明推荐者所带来的推荐价值确实同他的消费行为有关;判决系数为55.7%,说明模型拟合度良好;除了X3,其他的各个因素都高度显著
    • 通话总量的系数估计为0.236,说明在给定其他特征不变情况下,高通话总量的推荐者比低通话总量的推荐者,能够带来更多的间接价值;大网占比的参数估计为0.089,说明在给定其他特征不变情况下,大网占比高的推荐者相比大网占比低的推荐者,能够带来更多的利润;小网占比的p值(0.638)高度不显著,因此没有证据证明小网占比同被推荐客户的推荐价值相关(可能是因为样本量不够大,所以目前不能对小网占比下任何结论)
    • 结论:本研究对数据做了描述分析及回归分析,其中回归分析的判决系数良好,研究发现通话总量及大网占比同推荐者的推荐利润正相关,而缺乏足够证据刻画小网占比所起到的作用。
    • 改进:现有影响因素的基础上,采集更多更丰富的影响因素;注意消费者的生命周期特征
  • 上市企业财务报表分析与ST预测
  • 目标:通过分析上市公司的公开财报信息,预测其未来两年内被ST的可能性,并一次警示投资风险
  • 指标设计
  • X1: ARA,即应收账款与总资产的比例,反映的是盈利质量。应收款所占的比重越低越好
  • X2:ASSET,即对数变换后的资产规模,用于反映公司规模
  • X3:ATO,即资产周转率,ATO量化的是一个企业对资产的利用效率
  • X4:ROA,即资产收益率,反映的是每单位资产能够给企业带来的利润如何
  • X5:GROWTH,即销售收入增长率,反映的是企业的增长速度
  • X6:LEV,即债务资产比率,反映的是企业的总资产来自于债权人的比率
  • X7:SHARE,即企业第一大股东的持股比率,反映的是该企业的股权结构
  • 描述性分析
  • read.csv(),sapply(a, length),sapply(a.mean),sapply(a.sd),sapply(a.min),sapply(a.median), sapply(a, max)
  • X1: ARA均值9.5%,中位值6.9%,属于正常,但最大值高达63.5%相对夸张
  • X2:ASSET均值为exp(20.7)=9.77亿
  • X3:ATO均值为52%
  • X4:GROWRH保持在11.5%
  • X5:LEV均值为40.6%
  • X6:ROA均值为5.6%
  • X7:SHARE持股比都很高,均值为46%
  • 以上分析都是单变量,缺乏对比,可以区分ST组非ST组进行对比,利用盒状图或进行分析。该图不仅能展示数据的中心位置(均值、中位数),还能同时展示数据的变异性(四分位间距)
  • 模型分析
  • 逻辑回归建模:广义线性模型, glm。通过方差分析对各个因素同ST状态之间的关系做逻辑回归模型,从参数估计结果看,只有两个自变量是显著的,一个是ARA,它的极大似然估计为4.88,是正值,说明ARA的取值越高,该企业被特别处理的可能性越大;LEV的估计量也是显著的(p值为0.05),其极大似然估计量为2.35,是正值,说明LEV取值越高,企业被处理的可能性越大
  • 模型预测 preduct()
  • 结论:根据财报信息,建立了对企业未来ST状态有一定预测能力的逻辑回归模型
  • 验证性分析:为什么销售会减少
  • 假设:
  • 已知信息:和5月相比,6月开展的商业宣传活动少;促销活动的内容和5月相比几乎没有变动
  • 假设:和5月相比,6月销售额减少了(事实);6月的商业宣传活动相比5月减少了(事实);新用户的数量也减少了(假设)
  • 指标设计
  • DAU(每天至少来访1次的用户数据)
  • DPU(每天至少消费1元的用户数据)
  • Install(记录每个用户首词购买箱包的时间的数据)
  • 描述性分析
  • 箱包销售额比较(5、6月),老用户带来的销售额几乎没有变化,而新用户带来的销售额下降了
  • 新用户5月和6月的制服情况,和5月相比,6月消费额在2000元一下的用户数量减少了
  • 结论建议:假设得到验证
  • 探索性分析:什么样的顾客会选择离开
  • 描述:上节针对销售额减少,猜测是商业宣传活动减少,进行“验证型数据分析”,该节我们只知道“存在问题”(从6月开始用户数大量减少),但是无法猜测问题出现的原因,需要通过数据挖掘来探索原因所在
  • 指标设计
  • 8~9月DAU(每日按至少来访1次的用户数据)
  • user.info(用户属性数据)
  • 描述性分析
  • 用户群分析(按性别统计)
  • 用户群分析(按年龄段统计)
  • 用户群分析(性别 x 年龄段交叉分析)
  • reshape2常用于数据重塑,dcast()函数用于读取已融合的数据
  • 用户购买箱包类型的差异:购买塑纺面类型箱包的用户数略有下降,而购买皮革类型箱包的用户数大量减少,绘制时间序列图,确认用户数变化程度
  • 假设检验:哪种广告效果更好
  • 假设
  • 基于业务信息,给出假设,“箱包销售额高,但购买率较低”的原因可能是”广告的外观展示有问题“
  • 数据建模
  • 准备:准备两个不同的广告,通过收集数据来比较哪个广告更容易被点击,进行A/B 测试
  • 分组随机原则:将用户分到A、B组,投放不同的广告,并比较两组用户的购买率。要注意分组后的两组不能有类似“男女”条件性差异,因为男性和女性本身对箱包的消费倾向有差异
  • 建设检验过滤:判断两组之间是否存在差异时,可以用到统计学上的假设检验过滤出显著性差异,即先通过假设检验找出油统计意义的差异,再探讨这个差异在商业活动中是否有意义
  • 模型分析
  • 搜集数据
  • ab_test_imp,关于广告曝光次数的信息
  • ab_test_goal,关于广告点击次数的信息
  • A和B的点击率是否存在显著性差异
  • 统计A和B的点击率,以确认哪个广告更好(A 8%;B 12%)
  • 进行差异检验,p<0.05,存在显著性差异
  • 点击率随时间的变化的散点图
  • 结论:广告B比广告A更容易被点击,因此本次该使用广告B进行促销
  • 多元回归分析:如何获得更多的用户
  • 目标:
  • 如何确定在与有合作关系的广告公司分配投放比例,以达到“用较少的费用获得更多的用户”的目的
  • 基于过去的数据,明确在电视和杂志上投放广告的广告费用和各自所获得的用户数之间的关系
  • 基于上述关系,确定以何种比例在电视和杂志上投放广告
  • 数据建模
  • 通过探索性分析和假设检验分析数据间的关联
  • 通过数据间的关联判定变量间知否存在关系
  • 通过结果预估,再反过来考虑相应对策的成本,此时要用到“回归分析”
  • 通过交叉列表统计,得知广告费花得越多相应的新增用户就会越多,使用线性回归对该关系进行建模
  • 模型分析
  • 搜集数据:将新用户数和花费在电视以及杂志上的广告费作为分析依据
  • 数据相关性确认:首先确认广告和新用户数是否存在线性关系,关系的强弱称为相关性
  • 多元回归分析:通过残差分布判断数据是否存在异常(如第一四分位数的绝对值大于第三四分位数的绝对值,说明某些数据点的分布存在偏差,判定系数为0.938说明模型拟合不错,自由度正判定系数=0.92数值较高,因此判定现在的广告投放策略没问题)
  • 结论与建议:对于成本较高的广告投放,事前使用回归分析能预测出每种策略该占多大比重有意义
  • 聚类分析:航空公司顾客价值分析
  • 目标
  • 借助航空公司客户数据,对客户分类
  • 对不同客户类别进行特征分析,比较不同类别客户的客户价值
  • 对不同价值的客户类别提供个性化服务,制定相应的营销策略
  • 指标设计
  • 传统的识别客户价值的三个指标:消费时间间隔(recency)、消费频率(frequency)、消费金额(monetary)来进行客户细分,识别价值高的客户
  • 适合航空公司的指标模型:LRFMC,L是客户关系长度,C是消费金额,M为里程,R为间隔,F为频率
  • 模型构建
  • 数据探索:主要是对数据进行缺失值和异常值的分析;转变数据类型;得到五个指标值,并据此进行分群,这里使用K-means(K-means聚类算法是基于距离计算类与类之间的差别,然而这5个指存在量纲差异,故需要标准化处理)
  • 通过雷达图反映聚类效果,并据图解释分类
  • 结论:根据分类的客户群,针对性提出营销建议,如会员的升级与保级,首次兑换,交叉营销等
  • 决策树:窃电用户行为分析
  • 目标
  • 归纳窃漏电用户的关键特征,构建窃漏电用户识别模型
  • 利用实时监测数据,调用窃电识别模型进行实时诊断
  • 建模:样本准备后,划分测试样本和训练样本,随机选取20%为测试样本,剩下的作为训练样本。常见的分类预测模型有神经网络和CART决策树,该案例中同时采用两者,比较分类准确率和分类性能,分类性能采用ROC曲线评估
  • 结论:利用模型输入数据,实现窃漏电用户实时诊断,并与世纪稽查结果做对比

___________________________________

思考总结:这部分案例因为作者没有给数据源,所以只能简单看看思路,这本书到这里也读完了,总体来说对数分知识体系的建立有帮助,但是对非统计出身的同学很不友好,也应证了之前牛客某位前辈所说,数分所要求的统计知识储备远远不止《统计学基础》这么简单

___________________________________

用户流失预警分析——《人人都是产品经理》

链接:https://www.woshipm.com/operate/5692554.html

主要解决问题:用户数据分析挖掘方法论;流失预警模型构建与分析流程介绍

___________________________________

笔记整理:

  • 用户数据分析挖掘方法论

  • 流失预警模型构建
  • 业务理解
  • 业务背景
  • 业务现状:用户活跃度下降、沉默用户比例高
  • 业务目标:建立高潜用户流失预警及挽留机制
  • 业务落脚点:建立流失预警的分类模型,预测用户的流失概率
  • 业务定义
  • 用户流失行为定义
  • 维度一:动因
  • 主动流失——客户主动销户或改变当前的服务模式
  • 被动流失——客户因违规或欺诈等行为被停止服务及强行关闭帐户等行为
  • 维度二:程度
  • 完全流失——客户发生关闭所有与企业服务相关账户和交易等不可恢复或者很难恢复的行为
  • 部分流失——客户并未关闭帐户但是交易水平突减到一定水平之下,例如在产品使用场景下用户使用频率突降了50%等
  • 维度三:去向
  • 外部——客户关闭或减少了在当前机构的业务而转向了其他竞争对手
  • 内部——客户关闭或减少了在当前机构的部分业务而转向了当前机构的其他业务
  • *对于流失的理解是多方位的,需要结合具体的场景和需求
  • Roll-rate分析
  • 根据流失目标的分析,锁定了一批用户,观察其在后续业务使用方面的持续沉默天数,滚动考察用户回流比例。发现,当QQ某业务用户沉默天数超过两周后,回流率环比已经低于10%且后续持续平稳,因此我们将本次该业务流失目标的定义为:用户对该业务使用出现连续沉默14天及以上,基于此可以着手构建建模分析样本
  • 数据理解
  • 重点考察用户活跃类指标,构建流失预警分析建模指标体系

  • 数据准备
  • 样本构造
  • 锁定某日业务使用活跃用户,统计其在后续14天的活跃情况
  • 由连续14天沉默账号和14天有活跃帐户构成样本,并打上相应的标签
  • 统计样本账号在观察点前八周的行为特征,按周汇总输出,同时加入包括基础画像的特征属性
  • 数据质量检验
  • 建模分析
  • 粒度选择
  • 以QQ用户账号为分析单位
  • 抽样与过抽样
  • 抽样:从原始数据中抽取一定记录构成新数据;过抽样:多抽取稀有的标签,而少取常见的标签(比如流失用户数相比大盘一定属于稀有标签)可以通过样本加权的方式进行过抽样,实现增加建模数据集密度的同时而不减少其规模。具体操作上一般将最大的权重设为1,而其他所有权重都取小于1的值,以此减少模型过拟合的风险
  • 一般情况下,目标标签样本占建模数据集的比例在20%-30%,会产生较好的模型效果
  • 数据探索与修改:即对数据开展初步分析,如预测变量的统计特性及分布、缺失及异常值发现与处理、变量关联性及相关性分析等单变量或多变量交叉分析
  • 变量离散化
  • 在对建模数据进行单变量分析及预处理的过程,对变量进行分组,目的在于观察变量与目标事件的对应趋势,判断是否与实际业务理解相符,从而决定变量是否适用。同时通过变量分组,减少变量属性个数,有助于避免异常值对模型的影响,提升模型的预测和泛化能力
  • 具体做法是对变量按照一定规则进行划分,比如对于连续型的数值变量,按照分位点对变量取值进行等高划分为大约10个区间
  • WOE值计算
  • 在变量分组的基础上,我们这里使用证据权重WOE对变量取值的编码转换,作为最后模型的输入
  • WOE表示的实际上是“当前分组中非响应用户占所有非响应用户的比例”和“当前分组中响应的用户占所有响应的用户的比例”的差异
  • WOE越大,这种差异越大,这个分组里的样本响应的可能性就越小,即用户流失风险越小。将字符型和数据型变量分组后的WOE值,可以作为回归模型训练的输入
  • 变量选择
  • 变量的预测能力
  • 通过信息值IV来度量,IV值一方面可以用于选择预测变量,另一方面也可以作为分组是否合适的判断依据
  • 衡量标准:<0.02无预测能力;0.02~0.1弱预测能力;0.1~0.3中预测能力;>0.3强预测能力
  • 变量的稳定性
  • 跨时点考察特征分段样本分布是否存在明显异动,对波动性较强的变量需要考虑是否需要结合时间序列做衍生处理或者被剔除,通过PSI来度量
  • 衡量标准:<0.1没有重大变化;0.1~0.25有变化,需关注;>0.25有重大变化
  • 变量与业务的趋势一致性
  • 结合业务知识、特征分布及WOE综合判断
  • 变量相关性
  • 计算变量的相关系数,当评分模型变量间的相关性过高,会产生共线性问题,导致使模型的预测能力下降,甚至出现与预测结果相反无法解释的现象,为避免变量间的高度相关削弱模型预测能力,对相关系数较高的变量集合可通过IV择优选取
  • 建模
  • 前面通过大量的特征分析工作圈定了有效模型入选变量,接下来通过模型算法的选择调用最终输出模型结果,给每个用户单元计算流失概率。这是一个分类问题,可以用逻辑回归和决策树等模型,通过模型比较,最终选择逻辑回归进行建模
  • 模型评价:考量一个模型是否达标
  • 准确性,可以用lift chart、ROC charts、KS等评价指标来对模型性能进行评估比较
  • 稳定性,借鉴变量分析里的稳定性系数PSI衡量及监控模型的稳定性
  • 简单程度,足够简单将有利于模型的IT部署应用
  • 解释性
  • 模型应用
  • 用预测模型得到影响流失的重要因素
  • 用预测模型预测客户流失的可能性
  • 利用模型输出的概率结果,对流失概率最高的一部分用户,可以开展针对性的运营管理,比如设计有效的唤醒机制、好友推荐、个性化推荐以及合作产品引导等,挖掘用户的应用需求点和兴趣点。同时建立分析-应用-反馈的闭环流程,持续对用户留存流失进行监控管理
  • 优化研究方向
  • 用户群体细分:针对不同类型的用户分别搭建流失预警模型
  • 用户行为分析:分析用户产品使用行为及内容偏好,挖掘用户使用习惯及兴趣点,实现个性化推荐,拉动用户活跃

___________________________________

___________________________________

费米问题

链接:https://blog.csdn.net/licent2011/article/details/125884896?spm=1001.2101.3001.6650.10&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-10-125884896-blog-125917071.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-10-125884896-blog-125917071.pc_relevant_recovery_v2&utm_relevant_index=15

___________________________________

  • 销售额问题
  • 营业额 = 消费人数 * 平均消费金额 (区分工作日和周末)
  • 消费人数 = 营业时间 * 单位时间消费人数 (区分高峰时段 + 低峰时段)
  • 需求端
  • 每天有多少人喝咖啡
  • 每人每天喝几杯
  • 供给端
  • 工作日
  • 忙时:每小时多少杯,一天多少忙时
  • 闲时:每小时多少杯,一天多少闲时
  • 周末
    • 忙时:每小时多少杯,一天多少忙时
    • 闲时:每小时多少杯,一天多少闲时

___________________________________

思考总结:费米问题还是得多积累,看得多了肚子里才有框架和思路

___________________________________

《数据分析师的升级和成长历程》

链接:https://zhuanlan.zhihu.com/p/335610765

主要解决问题:数据分析师的成长路径?每个阶段数据分析师应该有的能力?数据分析师应该从哪里开始,培养哪些能力?

___________________________________

笔记整理:

  • 第一阶段:具备数据提取、清洗和整理的能力
  • 工作内容:数据提取、数据整理、日报表、周报表的输出等
  • 使用工具:sql、excel、python
  • 承接业务需求:不明确数据需求的背景和原因,不追问取数是用于做什么,导致数据不符合部门或leader的需求,重复返工。数据分析师必须要有意识的培养这种能力,从而培养专业性和部门合作的有效性
  • 数据指标解读:对数据的理解停留在表面,不知道该数据指标的关联指标是什么,也不知道数据背后代表的业务意义和指标的口径
  • 数据敏感性:对数据提取出来后,对数据没反应,不知道这个数据是正常还是异常的,不知道数据量级在行业中处于什么水平,因此需要我们记住重要指标的正常值区间,哪怕强制记忆
  • 数据准确性:数据算错、sql写错、口径不一致但没发现
  • 数据描述(fact or what):出数后直接交给leader,没有结论。应该对数据做出总结,并对支撑结论的数据重点标注,如通过数据你的发现点是什么?这个数据是正常还是异常,上升了还是下降了,是否应该引起业务预警?就算leader让取一堆数据,你无从下手,也必须尝试抓住几个重点指标分析指标变化,并尝试找到变化之间的关系。
  • 数据解读(why):要去分析facts产生的原因,且需要揭示本质问题
  • 解决方案(how):新手往往因不知数据波动的原因或者对原因的理解不够深入,因此无法给出有效的解决方案或建议,或者根本没意识到要给出解决方案
  • 第二阶段:具备解读数据、剖析业务现状、分析原因的能力
  • 工作内容:已经能对数据指标的口径和指标见的关联关系熟练掌握了,能基于业务迅速输出数据,既能输出fact和what you能输出why,能输出带分析结论的业务周度分析报告、阅读分析报告及某些专项分析报告
  • 使用工具:sql、excel、python、power bi、tableau、spss等,除了取数和整理数据之外,因为会对上汇报,需要具备一定的数据可视化能力,且会利用spss进行相关性、聚类等统计分析
  • 承接业务需求:会询问需求背景、原因、数据口径、数据维度、数据用处;会评估取数难易度和工作量;初步具备了和数据需求方沟通碰撞明确需求的基本能力
  • 数据指标解读:知道数据指标的口径和计算方式,知道各业务部门在口径上的不同,知道指标背后代表的业务的含义,知道指标之间的关联性,知道指标中存在哪些坑
  • 数据敏感性:数据出来后知道数据是否异常
  • 数据准确性:知道数据异常时,首先要确认数据的准确性,知道从计算方式和底表等维度确认数据是否准确,而非马上找业务寻求原因
  • 数据描述(fact or what):能准确描述数据的波动、数据反映的业务现象、能将数据转化为业务听得懂的语言,知道数据波动是由哪几个指标引起的,并知道应该去沟通哪些业务部门
  • 数据解读(why):从产品、运营、技术、销售政策等内部维度,以及行业和竞对等外部维度综合分析数据波动的原因,准确定位问题
  • 解决方案(how):能精准定位问题,但提的解决方案不太具备落地性和可执行性
  • 第三阶段:具备基于历史数据,搭建预测模型,评估未来业务的能力
  • 工作内容:对指标体系和业务有全面深入的了解,能对业务现状输出what和why,还能搭建预测模型,对未来业务进行评估和预测;当发现业务问题后,不仅能判断问题对现状的影响,还能预测对未来的影响
  • 使用工具:excel、spss、python等,可以利用时间序列、回归等方法对未来进行预测
  • 承接业务需求:能评估工作量、难易度,还会跟业务一起明确和强化需求,并对需求提出自己的看法和建议,就需求达成一致
  • 数据指标解读:对指标体系和业务有深入理解,能对数据现状进行解读,还能通过搭建模型对未来业务进行预测
  • 数据敏感性:高
  • 数据描述(fact or what):准确描述现状,且能基于历史数据和行业数据,搭建较为准确的模型预测
  • 数据解读(why):定位现阶段问题并判断是否对未来业务有影响,并能对预测结果做出较为严谨和科学的解释
  • 解决方案(how):基于对现状和未来的认知,提出合理建议,但有些不具备落地性和可执行性
  • 第四阶段:具备部门规划、跨部门联动、提出有效可行的解决方案的能力
  • 工作内容:基于定量和定性研究、业务现状和未来预测的结果、输出带策略建议的报告,参与到部门甚至跨部门的复盘、规划和联动中
  • 使用工具:excel、ppt、脑图等,工具不再重要,重要的是归纳演绎和深度思考能力
  • 业务需求承接:判断数据需求的价值高低,拒绝不合理需求
  • 数据指标解读:与业务无缝对接,利用现有指标诊断业务问题,为业务量身打造合理指标
  • 数据敏感性:可以考虑和挑战数据指标本身的科学性和合理性问题
  • what/why/how:对业务体系贯通,对业务痛点认知清晰,对业务问题定位准确,提供可行性和落地性高的建议
  • 第五阶段:具备搭建和优化完整数据指标体系、以数据指标监测业务、以业务引导数据指标建设的能力

___________________________________

思考总结:阶段一到三是打工取数人,阶段四五是老板。前三个阶段要注重加深自己的业务思考能力,因为这是后期的核心竞争力。

#我的实习求职记录#
全部评论
写的真好哈哈哈(我想到阶段4 5hhhh
1 回复 分享
发布于 2023-03-20 11:02 辽宁
老哥真顶
1 回复 分享
发布于 2023-06-13 22:37 广东
除了********上的sql,牛客上的sql编程题也挺有价值的,建议重点刷一下带有业务场景的sql题。在题库——在线编程——SQL篇——SQL大厂面试真题。
点赞 回复 分享
发布于 2023-02-06 11:37 上海
小姐姐,请问人人都是产品经理这个网站上的文章,你是怎么找到质量比较高的呢
点赞 回复 分享
发布于 2023-02-07 17:02 北京

相关推荐

昨天 09:08
裁应届生,一分钱补偿没有,离职了还脑控你,跟踪你,定位你,丁东服务是搞系每一个人
牛客吹哨人:建议细说...哨哥晚点统一更新到黑名单:不要重蹈覆辙!25届毁意向毁约裁员黑名单https://www.nowcoder.com/discuss/1317104
叮咚买菜稳定性 9人发布 投递叮咚买菜等公司10个岗位 >
点赞 评论 收藏
分享
11-15 19:28
已编辑
蚌埠坦克学院 硬件开发
点赞 评论 收藏
分享
15 58 评论
分享
牛客网
牛客企业服务