2023-01-05 07:32 已编辑 EMLYON Business School 数据分析师发布于法国

关注

爆肝100天接Offer - Day 4

今日进度

1.业务：《数据分析师养成宝典》（2/6）

2.统计：《用户体验度量》（3/11）

3.Business senses：人人都是产品经理（1/1）

4.机器学习：30min概要入门（1/1）

《数据分析师养成宝典》笔记

2.业务理解

主要解决问题：数据分析师的底层思维；如何理解数据；如何理解业务；如何理解用户

笔记整理

（1）数据分析师的底层思维

统计思维：指数据分析师可以用统计方法来表述数据的分布特征，可归类为描述、概括和分析三大板块。

*描述：常用统计量为平均数、众数、中位数、方差、极差、四分位点

*概括：即对数据的整体印象（类比给数据集打标签"御姐范"、"萝莉范"），最常见的是分布描述（如正态分布等）

*分析：即从描述和概括中抽离出能实现目标的元素

*总结：通过描述获取数据细节，通过概括得到数据结构，通过分析得到想要的结果

逻辑思维：

*上取/下钻思维：上取即建立全局观和使用长远视角；下钻即知道数据的构成、分解数据的手段以及分解后对数据重要程度的了解

*求同/存异思维：求同即分析共性，如现在的整体数据是否有规律可行？；存异即对实际情况和个体主观因素的分析

*抽离/联合思维：抽离即多角度看问题、集思广益；联合即站在当事人情况换位思考

*离开/接近思维：离开即离开困境；接近即多接触要解决的问题

*层次思维：问题现状->分析直接原因->分析深层次原因

（2）如何理解数据

数据维度

*按结构化程度分类：结构化数据、非结构化数据、半结构化数据

*按数据加工程度分类：裸数据、专家数据、信息和价值

数据敏感：发现异常数据、善于对数据提问
数据质量
注意问题

*不要对完美数据执着：这应该就是数分面试要考费米问题的原因

*小样本也能做数据分析

（3）如何理解业务

业务模型（全局理解）：首先要了解业务及业务系统，其次了解核心的业务流程和核心业务功能板块以及各模块的关系，最后了解业务系统上下游关系和接口
流程模型（动态理解）：业务模块之间的串联和集成
数据模型（静态理解）
动静结合：关键业务分析
数据业务化：包含三个环节，数据业务定义，数据分析与建模，数据业务实施。

*数据业务定义：把业务问题定义成数据可分析的问题

*数据分析与建模：得到x、y并建模

*数据业务实施：对最后的结果进行业务实施，例如个性化推荐类型的预测问题

*该书作者指出，kaggle的建模赛能够对【数据分析与建模】提供帮助，而对另外二者帮助甚微

（4）如何理解用户——业务用户的目的是什么？

数据分析师需要把业务给的目标进行数据拆分，把目标变成数据可支撑的内容
理解用户的重要节点

*为谁做？我的用户群体是谁？

*为什么做？解决了用户什么问题？为用户提供了何种服务？

*这个服务本身可以带来什么样的预期结果

*这个服务上线和运营的成本及投入产出比是否合理？是否存在替代方案？

*这个服务可以为后续哪些服务提供依据？（是否有再利用的价值？）

*如果是运营需求，是否提高了运营效率并给用户带来了价值？

如何使用需求分析做竞品分析

*这里作者对以【查看类似功能在竞品中如何实现】、【竞品功能亮点借鉴】等为基础的竞品分析提出质疑，认为这样没有思考给用户提供的这项服务本身的目的和 业务逻辑是什么。

*要解决什么问题？->明确问题后再有的放矢地研究竞品

*要输入什么数据？->哪些竞品是可以用来作为比较对象？竞品的商业层、功能层、表现层是否都要成为研究对象？竞品的历史版本和改版记录是否应该关注？

*要得到什么结果和输出内容->解决首条提到的待解决问题的竞品分析才算完成了预期目标

*反推和理解别人的产品为什么这么做？又为什么不这么做？

*作者还指出数据分析师应该掌握项目管理、交互设计、用户研究等技能

数据分析师应具备的素养

*自我驱动能力及主观能动性：因为需要数据分析师对整个产品的规划、迭代有明确认知并推进项目，同时需要跟运营和业务团队共同确定后续产品的整体目标和迭代方向，当数据分析师不具备主观能动性，则无法提供相应价值

*发现并解决问题的能力

*沟通和理解能力：需要数据分析师理解业务需求，也需要使自己的分析结果让业务理解

*学习能力：对业务迅速消化、对概念快速理解

（5）Case：如何根据用户行为去驱动产品

背景：用户在注册页面的浏览UV是1000，在注册页面的平均停留时长是2min，最终转化为10%（注册成功/页面UV）
发现问题：注册页面存在流程问题，用户无法完成有效注册
初步解决方案：因为不知道哪个流程有问题，所以需要进一步埋点，看看用户在注册页面都做了什么操作，点击了什么？浏览了其他是什么内容？跳出路径是什么？；同时可以利用注册页面流量大的特点，安插一些运营活动在注册页面中。
具体操作：

*明确各项指标定义，比如注册页面pv、uv的定义是什么？产品的日活、月活的指标定义是什么？（口径一致！）

*明确指标转化的计算方式，知道这个结果是否对业务和运营有指导意义。比如要看页面的转化，需要对页面转化的指标（页面的PV、UV，按钮的点击次数，页面停留时间，下一个页面的PV、UV）进行定义和埋点

（6）数据分析师的方案为什么被业务骂虚：三大陷阱

把假设和结论混为一谈。如导出后台数据->发现数据不好->推断原因，这是不正确的，【推断原因】需要有证据来佐证，比如用户反馈数据、细分数据、竞品比较
套用公式的线性思维（在建立因果前在排除可能的影响因素）。如电商平台在10点搞促销，导致10点～12点的销售数据暴涨，数据分析师据此判断【10点～12点销售数据会暴涨】
没有认清现象和原因的不同。如把发现的问题反过来说当作解决方案，某电商平台购物车的"去结算"点击率持续下降，数据分析师指出是网站流量质量不好，有购买意愿的用户少造成的，于是提出优化建议：提升流量质量。但实际的原因是：优惠券的叠加规则改变，导致转化下降，与流量本身无关联性

思考总结：这章节内容稍微有点理论化，细读的意义并不大，但【数据业务化】和【理解用户需求】的部分还是有参考价值的，同时数据分析师的基本素养中提到的点也常常是jd出现的几大点，知道背后的需求逻辑有助于面试回答的设计。

《用户体验度量》笔记

3.我们的估算到底有多准确？（置信区间）

主要解决问题：可用性测试里的置信区间是什么？

笔记整理

（1）置信区间的一般概念：置信区间=误差幅度的两倍。如57%的人赞同提案，95%正负3%的误差幅度，置信区间是6%，即在54%和60%之间。主要用来判断估算值有多准确（测量精确度）

（2）置信区间的三个组成要素：置信度、变异性和样本量

置信度：通常设成90%或95%。95%置信度意味着如果从同一个总体采样100次，区间中将有95次会包含真实的平均数或比例
变异性：总体中的变异是通过计算样本的标准偏差来估计的。较多变异量会使得结果得到较大波动从而得到较大的置信区间
样本量：在不降低置信度的前提下，样本量是唯一一个可以主动调整并影响置信区间宽度的因素。置信区间宽度和样本量之间是逆平方根的关系（如果误差幅度在样本为20的时候是+-20%，那么在样本为80的时候误差幅度才是+-10%）

（3）完成率的置信区间：一般在一定一般范围内计算出一个二项分布的置信区间即可（*可用性的一个最基本度量指标就是用户是否能完成某项任务）

上图说的wald区间无法应用在小样本上
小样本和大样本均可使用wald矫正区间

*wald矫正区间二项分布置信区间是研究者最有用的工具之一，对于任何一种能编为二进制码的测试都适用

实操性例题

（4）任务时长数据的置信区间：

*测量任务时长是评估任务绩效的好方法，一般用中位数或在自然对数转换后计算置信区间

实操例题：

思考总结：这章节内容似乎过于理论化，在我看过的面经中并没有考到类似深度的考点，最多询问置信区间的概念，所以没有详细记录笔记。后续如果发现有类似考点再进行针对性补充。

《如何用产品思维建设一个清晰的埋点数据流》——人人都是产品经理

链接：https://www.woshipm.com/data-analysis/5694315.html

主要解决问题：数据埋点的作用是什么；数据埋点的分类；埋点原则；埋点规则；埋点数据分类；数据埋点的挑战和难点

笔记整理

（1）数据埋点的作用

数据埋点 = 数据事件追踪（event tracking）,可以理解为对用户信息和用户行为的数据监控
是数据建设的基础，能客观反映产品的生命周期阶段，起到指导业务方向的作用

（2）数据埋点的分类（埋点记录分类方式的分类）

按服务对象不同，分为前端埋点（通过JS或接入第三方SDK）和后端埋点（记录调用接口次数）

*一般情况下，前端埋点记录简单的业务数据（页面停留时间，浏览事件，点击事件等）；后端埋点记录复杂的业务数据（页面响应时间、页面跳转路径和转化等）

前端埋点主要分为前端代理埋点和可视化埋点

*前端代理埋点：确定业务逻辑后，通过前端JS进行数据监控或接入第三方SDK

*可视化埋点：在接入SDK的基础上，直接通过业务人员的操作对页面圈定并自定义埋点名称

（3）数据埋点的分布

移动端（手机端）、PC端、移动设备（如智能手环）和服务器四种，相对较多的为移动端和PC端

（4）埋点原则

前期埋点全：前期产品不稳定时，埋点要埋全——尽可能杜绝上线后发现数据缺失
后期定时删：产品或者需求得出明确的结论后，定时整理删除不再需要或者不重要的埋点事件
埋点有逻辑和预期：了解数据统计平台后埋点
埋点参数明确且唯一

（5）埋点规则

*在埋点数据的使用中，是依靠埋点参数进行选取和过滤的，因此在设计埋点时埋点要满足明确模块、位置、触点、参数、周期与上报时机，把需要拆分的维度当做参数来设计会便于后续的数据筛选和计算。

模块：埋点的平台模块，便于后续不同埋点数据的使用、归纳与收敛；
位置：埋点的位置，便于后续埋点数据的分类与使用；
触点：埋点的触发的机会点，例如页面中的按钮或其他元素等，便于埋点口径的统一；
参数：埋点的参数名称，要保证全局唯一且明确易懂，便于埋点的使用的查询；
周期：埋点的统计周期，例如点击三次元素后当作埋点的一个统计周期；
时机：埋点的上报时机，在满足了埋点触点时根据上报时机进行埋点事件的上报，通过统计周期进行数据的处理与应用。

（6）埋点数据分类

*按照不同的事件分类可以将埋点数据分为四大类：曝光事件、点击事件、跳转事件与时间统计事件。

曝光事件：用户在应用的有效展示行为，如何合理定义有效曝光是前提，此部分可以与业务和开发同学共同定义，因为曝光事件是计算的基础，例如点击率=点击数/曝光数；
点击事件：用户在应用内通过点击某个按钮时会触发一次点击事件通过数据上报进行一次点击事件的计数，可以触发的点有按钮控件、内容区域、页面元素等；
跳转事件：用户在应用内通过页面之间的切换可以定义出跳转事件，此部分需要考虑跳转事件的定义，一次完整的跳转是通过哪些（两个）页面间元素的那些（点击）行为进行计算等；
时间统计事件：用户在应用内在某个页面的停留时间，可以通过用户进入页面的时间t1和离开页面的时间t2计算间的差值进行统计，计算方法可以简单地表示为：用户停留时长=离开页面时t2-进入页面时间t1 ，但可能存在着用户连续跳转无法记录时间或记录事件较短无法统计的情况，此时需要定义出时间的最小卡点。

*按照不同的数据分类可以将埋点数据分为三大类：基础数据、模块数据与特殊数据等。

基础数据：基础数据又可以叫做公共数据用作模块与模块之间的交叉数据，此部分数据一般情况下只需要上报一次出于数据准确性的考量可以设定一段时间更新一次即可；
模块数据：模块数据指的是业务组之间自定义的埋点数据，此部分数据的更新时间与时机要与业务共同商定已满足业务对于埋点的需求，此部分数据一般情况下是转化漏斗与用户分析等业务强相关的数据。例如：页面PV，页面UV等；
特殊数据：此部分是根据业务需求定制化的埋点数据流，例如一些页面事件来源信息（渠道来源、广告归因等）、自定义信息（应用版本、屏幕分辨率、浏览器信息）等。在此过程中需要将埋点的数据落库落表，在埋点上线后需要及时的进行数据统计与接收业务反馈。

（7）埋点的挑战和难点

埋点数据的高质量与稳定性
埋点数据流的时效性
埋点数据流的成本管理

思考总结：对于没有在互联网实习过的同学（比如我）可以在这篇文章中对数据埋点有基础认知。（2）和（6）由于标题缘故可能会导致阅读困惑，（2）可以理解成【埋点如何记录数据的分类】，（6）可以理解成【得到的记录数据该怎么分类】

机器学习：概要入门

主要解决问题：什么是机器学习？机器学习的六大经典模型是什么？

链接：https://m.bilibili.com/video/BV16D4y1D7pQ?p=2

笔记整理

（1）什么是机器学习？

所谓机器学习的【模型构建】，可以理解成人脑的【经验归纳】

人工智能、机器学习和深度学习的关系

（2）机器学习的六大经典模型是什么？（举例说明）

线性回归：找到一条直线，尽量靠近所有的点，预测空气质量的未来趋势
逻辑回归：空气质量是优还是差
决策树：判断某个人是否喜欢该类广告
贝叶斯分类器：在经验帮助下作出判断，一个人总是做好事，推断他多半是好人
SVM：找到一条线，把正负分类分隔开
集成学习：构建多个单独模型，根据单个结果总结出总结果

p.s.明天终于不是早八了，上午有空可以刷一下sql，打算在这个月刷完两遍并按照题型整理归类，应该能完成吧 （？）不知道数据分析师以及数分面试需要对统计学掌握多少...看面经似乎是t检验、z检验、置信区间、中心极限定理和大数定理，目前在看的《用户体验度量》是之前投用研时参考的书，似乎超过了数分考核范畴，在纠结是不是要仔细阅读，不知道有没有朋友能就【统计学学习深度】给些建议>333<