爆肝100天接Offer - DAY 2
今日进度:
1.SQL:leetcode简单题 * 6
2.业务:《数据分析师养成宝典》(1/6)
3.统计:《用户体验度量》(2/11)
4.Business senses:人人都是产品经理(1/1)
5.数分面试常见题
Leetcode SQL 简单题
1.知识点总结
(1)连接方式的区别
表A: 张三、李四
表B:李四、王五
匹配项: 李四
- inner join: 只返回两张表匹配的记录->李四
- left join: 返回匹配的记录及表A的多余记录->张三、李四
- right join: 返回匹配的记录及表B的多余记录->李四、王五
- full join: 返回匹配的记录及表A和表B各自的多余记录->张三、李四、王五
(2)运行顺序
- where>group by>having>order by
*Having用于分组后的过滤, 放到group动作后面
*Where用于全表数据集的筛选,在group动作前面
(3)limit & offset
- limit y 读取 y条数据
- limit x,y 跳过x条数据, 读取y条数据
- limit y offset x 跳过x条数据,读取y条数据
- limit n 等价于limit 0,n
(4)不存在相关数据,输出null
- 判断临界输出,如果不存在第二高的薪水,查询应返回 null,使用 ifNull(查询,null)方法
- 子查询,如果没搜到数据会自动显示null
(5)优化思路
- 联结的效率是最高的,因为用到索引的概率较高
(6)计算时间差
- 计算日期差 -> DATEDIFF()
DATEDIFF('2007-12-31','2007-12-30'); # 1
DATEDIFF('2010-12-30','2010-12-31'); # -1
*第二个日期比第一个日期早,结果将是一个负数
《数据分析师养成宝典》笔记
1.概念性认知
主要解决问题:数据分析的四大流程;数据分析内容的九大方面;数据分析 vs 数据挖掘;数据分析 vs 数据管理;数据分析 vs 商业智能;数据分析师的基本要求。
笔记整理:
(1)数据分析的四大流程:
- 业务理解:识别需求和异常,梳理业务目标,定义清楚X(解释变量,用以解释Y的结果)和Y(因变量,即指标)
- 指标设计:把抽象目标具体化,对问题和数据进行分解
- 数据建模
- 分析报告
(2)数据分析内容的九大方面:
- 描述性分析(数据可视化,ppt报告,数据认知):数据认知指的是「拿到数据集后你的做法」
- 优化业务(业务洞察、精准营销、用户画像)
- 战略规划(行业分析、趋势预测、数据挖掘):趋势预测中趋势的类型分为,主要趋势(一年以上),次要趋势(三个星期到数月),短暂趋势(两三个星期)
(3)数据分析 vs 数据挖掘:数据挖掘即从大量不完全的、有噪声的数据中,提取隐含信息的过程,数据挖掘的结果是数据分析报告的素材,所以数挖偏算法,数分偏业务。
(4)数据分析 vs 数据管理:数据管理从输入到输出都是数据,数据分析输入是数据而输出是用于决策的数据分析报表
(5)数据分析 vs 商业智能:数据分析一般是零散和局部的部门级应用,BI通常是企业级的宏观应用
(6)数据分析师的基本要求:
思考总结:对应面试题"对数据分析岗的认知","为什么想当数据分析师"等,也可通过思维导图对照检查自己的能力漏洞
《用户体验度量》笔记
1.导论
主要解决问题:采用哪些统计检验以及何时采用
(1)采用哪些统计检验及何时采用
- 首先,要考虑待检验数据的类型,即区分连续型还是离散型数据
- 其次,考虑你需要比较数据还是仅仅要一个精确估计。前者即比较两组或多组之间的数据或者与基准比较,后者则需要围绕样本度量值计算置信区间
2.量化用户研究
主要解决问题:用户研究的数据;可用性测试;A/B测试;调查数据;需求收集
笔记整理:
(1)用户研究的数据:用户研究是广泛的术语,包含了很多产生量化结果的方法论,包括可用性测试、调查、问卷和网站访客分析
(2)可用性测试:是用户研究中的核心研究,典型度量指标有——完成率、任务时间、出错数、满意度数据和用户界面问题
- 可用性测试分类:
*形成性测试:查找和修复可用性问题(类比:治疗手臂)
*总结性测试:用指标度量应用程序可用性(类比:断臂)
*使用频率:形成性测试 > 总结性测试
*基准测试:跟基线比较
*比较测试:跟当前或早先版本比较
*组内设计:相同的用户完成所有产品的任务
*组间设计:不同的用户分别完成不同产品的任务
- 样本量:小样本量也可进行分析,只要对数据进行量化的统计分析;样本量和代表性是两个不同的概念,代表性指的是「所测量的样本是否代表了你想描述的人群」
- 数据收集:需要有主持人、用户、观察者在场,记录数据
- 任务完成率:用二进制测量,完成(1)而失败(0);本质上任何事物的出现和消失都可被编码为1和0
- 可用性问题:会被整理到清单中,标注名字、描述和严重性评定(根据问题频率和用户影响程度而定)。严重性评定会成为衡量可用性活动影响力和ROI的关键测量指标。
- 任务时间:用户成功完成一个预设任务场景的时间总和
- 出错数:用户在尝试任务时产生的任何无意识的行为、过失、出错或疏忽,用以衡量用户失败的原因和可能的场景
- 满意度评分:可在完成一项任务完成后即时完成(任务评估问卷),可在一系列环节结束后完成(整体评估问卷),一般使用标准化问卷使得评估结果更可靠
- 复合分数:使用多个指标进行度量和计分,使得得到一个更好的总体描述
(3)A/B 测试:分半测试,是一种比较备选网页设计的普遍方法
(4)调查数据:调查通常包括Likert等级量表数据的组合、是/否二进制回答和开放性评论。
- 等级量表:据此计算均值和标准差,并生成置信区间
- 净推荐值(Net promoter socore):您将这个产品推荐给朋友或同事的可能性有多大?(从推荐者比例中减去贬损者比例即得到净推荐值)
- 评论和开放数据:评论和大部分开放性数据可被分类、量化以及被统计分析,之后还可通过计算置信区间来了解所有用户中可能有这样感受的用户比例
(5)需求收集:即定义产品的特征和功能,通过分析用户行为显示未满足的需求,并用类似UI问题的方法进行量化分析
思考总结:之前市调咨询实习过程中的方法论都有统计学依据支撑,在挖掘实习经历的时候可能要注重据此体现应统能力/AB测试实践/用户思维/需求挖掘的能力,去贴合数据分析师的能力要求。
《一文了解用户数据分析常见指标与原理》——人人都是产品经理
链接:https://www.woshipm.com/data-analysis/5708878.html
主要解决问题:指标划分原理;以用户使用产品流程进行指标划分
笔记整理:
(1)原理
- 客户端和服务器端通过http协议进行数据传递,按照一定的规则把所有的请求和响应分割成一定数量会话,通过会话能分析出用户访问网站的频次、路径、时长等关键信息。
- 因为http协议是无状态的,所以引用会话跟踪技术进行不同用户访问网站完整流程的记录,其中cookie和seession是常用的会话跟踪技术之一。cookie是通过在客户端记录信息确定用户身份的,而session则通过在服务器端记录信息确定用户身份。
(2)以用户使用产品流程进行指标划分
用户使用产品流程:新增(首次使用)、活跃(如何使用)、留存(继续使用)、流失(不再使用)
- 新增:可按照不同属性进行群体划分(性别、年龄、地区等),业务关注的指标为日增、周增和月增
- 活跃:活跃用户的定义取决于业务本身,登录、消费、浏览指定模块的内容、使用时长达到一定的时间等行为都能成为判断活跃用户的标准。统计需要去重。使用会话技术跟进用户的行为路径,可以统计更多的数据了解用户对产品使用情况,从而针对性地去优化产品功能设计或者内容本身。
*PV(访问量):即Page View, 即页面浏览量,用户每次刷新即被计算一次。
*UV(独立访客):即Unique Visitor,访问网站的不同IP地址的访客数。在同一天内,uv只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。
*访问次数:产生会话的次数,会话时长的计算为同一次访问内触发的最后一个事件的时间减去会话开始的时间。
*平均使用时长:会话的总时长 / 会话次数。
*使用时长分布:划分不同的时间区间,查看对应区间的访问人数情况。
*退出率:该网页是会话中"最后一页"的浏览次数占该网页总浏览次数的百分比。退出率=退出次数/总访问量*100%
*跳出率:该网页是会话中"唯一网页"的会话次数占由该网页开始的所有会话次数的百分比。跳出率=会话的开始和结束都是该页的次数/会话的开始是该页的次数*100%
- 留存:常见的留存为新增用户留存和活跃用户留存。
*新增用户留存:某产品,1月份新增用户10000人;2月时10000人中还有8000人使用产品,则新增留存人数为8000,新增留存率为80%;3月份10000人中还有7000人使用产品,则新增留存人数为7000,新增留存率为70%。
*活跃用户留存:某产品,1月份的活跃用户数是10万人,2月时10万人中还有5万人活跃,则活跃留存人数为5万,活跃留存率为50%;3月份,10万人中还有4万人活跃,则活跃留存人数为4万,活跃留存率为40%。
- 流失:理论上只要用户没有注销,就可以认为用户没有流失。但实际上一般会根据业务情况给定一个主观的判断标准,用户多久没有活跃来判定用户是否流失
(3)指标分析结果
可以根据业务需求统计出具有***属性,新增/活跃于***时间段,做过/没做过****的用户群体,针对不同特性的群体进行针对性的营销策略从而达成业务目标。
数分面试常见题
主要解决问题:什么是辛普森悖论?协方差与相关系数的区别和联系?怎么理解中心极限定理?K-means和KNN的区别是什么?
(1)辛普森悖论是什么?
- 概念:细分结果和整体结果相悖
- 例子:有男性20人,点击1人;女性100人,点击99人;该情况下,总点击率100/120。现在有男性100人,点击6人;女性20人,点击20人,总点击率26/120。男性和女性的点击率虽然都增加了,但是由于点击率更高的女生所占比例过小,所以未能拉动整体的点击率上升
(2)协方差与相关系数的区别和联系?
- 协方差:表示两个变量的总体的误差(https://www.bilibili.com/video/BV1Bt4y1W7kB/?spm_id_from=333.337.search-card.all.click&vd_source=acf5fc76e704a1e9751705c5c9754954)
- 相关系数:研究变量之间线性相关程度的量,取值范围是[-1,1],相关系数是一种标准化后的特殊协方差
(3)怎么理解中心极限定理?
- 概念:任何一个样本的平均值将会约等于其所在总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
- 作用:在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。根据总体的平均值和标准差,判断某个样本是否属于总体。
(4)K-means和KNN的区别是什么?
- 概念:首先,K-means是聚类算法,KNN是分类算法;其次,K-means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识;最后,K值的含义不同,k-means的k代表k类,KNN中的k代表k个最接近的邻居。
p.s. 本科学的统计学基础基本忘得一干二净,刷SQL简单题还算愉快。小红书上搜面经觉得自己要走的路还蛮长的,加油加油。明天要开学了(法国人开学也太早了!!)早八晚五的日子又来了,开学焦虑max
#我的2023新年愿望##我的求职思考##数据分析#