数据分析岗介绍~
岗位职责:
工作内容主要是根据时间维度产出数据报告、监控数据趋势,并为业务提供数据支持。数据分析师是一个连接业务与IT的职位,要求比工程师更了解业务逻辑,又要比产品、运营等具有更多的数据分析思维与技能。主要是为公司业务人员、运营人员提供数据支持的,帮助员工提高工作能力和工作效率。
求职难度:
数据分析师的门槛相对较低,大部分要求大专及以上,所有统计学专业,计算机专业,软件工程专业的同学都可以投递。
技能要求:
理论基础:
包括统计学相关的学科内容;数据分析工具:熟悉常用的数据分析工具包括Excel SQL Python等;可视化工具:熟悉常用的Excel和商业智能可视化工具;业务知识:熟练掌握常用的数据指标以及某行业的业务流程;数据分析思维:熟练掌握常用的分析方法;通用能力:熟练掌握PPT和业务够通能力。
实践经验:
校招笔试常见题解:
数据分析师的笔试题有两个重点方向,一个是数理统计相关的基础题型;一个是SQL题,也是希望求职的小伙伴对数据分析的基础理论能很好的掌握。
以下将举几个笔试中的例题:
—— 第1题 ——
1. 一组数据,均值>中位数>众数,则这组数据
A. 左偏
B. 右偏
C. 钟形
D. 对称
答案:B
「题目解析」
分布形状由众数决定, 均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。偏态是看尾巴在哪边。
—— 第2题 ——
2. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间?
A. 越小
B. 越大
C. 不变
D. 无法判断
答案:A
「题目解析」
根据公式,Z减小,置信区间减小。
—— 第3题 ——
3.关于logistic回归算法,以下说法不正确的是?
A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性
B. logistic回归的目标变量可以是离散变量也可以是连续变量
C. logistic回归的结果并非数学定义中的概率值
D. logistic回归的自变量可以是离散变量也可以是连续变量
答案:B
「题目解析」
逻辑回归是 二分类的分类模型, 故目标变量是离散变量,B错;
logisitc回归的结果为 “可能性”, 并非数学定义中的概率值,不可以直接当做概率值来用,C对。
—— 第4题 ——
4.下列关于正态分布,不正确的是?
A. 正态分布具有集中性和对称性
B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置
C. 正态分布是期望为0,标准差为1的分布
D. 正态分布的期望、中位数、众数相同
答案:C
「题目解析」
N(0,1)是 标准正态分布。
—— 第5题 ——
5. 以下关于关系的叙述中,正确的是?
A. 表中某一列的数据类型可以同时是字符串,也可以是数字
B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表
C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零
D. 表中必须有一列作为主关键字,用来惟一标识一行
E. 以上答案都不对
答案:B
「题目解析」
B. 关系是一张二维表,表的每一行对应一个元组,每一列对应一个域,由于域可以相同,所以必须对每列起一个名字,来加以区分,这个名字称为属性。
—— 第6题 ——
6.想要了解一个地区人群的一般收入水平,以下什么指标不能使用?
A. 方差
B. 几何平均数
C. 众数
D. 中位数
E. P值
答案:B E
「题目解析」
几何平均数:几何平均数是对各变量值的连乘积开项数次方根。 求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。
—— 第7题 ——
7.以下属于聚类算法的是?
A. ARIMA
B. 朴素贝叶斯
C. 支持向量机
D. K-MEANS
答案:D
「题目解析」
A.时间序列
B.C. 分类模型
D 聚类
校招面试常见问题:
1. 扑克牌54张,平均分成2份,求这2份都有2张A的概率。
M表示两个牌堆各有2个A的情况:M=4(25!25!)
N表示两个牌堆完全随机的情况:N=27!27!
所以概率为:M/N = 926/53*17
2.男生点击率增加,女生点击率增加,总体为何减少?
因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。
即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。”
3.如何识别作弊用户(爬虫程序, 或者渠道伪造的假用户)
分类问题可以用机器学习的方法去解决,下面是我目前想到的特征:
(1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
(2)环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
(3)用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
(4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等
4.怎么做恶意刷单检测?
分类问题用机器学习方法建模解决,我想到的特征有:
(1)商家特征:商家历史销量、信用、产品类别、发货快递公司等
(2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
(3)环境特征(主要是避免机器刷单):地区、ip、手机型号等
(4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
(5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征
(6)图片相似度检测:同理,刷单可能重复利用图片进行评论