成为数据分析师之学习路线分享
一、岗位分析
数据中台数据分析:这种在规模比较大一点的公司会有专门的数据团队,负责各个业务线的数据分析工作,有专门的数据领导,不隶属于业务线。公司内部数据地位较高,数据权限较大。
数据科学家:一般归属于算法团队,主要做模型的理论研究及应用,日常工作内容多数时候在研究论文
业务数据分析:业务线下的数据分析师,主要为了快速的业务需求响应,日常工作主要是为了配合产品和运营做一些产出,数据权限及地位均不太高。
二、技能需求
1、统计学知识
2、业务理解
3、SQL
DDL数据定义语言:
CREATE:创建数据库和表等对象(上传内容到新表、创建新表储存从其他表筛选过来的内容)
DROP:修改数据库和表等对象(直接删除命令)
ALTER:修改数据库和表等对象的结构(不常用)(用法:add 字段名、drop 字段名、modify column 字段名 数据类型 属性)
DML数据操纵语言:
SELECT查询表中的数据:
select、from、where、group by、having、order by、limit
数据类型:int、float、char、varchar、string、date、array
嵌套查询:
1、标量子查询2、关联子查询3、普通子查询:①将子查询的结果列,作为主查询的取值范围 ②将二维表作为主查询新的检索表表联结:
自联结
组合查询(union、union all)
内部联结(inner join)
外部联结(left/right/full outer join)
常用函数:
条件函数:if、case when、nvl、coalesce、isnull...
数值型函数:rand、round、floor、ceil...
字符串函数:length、concat、upper、substr、split、get_json_object、regexp_extract...
日期函数:from_unixtime、unix_timestamp、datediff、date_sub、date_add、date_format...
聚合函数:count、sum、avg、min、max、percentile、percentile_appro x...
转换函数:cast、convert
窗口函数:
排序函数:rank()、dense_rank()、row _number()
分布函数:percent_rank()、cume_dist()
前后函数:lag()、lead()
聚合函数:sum()、avg()、count()、max()、min ()
INSERT向表中插入新数据:
1、插入字段数据(完整行/部分行)
2、插入select中的内容
UPDATE更新表中数据:
既可以更新指定列的值,也可以删除指定列的值
DELETE删除表中数据:
根据where删除指定行的数据,当不指定条件时,删除全部数据,但表依然存在,相对而言,truncate table删除所有数据的速度更快。
DCL数据控制语言
在SQL语言中,是一种可对数据访问权进行控制的指令,它可以控制特定用户账户对数据表、查看表、存储程序、用户自定义函数等数据库对象的控制权。一般用不到。
4、Python
python基础知识:
①变量、对象、自定义函数
②数据类型:字符串、整数、浮点数、布尔值
以及各种数据类型对应的函数及转换函数
③数据结构类型:列表、元组、集合、字典
以及各种数据结构所特有的功能和对应的函数
④逻辑结构
if语句for循环while语句
python知识进阶:
pandas包:pandas功能相当强大,尤其是在数据清洗方面,我们日常需要掌握的是pand as的众多函数与numpy之间的相互转化...
sklearn包:sklearn 包的主要功能是进行模型的搭建、参数调优及效果检验,但这些功能的实现都是建立在我们熟悉各个模型原理功能的基础上。
numpy包:常用功能--生成伪随机数、数组形状改变、四则运算与比较运算、广播运算、统计函数查看数组性质、numpy数组与pandas的DataFrame之间的相互转化...
此外还有很多使用频率没那么高的包,比如seaborn、matplotlib.pyplot、time、datetim e、math 等等,具体使用时,可以去查看功能。
5、excel
数据相关:
①公式与函数:例如:VLOOKUP、COUNT、MAX、RAND 等等。
②数据计算:分列、删除重复项、合并计算、模拟分析等等。
③数据处理
排序:简单排序、多关键词排序、自定义排序
筛选:自定义、高级、搜索功能
分类汇总:....
图表相关:
①普通图表:常用图表、设置标签、添加趋势线、更改布局等等。
②数据透视表
③单元格创建图形
6、模型搭建
分类模型:①有监督:朴素贝叶斯KNN
LR
SVM
树模型(单分类模型:ID.3、C4.5、CART
boosting模型:AdaBoost算法、GBDT算法(XGBoost、LightGBM)
bagging 模型:随机森林
孤立森林)
②无监督:
K-means
DBSCAN 聚类
层次聚类
高斯混合模型
自组织映射神经网络
神经网络
样本不均衡:
由此衍化而来的误差、方差、偏差问题。
评价指标:
①预测问题
MSE、RME、MAE、MAPE等。
②二分类问题
准确率、精确率、召回率、F1值、ROC 曲线、AUC值、KS曲线、PR曲线等。③多分类问题
混淆矩阵
模型验证方法:
Holdout检验、交叉检验、自助法超参数调优:
网格搜索、随机搜索
#数据分析##数据分析师#