数据分析师相关书籍推荐
写在前面的话:囿于博主阅读书籍时更关注数据分析工具的使用,因此下文所介绍的内容看起来更聚焦于如何使用好数据分析的工具而非建立数据分析的思维框架,大家可根据自身需求进行选择。如果大家想提升学习的效率,还是建议大家面向面试学习,多搜索面经,多准备准备面经中常见问题的回答
SQL相关
推荐两本书——MICK所著的《SQL基础教程》和《SQL进阶教程》
这两本书的阅读难度相对友好,能让大家快速掌握SQL的基本语法,但如果只看书籍不上手的话,学习到的知识转眼就会忘掉,因此需要借助在线编程进行练习,这里推荐牛客网的在线编程-SQL篇进行在线练习
题库中有些题目涉及增、删、改操作,这些题目看看就好,在面试过程中考察的概率不高,重点关注查询操作的题目,大部分题目的难度适中,很好上手,部分难度较大的题目理解思路即可
除此之外,还需要掌握数据分析师面试时常问的SQL题,包括但不限于:
- 次日留存用户数、用户的次日留存率(七日留存同理)
- 平均活跃天数的计算
- 最长连续登录时间的计算
这些问题的解法一定要牢记,面试时考察的可能性极高
概率论和统计学相关
在数据分析师面试过程中,概率论和统计学相关知识也是考察重点,考察的问题包括但不限于:
- 各类统计量及其应用场景
- 各种分布的相关知识
- 什么是置信度?什么是置信区间?
- 什么是假设检验?假设检验的流程是什么?
- 什么是p值?
- 什么是一类错误?什么是二类错误?当样本量变动时,一类错误概率怎么变化,二类错误概率怎么变化?如何降低二类错误概率?
如果想系统性地学习概率论和统计学的相关知识,推荐两本书——盛骤所著的《概率论与数理统计》和贾俊平等所著的《统计学》
机器学习相关
在面试过程中,面试官可能会提问到机器学习算法的相关知识,对于数据分析师而言,了解常见机器学习算法的内容、应用场景、优缺点等是很有必要的,在以往的面试中,我被提问到的机器学习算法包括但不限于:
- k近邻KNN
- 逻辑回归LR
- 朴素贝叶斯NB
- 支持向量机SVM
- 决策树DT,随机森林RF,梯度提升机GBDT,极端梯度提升机XGBOOST,LightGBM等
- 常见的聚类算法(KMeans,层次聚类,DBSCAN等)
以上算法的基础内容、应用场景、优缺点等相关八股问题,大家可在各大知识平台上自行搜索以形成自己的回答
如果大家想通过书籍来学习机器学习相关知识的话,推荐葫芦娃所著的《百面机器学习》,又名葫芦书,阅读难度尚可,不涉及太多算法推导内容,大家在阅读过程中可建立对机器学习相关知识的初步了解
如果大家对机器学习算法的原理推导比较感兴趣的话,可阅读李航所著的《统计学习方法》和周志华所著的《机器学习》(又名西瓜书),这两本书涉及公式推导,阅读难度相对较大,大家根据自身需求进行选择
Python相关
Python属于数据分析师技能要求中的一环,尽管在实际工作中的使用频率不算太高,如果时间充裕,还是推荐掌握
在学习的过程中,大家可能会发现自己完全记不住代码和对应参数,这是非常正常的,这需要大家上手实践,练习得多了,常见的代码操作自然也就熟练了
首先推荐Wes McKinney所著的《利用Python进行数据分析》,这本书详细介绍了Python的安装,Python内建数据结构的基本概念,numpy、pandas、matplotlib等库的常用代码,数据载入、数据清洗、数据规整、数据可视化等相关知识,覆盖面较为全面,因此很推荐大家学习一下这本书
如果大家对数据挖掘方面的内容比较感兴趣的话,向大家推荐两本书——张良均所著的《Python数据分析与挖掘实战》和Andreas C. Muller等所著的《Python机器学习基础教程》
《Python数据分析与挖掘实战》提供了若干实战案例,大家可用这些案例来做练习
《Python机器学习基础教程》中介绍了常见机器学习算法的算法思想、基础语法和优缺点等,相当推荐大家阅读
如果大家对于数据分析实践有进一步的需求,可在各大知识平台搜索数据分析案例实战,根据案例数据,通过上手操作练习以强化自身对Python的掌握
可视化相关
可视化也是数据分析师需要掌握的技能之一,如Excel,Tableau,Power BI等软件均可实现可视化操作,下面推荐我阅读过的一本可视化相关书籍——马世权所著的《从Excel到Power BI 商业智能数据分析》
《从Excel到Power BI 商业智能数据分析》详细介绍了Power BI这个商业智能数据分析工具的使用,同时辅以数据案例进行讲解,是一本不错的工具书,如果大家对利用Power BI进行可视化感兴趣的话,可以阅读一下这本书
方法论相关
对数据分析师来说,数据分析的方法论十分重要,但遗憾的是,方法论相关的书籍我阅读得比较少,在此就不做推荐了,大家可在各大知识平台上进行搜索以获取相关信息
#数据分析##数据科学#