如何用一年时间从零转型数据分析师,拿下大厂sp offer?
文章字数约4000字,阅读时间约10分钟
公众号:阿伦的数据分析之路
从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。
先说一下个人背景,本科是工科相关,非计算机非统计学,硕士是金融相关,基本也算是和数据分析没什么关系,毕业之前有过迷茫,因为自己其实也不知道到底适不适合金融行业,而且上学的时候没有认真搞过什么银行、券商的实习,基本毕业就是凉凉的节奏。所幸毕业前,在和友人的一次偶然交谈中,得知了数据分析这个职业,发现自己似乎比较感兴趣,当时也没有其他路可以选,就决定孤注一掷,all in 数据分析,在此也感谢一下那位友人,人生确实是在于你能否做对几个关键的选择。
决定转型后,先是到网上恶补了一下数据分析师这个行业的整体情况,现在数据分析师其实很杂,不同企业对数据分析师有不同的定位,但大概总结一下的话,是可以分为两种:
偏技术型数据分析师和偏业务性数据分析师
技术型分析师更接近于数据挖掘工程师、算法工程师、大数据工程师这种概念,一般来说是需要比较好的数据结构知识和算法知识,对于非计算机专业的同学,转型会有一定难度。其实一开始我考虑的是这种分析师,但在后面刷了几百道leetcode题之后,决定放弃这条路(太难了)。
第二种就是偏业务型的数据分析师,也是市面上岗位最多的数据分析师,这种分析师的门槛会相对比较低一点,但做不好的话,很有可能就变成报表分析师,提数分析师。不过毕竟门槛还是比较低的,对于想转型的同学,业务型数据分析师会更加友好一些
明确了转型方向后,对于从零转型的同学来说,会有两个比较迫切的问题,我该从什么地方下手和我简历上啥都没有怎么办。对于第一个问题,我的选择是先列了一个我认为的业务型数据分析师所需要的能力矩阵,再针对性准备,简单来说主要包括这几个层面:
基本工具
数据分析师三板斧:Excel、SQL、Python
Excel、SQL、python是数据分析师必知必会的3个基本工具,下面我们一个个来看:
Excel
对于Excel的学习,如果你的意向的岗位不是那种纯excel的数据分析师岗位的话,建议大家不需要花费太多时间在excel上,我个人是几乎没花什么时间在excel上,主要的是要掌握vlookup、透视表和一些常用图表,不会的函数就直接百度。
SQL
核心!sql一定要熟,笔试基本必考,面试时候大概率让你手撕sql,写不出的话很容易凉凉。对于sql的学习,完全没有基础的同学可以先看这本《sql必知必会》,了解sql的一些基本知识,增改删查,主要看查询的部分。
看完这本书后你对sql的语法应该有了一些基本的了解,但如果不多练习的话,面试手写sql的那种场景,脑子很容易宕机,在这里强推几个练习网站。
1.牛客网编程
牛客网在线编程,强力推荐,可以自动批改sql正误,纯中文,还有题目讲解,这个题库我刷了2遍
2.Leetcode
也是一个比较知名的网站了,学计算机的可能都知道。英文的代码在线练习网站,但今天看了一下发现有中文了,但是很多题目都变成了收费题目,牛客网刷完感觉不够的话可以再来这看看
总结一下:对于sql的掌握就是看书了解基础,多刷题巩固,在面试中一般问题不大,当然也不排除有一些变态sql笔试题,这种就看缘分了。
Python
相对上面两个工具,python的学习难度会稍微大一些。python能干很多事,对于数据分析师来说,主要应掌握基础语法和数据科学的模块,主要包括pandas numpy 和机器学习库sklearn等,有同学可能会问业务型数据分析师也需要会算法吗?答案是虽然不是必须项,但是加分项,尤其是在从零转型情况下,是增加自己份量的一个筹码。
对于python的学习,建议大家不要报班交智商税,在coursera上有大把的资源,我学习的是密歇根大学的python课程《Python for everybody》,看完入门的话不是问题,课程是免费的。
学完这个课程你对python就有基本的了解了,但和sql一样,还是需要多练多运用才能真正融汇贯通。那么怎么练习python呢,在这里推荐一个可能很多人都知道的数据竞赛平台,没错就是kaggle,相信不少人都看过泰坦尼克号生存预测这个项目,这个项目的来源就是kaggle。在kaggle上打比赛,既能让你练习python,又能让你有一些项目可以放到简历上,一举两得。
入门的话可以先从泰坦尼克或者房价预测入手,但放到简历上的话,建议大家挑几个正式的比赛去做一下,这两个项目过于泛滥,含金量比较低了。我在kaggle里面打过很多个项目,最后选择了一个信用卡违约风险预测的项目,《Home Credit Default Risk》放到了简历上,除了kaggle之外,还有其他很不错的数据比赛平台,后面在项目篇会给大家再详细讲一下。
数据分析理论知识
统计学和机器学习两手都要抓、两手都要硬
理论知识这块,数据分析师最需要掌握知识是统计学和机器学习,但掌握到什么程度、掌握哪些领域,还是有些门道。
统计学
如果不是统计学专业的同学,一般面试官心里都有数,不会问你很难的问题,大学统计学范畴。对于统计学基础不怎么好,或者已经忘干净的同学,可以看网易公开课里可汗学院的课程恶补一下,我在准备的时候复习了一遍,感觉效果不错,捡回了不少遗忘的知识。如果说没有时间看完全部课程,应该重点掌握哪块知识呢?假设检验,假设检验,假设检验,重要的事情说3遍,假设检验绝对是面试中统计学最高频的问题,和以后的工作也会最息息相关(a/b test)。
机器学习相关的知识学习成本会比较高,对某些同学来说可能会有一定难度,但对于业务型数据分析师来说,一般不会要求你去推导算法公式,能做到明白不同算法的适用场景、优缺点、原理大概懂就基本可以了。
在机器学习这一块,我的学习路径是这样的:
- 视频课程
首先入门强推吴恩达大牛的coursera(www.coursera.org)机器学习课!!千万别花钱报班了,入门看这个就够了!
看完觉得不过瘾想要进阶的话,可以继续看吴恩达大牛斯坦福大学的公开课,难度会比coursera上的课程更高一些,对于可以***的同学,可以去youtube上找***立大学林轩田老师的《机器学习基石》和《机器学习技法》,难度会再高一些。我当时是连续刷完了这3门课程,虽然刷完之后部分知识还是有理解不够深入的情况,但应付面试已经差不多了。
- 书籍
阅读书籍可以帮助你更好的把知识沉淀下来,除了上面视频课程之外,我还刷了2本书籍。第一本是西瓜书,第二本书是李航的统计学习方法,这两本就不用多说了,经典读物。内容可以挑着看,主要看一下常用的机器学习模型,svm、随机森林之类的。
数据分析项目实战
kaggle打的好,工作也好找
如果你已经学完了上面的python和机器学习课程的话,就可以进入实战阶段了,我的选择是去打比赛,既可以巩固学到的知识同时又可以解决简历中没有相关项目的问题。
打比赛和真实的数据分析工作其实非常接近,对于大部分常规数据科学比赛而言(比如泰坦尼克号/房价预测这种),大部分人的模型最后其实都大差不差,lgb/xgb搞一搞,再做个模型融合,决定成绩好坏的关键往往是在特征工程上,有时候一个magic feature就能让你的排名上升数百名。magic feature从何而来?是来自你对比赛业务的理解,只有你真正理解了业务,才能构思出好的特征,从而取得好的名次,这个业务型数据分析师的本质也是相通的,理解业务,改进业务。
我举个简单的例子,以我做的信用卡风险项目为例,比赛目标是根据用户的个人信息和一些行为数据来判断用户是否会违约。其中有一个特征是用户的工资,第二个特征是用户信用卡已使用的额度,从业务的角度考虑,如果一个用户使用信用卡的额度远高于他的工资,那么这个用户是不是很有可能就没有钱还信用卡,违约风险会比较大?基于这个假设,我设计了一个 信用卡使用额度 / 工资的特征,经过可视化发现,确实是这个比值越大,用户违约的风险就会越高,把这个特征放到模型里面,我的模型分数有了显著的提高。
这个就是一个基于业务理解做出假设、通过数据验证假设、改进业务的闭环,这也是你在面试中,应该向面试官表达的。
下面推荐几个常见的数据科学比赛平台:
1. Kaggle
首推,强烈推荐!kaggle的优势不仅在于比赛众多,更重要的是里面会有很多选手分享他们的思路和代码,是分享做的最好的一个平台,我的python和数据挖掘基本就是从kaggle练起来的。
2. 阿里天池
国内最有牌面的数据比赛平台,如果你能在阿里天池拿一个不错的名次,含金量就相当高了,但是难度很大,对于转型的同学基本不太可能,可以看看新人赛和一些分享之类的。
3.DataFountain
某数据比赛平台,难度相对天池会低一些,且比赛内容对于国内hr来说,可能会更熟悉一些,在这个平台上,我打了一个招商银行的比赛,1867个参赛选手中拿到了第34名,算是成绩最好的一次。
数据分析思维
没有比这个更重要的能力了
分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。在面试中,对分析思维的考察也是相当重要的一环。
对于分析思维的学习,我建议新人也是从读书开始,我看过的且比较推荐的书包括:
数据分析类:
《精益数据分析》、《增长黑客》、《数据化管理:洞悉零售及电子商务运营》、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》
产品思维类,如果是想要从事互联网行业的数据分析师的话,产品思维也是必须要具备的,面试考察点之一
《从点子到产品:产品经理的价值观与方法论》、《俞军产品方法论》、《产品思维》
逻辑思维类:在面试中逻辑清晰的回答面试官的问题,会为你大大的加分
《金字塔原理》、《学会提问》、《麦肯锡思维》
看完这些书,我相信你已经具备了基本的数据分析思维。但书中的知识和实际工作毕竟还是有一些差距,在这里我结合我的工作经验,给大家列几个数据分析师真实工作场景中常遇到的问题,如果要面试字节跳动的话,这可能就会是你的面试问题
1、假设抖音的人均活跃时长下降了,你该如何分析这个问题?
2、网易云音乐之前有一个每天给你推10首歌的功能,如果让你设计指标来衡量这个功能的效果,你会设计哪些指标?
3、很多信息流app在新用户第一次注册时,都会让他们去选择兴趣标签,如果想让你做这个功能的专题分析,你会怎么设计你的报告框架?
最后,希望大家都能找到理想的工作。再打个小广告,对数据分析感兴趣的同学,可以关注我的个人公众号:阿伦的数据分析之路,新号刚刚创立,会定期更新一些数据分析知识、转型经验、分析实战经验等,相信能对想要学习数据分析知识的同学有所帮助。