首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
在努力存钱的废话选手很愤怒
门头沟学院 测试开发
关注
已关注
取消关注
收藏
@来杯冰可乐叭:
数仓/数据开发-零基础入坑(小白学习路径)
烫
这段时间各大公司的春招陆续开始了,但是也有很多同学还在因为刚刚入坑或者还在纠结,对学习路径比较迷茫。(这也是去年的我)所以这边总结一下,一个面向面试的学习路径,后面也会补充上全面的学习路径。面向面试就是掌握到基本能应付暑期实习面试的基本技能和知识,足以在春招实习招聘中应对,但是如果要在秋招里乱杀还是得全面学习的哟[诶嘿]。1 计算机基础1.1 基础八股文《计算机组成原理》《数据结构》《操作系统》《计算机网络》这四门课程是计算机专业的必学,虽然在大数据开发/数仓开发的面试场景中80%的时候并不会问道相关的八股,但是部分大厂(字节、阿里、快手(这是我面试到的))还是会问一些基本知识比如:TCP&UDP、三次握手、四次挥手、http等,所以只要去找一些常见的问题背下来就好1.2 算法基础所谓的算法基础实际上就是数据结构、算法题,盯着牛客、LetCode去刷题就好,每天三道美滋滋,面试手撕不用怕。暑期实习能有个100-150道基本能cover实习面试,如果时间实在来不及直接去做“剑指offer”的系列题,容易碰到原题或者类似题。如果是秋招的话得有个300左右的题量,建议直接刷LetCode题库的前300,不论笔试还是面试都会原题。(一定要总结同类题思路!!!数组、动态规划、DFS、BFS等等)2 编程语言2.1 SQL如果是数仓、数开,SQL 是必备技能(SQL Boy/SQL Gril[牛泪]),笔试面试都会考到,建议直接到牛客刷题。这部分的SQL题要重视,不论是笔试还是面试手撕60%概率是SQL题,如果有一定基础建议直接刷牛客的大厂真题:这里面的SQL题难度基本够了,也比较全面,难度也符合到一些实际生产场景(强力推荐!!👍)2.2 Java&Scala由于很多大数据组件都是由Java编写,所以JAVA也是数开/数仓的基本技能,虽然在实际工作中用到JAVA并不多,大部分时候就是写个UDF等。不过,我们在面试中还是会以JavaSE的要求来提问,所以需要背的八股以及补充的也比较多。不过如果时间不够的话,建议直接背常见Java八股题(面向面试嘛)。但最最基础的还是得会写一些Java,所以建议大家刷Letcode用Java去练习。Spark和Flink的底层有Scala编写,而且相对而言Scala在部分场景较Java更符合大数据场景,所以偶尔用到,但是面试基本不会问到,浅学即可,不要投入太多时间。2.3 Python锦上添花,无也无妨。但是如果会用Python做一个深度学习、机器学习的模型(调包侠也行)在面试官那里会有一定加分,部分团队会有相关的工作,但是还是要保证基础。3 大数据组件大数据组件非常的多,如果是全面学习的话,建议按照尚硅谷的学习路径去进行。如果只是面向面试学这几个Hadoop、Kafka、ZooKeeper、Hive、Hbase、Spark、Mysql即可。但是如果是要做实时开发还需要补充Spark Streaming、Flink,此外全面的学习还需要有Azkaban(任务调度)、clickhouse(OLAP)、redis等组件。3.1 Hadoop数据存储基本上还是使用 HDFS。MapReduce 虽然使用较少,但其思想十分重要,必会,也是调优的基础。Yarn 调度非常常用,但面试中很少考到。常问:HDFS读写流程、MR流程、Shuffle流程3.2 Spark现在的离线计算引擎机会都是 Spark3.0引擎,很少用到 MapReduce 了,所以也是必会。需要掌握与 MapReduce 的区别。常问:spark作业提交流程、Spark宽窄依赖&血缘、spark的持久化&缓存机制、Spark和MR的区别、Sprak和MR的Shuffle的区别3.3 KafkaKafka作为发布订阅消息队列,基本也是常问的,哪怕在Java开发也常常会有kafka的问题:Kafka数据重复、Kafka消息数据积压,Kafka消费能力不足怎么处理?Kafka 零拷贝、Kafka高效读写数据问的频率相对其他几个较少,掌握核心原理即可3.4 MysqlMysql的涉及到数据库的基础知识,基本也是每次面试必问,而且问题常常会从数据库底层原理以知道sql调优常问:Mysql索引、数据库事务、四种隔离级别、MVCC、谓词下推、执行计划等等MySQL一定要多准备一些3.5 Hive作为构建数据仓库的工具,常常会从Hive延伸到数据仓库模型的问题,或者从hadoop的问题延伸到Hive来。有两种方式:Spark on Hive:写 Spark SQL,Spark 读取的数据源是 Hive。就是通过 Spark SQL,加载 Hive 的配置文件,获取到 Hive 的元数据信息。Spark SQL 获取到 Hive 的元数据信息之后就可以拿到 Hive 的所有表的数据。接下来就可以通过 Spark SQL 来操作 Hive 表中的数据。Hive on Spark:写 Hive SQL。Hive 将自己的 MapReduce 计算引擎替换为Spark,当我们执行 HiveSQL(HQL) 时底层不是将 HQL 转换为 MapReduce 任务,而是跑的 Spark 任务。常问问题:Hive的架构、HQL转成MR的流程、数据倾斜、小文件问题(前面两个需要扩展到hadoop和spark的数据倾斜和小文件)、Hive优化、Hive常用调优参数4 数仓模型数据仓库的原理作为数仓开发工程师的核心技能,绝对是我们的高频问题,基本99%的面试官都会提问到相关的问题。完整的数仓架构需要了解。建模理论(星型建模、ER 建模)需要了解。推荐看阿里的《大数据之路》,需要这本书的电子版可以私信我。其中最重要的是,对数据仓库的理解、数仓分层、为什么这么设计、维度建模(既然我单独写了这一部分,足以见得绝对是Top1的重要性)5 数据治理了解一下概念即可。实习招聘考的少,秋招考的多。包括元数据管理、数据质量、血缘等。6 项目经历学完上述内容后,那么必然需要一个数据仓库的项目来完善个人简历,还是推荐尚硅谷。数仓这块如果咱们自己很难有实际项目,这边给推荐两个。第一:B站尚硅谷,可以跟着视频做项目,离线和实时的都有,项目内容也比较贴近真实开发场景,坏处是做的人很多,烂大街。第二:github,找大数据开发的项目,含金量更好,但需要自己投入大量的时间。如果是暑期实习的话我这边建议还是做尚硅谷的项目,只要能吃透,应对实习面试够了。 项目讲解:STAR原则学完以上所有这些(面向面试),根据我个人的经验,大概会在40-60天,其实时间也不短。建议大家在学完Hadoop之后就可以开始投一些简历,然后通过面试去不断磨砺个人技术理解,愈战愈勇。再者,面试之后也会发现,其实知识的深度重要性大于广度,与其花很多时间去把整个大数据链路学完,不如完成基础内容,然后自己去实操去思考问题,再通过一定的面试技巧(简历引导、语言问题引导、面试节奏掌握)等,就可以很顺利的通过大部分的面试。最后!!祝大家都能在春招中拿到满意的Offer!希望能帮到大家!!
点赞 124
评论 51
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
04-25 08:58
门头沟学院 Java
双非鼠鼠找暑期实习4月现状
现在是4.23,眼看都4月底了,鼠鼠还是没有一个暑期offer。鼠鼠是双非一本。在年初有段小厂实习之后就想冲一下中大厂的暑期实习。从三月初开始投递,直到现在,只有腾讯面了两次,云智一次,都是一面挂。从本来的自信满满,心气十足,直到现在摆烂,毫不想动,游戏也不想打,天天躺着啥也不想做。对什么都没兴趣,食不知味。鼠鼠的第一次小厂实习也是被不断的pua,没人带没人教,项目没文档,没注释,也看不懂。不干活吧,被骂,干活吧,又被嫌弃干的菜,什么都不懂。住的小屋子漏风,床是木板的,鼠鼠怕压断也不敢乱翻身,回去想要学会习,就感觉耗尽全身气力,经常凌晨才睡觉,纯靠意志力支撑。好不容易有点产出跑路了,开始投暑期...
VirtualBool:
同为河南的,感觉上了高中之后,人生就很累了
我的实习日记
实习进度记录
点赞
评论
收藏
分享
04-23 20:14
电子科技大学 Java
面试题:抽象类和接口的区别?
1.使用场景不同:抽象类的使用场景是,当几个类有相同代码时,我们可以将相同代码抽取出来,实现不同的代码设置成抽象接口,让这几个类去继承这个抽象类,通过实现抽象接口来实现不同逻辑的定制化开发。 这样做的好处:1.当公有代码需要修改时,只需要修改父类就可以,不需要每个子类都去修改,这样防止漏修改子类代码而导致代码逻辑错误 2.代码简洁,可读性高 3.减少测试接口定义的是一种行为规范,一个逻辑功能的主流程定了,分支有多种不同的实现,可以写一个接口,通过接口把主流程逻辑实现,如果有不同实现,实现这个接口即可。 这个是中间件和提取共有代码的基础,如果没有多态,很多共有代码就提取不出来。这样做的好处:1....
点赞
评论
收藏
分享
04-09 16:25
烟台理工学院 C++
求助朋友们,实习与学校的课冲突了怎么办
投票
我是大三的一名学生,从寒假期间到现在一直在找实习,最近终于找到了一个实习。接下来的问题就是学校方面,我先问了下我的班主任,她给我的回答如图所示今天我去教务处问了一下,那里的老师说不允许学生出去实习,没有这个证明之说,甚至大四也不可以。刚刚我问我的一位代课老师,她说必须要有学院或者班主任/导员这边的同意,需要有学院的红章,不能随便就口头一说就给我申请免听。我想到了几种解决办法1. 找替课,虽然要多花钱,但是应该是最靠谱的2. 自己今晚起草一份申请书,请求班主任/教务处/辅导员,希望能让我合规的离校(感觉不可行,因为昨天和今天的交流来看,他们都在互相踢皮球,不知可否给班主任包个红包?)3. 直接不上课,大四再重修4. 不去实习(虽然这只是个小厂,但是我真的找了好久,很珍视这次机会,而且是开发岗位,我怕没了这次机会后下次就更难找了)我现在真的不知道该如何解决该问题,望请兄弟们#我的实习求职记录# 们给我一些建议,非常感谢大家
我要赚大大大钱q:
我都逃了一年课去实习了,一点事没有
我的实习求职记录
点赞
评论
收藏
分享
04-25 09:26
中国科学院大学 Java
阿里云一二面技术面分享
阿里云是我比较早的面经了,我因为有每次复盘的习惯,所以现在发出来问的问题比较中规中矩,是我投的早吗?果然是先来先得。一面 50min 无手撕 听朋友说好像笔试分高的一般面试官不手撕 1.自我介绍,我叫xxx 某xxx学校 哎 介绍了不知道多少遍了2.聊一下自己项目的组成 框架3.Redis 的线程模型是什么?你用的是单体还是分布式?4.jdk、json、hessian等序列化器有什么区别,为什么jdk的序列化结果大5.展开讲讲B+树,解决了数据库的什么问题,没有B+树之前怎么解决的,和原来的方法有什么区别6.java触发垃圾回收的时机7.Java进程cpu占用高,有什么排查思路(这个就是看一下...
阿里云二面100人在聊
查看20道真题和解析
java面筋八股大全
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
大连某小区保安一面
8.5W
2
...
如果你的项目是烂大街rpc,面试该怎么吹?
9658
3
...
想当滴孝子
9185
4
...
WXG企业微信暑期前端一二面+面委+hr(已oc)
8989
5
...
双非初见白月光之学习路线分享
8317
6
...
滴滴秋储后端一面
8284
7
...
所以,你们许给我们的远大前程呢
5871
8
...
爱谁谁吧!暑期实习,老娘再也不面了!
5703
9
...
北京某小厂一面:4/28
5111
10
...
25届双非春招游戏客户端Timeline(已OC)
4049
创作者周榜
更多
正在热议
更多
#
面试等了一周没回复,还有戏吗
#
111707次浏览
1032人参与
#
五一之后,实习真的很难找吗?
#
33156次浏览
169人参与
#
平安产险科技中心求职汇总
#
246810次浏览
2627人参与
#
硬件人,你被哪些公司给挂了
#
45723次浏览
711人参与
#
考研可以缓解求职焦虑吗
#
17065次浏览
217人参与
#
研究所笔面经互助
#
64493次浏览
424人参与
#
你喜欢工作还是上学
#
35306次浏览
376人参与
#
秋招盘点:机械人值得去的企业
#
67012次浏览
660人参与
#
考研失败就一定是坏事吗?
#
97351次浏览
818人参与
#
大学生该如何认清当下的就业环境?
#
32934次浏览
285人参与
#
你怎么评价今年的春招?
#
94301次浏览
1193人参与
#
考研人,我有话说
#
100122次浏览
918人参与
#
浅聊一下我实习的辛苦费
#
214488次浏览
1668人参与
#
我的AI电子员工
#
6569次浏览
54人参与
#
总结:哪家公司面试体验感最好
#
44343次浏览
322人参与
#
如果能重来,就业or读研你选哪个?
#
133119次浏览
1665人参与
#
格力求职进展汇总
#
170066次浏览
1228人参与
#
实习好累,可以辞职全力准备秋招吗
#
142385次浏览
1530人参与
#
找不到好工作选择GAP真的丢人吗
#
57548次浏览
709人参与
#
我和mentor的爱恨情仇
#
13093次浏览
140人参与
#
运营人的第一份offer应该如何选
#
137341次浏览
1069人参与
牛客网
牛客企业服务