数仓/数据开发-零基础入坑（小白学习路径）_牛客网

华南农业大学数据仓库

关注

顶

@来杯冰可乐叭：数仓/数据开发-零基础入坑（小白学习路径）

这段时间各大公司的春招陆续开始了，但是也有很多同学还在因为刚刚入坑或者还在纠结，对学习路径比较迷茫。（这也是去年的我）所以这边总结一下，一个面向面试的学习路径，后面也会补充上全面的学习路径。面向面试就是掌握到基本能应付暑期实习面试的基本技能和知识，足以在春招实习招聘中应对，但是如果要在秋招里乱杀还是得全面学习的哟[诶嘿]。1  计算机基础1.1 基础八股文《计算机组成原理》《数据结构》《操作系统》《计算机网络》这四门课程是计算机专业的必学，虽然在大数据开发/数仓开发的面试场景中80%的时候并不会问道相关的八股，但是部分大厂（字节、阿里、快手（这是我面试到的））还是会问一些基本知识比如：TCP&UDP、三次握手、四次挥手、http等，所以只要去找一些常见的问题背下来就好1.2 算法基础所谓的算法基础实际上就是数据结构、算法题，盯着牛客、LetCode去刷题就好，每天三道美滋滋，面试手撕不用怕。暑期实习能有个100-150道基本能cover实习面试，如果时间实在来不及直接去做“剑指offer”的系列题，容易碰到原题或者类似题。如果是秋招的话得有个300左右的题量，建议直接刷LetCode题库的前300，不论笔试还是面试都会原题。（一定要总结同类题思路！！！数组、动态规划、DFS、BFS等等）2 编程语言2.1 SQL如果是数仓、数开，SQL 是必备技能（SQL Boy/SQL Gril[牛泪])，笔试面试都会考到，建议直接到牛客刷题。这部分的SQL题要重视，不论是笔试还是面试手撕60%概率是SQL题，如果有一定基础建议直接刷牛客的大厂真题：这里面的SQL题难度基本够了，也比较全面，难度也符合到一些实际生产场景（强力推荐！！👍）2.2 Java&Scala由于很多大数据组件都是由Java编写，所以JAVA也是数开/数仓的基本技能，虽然在实际工作中用到JAVA并不多，大部分时候就是写个UDF等。不过，我们在面试中还是会以JavaSE的要求来提问，所以需要背的八股以及补充的也比较多。不过如果时间不够的话，建议直接背常见Java八股题（面向面试嘛）。但最最基础的还是得会写一些Java,所以建议大家刷Letcode用Java去练习。Spark和Flink的底层有Scala编写，而且相对而言Scala在部分场景较Java更符合大数据场景，所以偶尔用到，但是面试基本不会问到，浅学即可，不要投入太多时间。2.3 Python锦上添花，无也无妨。但是如果会用Python做一个深度学习、机器学习的模型（调包侠也行）在面试官那里会有一定加分，部分团队会有相关的工作，但是还是要保证基础。3 大数据组件大数据组件非常的多，如果是全面学习的话，建议按照尚硅谷的学习路径去进行。如果只是面向面试学这几个Hadoop、Kafka、ZooKeeper、Hive、Hbase、Spark、Mysql即可。但是如果是要做实时开发还需要补充Spark Streaming、Flink，此外全面的学习还需要有Azkaban（任务调度）、clickhouse（OLAP）、redis等组件。3.1 Hadoop数据存储基本上还是使用 HDFS。MapReduce 虽然使用较少，但其思想十分重要，必会，也是调优的基础。Yarn 调度非常常用，但面试中很少考到。常问：HDFS读写流程、MR流程、Shuffle流程3.2 Spark现在的离线计算引擎机会都是 Spark3.0引擎，很少用到 MapReduce 了，所以也是必会。需要掌握与 MapReduce 的区别。常问：spark作业提交流程、Spark宽窄依赖&血缘、spark的持久化&缓存机制、Spark和MR的区别、Sprak和MR的Shuffle的区别3.3 KafkaKafka作为发布订阅消息队列，基本也是常问的，哪怕在Java开发也常常会有kafka的问题：Kafka数据重复、Kafka消息数据积压，Kafka消费能力不足怎么处理？Kafka 零拷贝、Kafka高效读写数据问的频率相对其他几个较少，掌握核心原理即可3.4 MysqlMysql的涉及到数据库的基础知识，基本也是每次面试必问，而且问题常常会从数据库底层原理以知道sql调优常问：Mysql索引、数据库事务、四种隔离级别、MVCC、谓词下推、执行计划等等MySQL一定要多准备一些3.5 Hive作为构建数据仓库的工具，常常会从Hive延伸到数据仓库模型的问题，或者从hadoop的问题延伸到Hive来。有两种方式：Spark on Hive：写 Spark SQL，Spark 读取的数据源是 Hive。就是通过 Spark SQL，加载 Hive 的配置文件，获取到 Hive 的元数据信息。Spark SQL 获取到 Hive 的元数据信息之后就可以拿到 Hive 的所有表的数据。接下来就可以通过 Spark SQL 来操作 Hive 表中的数据。Hive on Spark：写 Hive SQL。Hive 将自己的 MapReduce 计算引擎替换为Spark，当我们执行 HiveSQL(HQL) 时底层不是将 HQL 转换为 MapReduce 任务，而是跑的 Spark 任务。常问问题：Hive的架构、HQL转成MR的流程、数据倾斜、小文件问题（前面两个需要扩展到hadoop和spark的数据倾斜和小文件）、Hive优化、Hive常用调优参数4 数仓模型数据仓库的原理作为数仓开发工程师的核心技能，绝对是我们的高频问题，基本99%的面试官都会提问到相关的问题。完整的数仓架构需要了解。建模理论（星型建模、ER 建模）需要了解。推荐看阿里的《大数据之路》，需要这本书的电子版可以私信我。其中最重要的是，对数据仓库的理解、数仓分层、为什么这么设计、维度建模（既然我单独写了这一部分，足以见得绝对是Top1的重要性）5 数据治理了解一下概念即可。实习招聘考的少，秋招考的多。包括元数据管理、数据质量、血缘等。6 项目经历学完上述内容后，那么必然需要一个数据仓库的项目来完善个人简历，还是推荐尚硅谷。数仓这块如果咱们自己很难有实际项目，这边给推荐两个。第一:B站尚硅谷，可以跟着视频做项目，离线和实时的都有，项目内容也比较贴近真实开发场景，坏处是做的人很多，烂大街。第二:github，找大数据开发的项目，含金量更好，但需要自己投入大量的时间。如果是暑期实习的话我这边建议还是做尚硅谷的项目，只要能吃透，应对实习面试够了。   项目讲解：STAR原则学完以上所有这些（面向面试），根据我个人的经验，大概会在40-60天，其实时间也不短。建议大家在学完Hadoop之后就可以开始投一些简历，然后通过面试去不断磨砺个人技术理解，愈战愈勇。再者，面试之后也会发现，其实知识的深度重要性大于广度，与其花很多时间去把整个大数据链路学完，不如完成基础内容，然后自己去实操去思考问题，再通过一定的面试技巧（简历引导、语言问题引导、面试节奏掌握）等，就可以很顺利的通过大部分的面试。最后！！祝大家都能在春招中拿到满意的Offer！！[奇怪的知识增加了]（如果有需要看简历的也可以私信我哈，有空我都会回复滴）希望能帮到大家！！

点赞 134

评论 52

全部评论

推荐最新楼层

04-10 17:51

华中科技大学 Java

京东一面凉经

15min感觉kpi啊，一天后挂1.自我介绍2.讲一下项目亮点3.讲一下秒杀链路是怎么做的4.MQ咋用的，讲一下各种MQ5.讲一下MYSQL事务（讲完说那你八股背的不错）6.讲一下@Transactional7.Spring事务失效8.事务方法内对两个数据库操作，出错会不会回滚9.用没用过ai工具10.反问

查看8道真题和解析

点赞评论收藏

分享

04-09 12:41

Stanford University 算法工程师

“十五五”期间,109个项目，涉及到那些公司

十五五规划公布了109个项目，这些项目既然进了规划，未来五年肯定就会完成或者一定程度发展的。投资的本质都是买预期，这就是未来5年确定性的预期。项目总共分为6个方面，其中城乡融合、保障和民生、绿色低碳这三个不列举，只列举剩下的57个项目，涉及到的公司名单只是举例，不是全部。第一个引领新质生产力发展方面，有4个方面，总共28个项目。一、产业基础能力和竞争力提升1. 高端新材料西部材料：国内稀有金属难熔合金领域龙头，是SpaceX中国大陆唯一航天级铌合金供应商。万华化学：MDI全球龙头，化工新材料领域核心企业，覆盖高端化工新材料全产业链。菲利华：石英材料龙头，为半导体、光伏领域提供核心高纯石英制品，...

点赞评论收藏

分享

03-31 17:40

门头沟学院算法工程师

找实习笑话

原来就算签了协议也是可以提前走的吗，有无有经验的前辈说说是真的吗

鲸鸿：实习协议不用管签多久，要走的时候提前三天说就可以了

点赞评论收藏

分享

03-18 01:22

门头沟学院 Java

春招还有机会嘛

我现在这个水平大概能拿到多少薪资的offer😂

肖先生~：先别说工资，现在有个工作就不错了

点赞评论收藏

分享

04-09 17:50

门头沟学院 Java

拼多多后端一面，比字节还难

今天拼多多后端一面，给我干沉默了一次。 提前说：我字节一面过了，以为拼多多差不多，结果完全不是一个量级。 【题目流水账】 HashMap数据结构，说清楚扩容机制，为什么用红黑树而不是AVL树。（我说到一半说错了，面试官直接打断："那个不对，重新说"，全程很直白） ThreadLocal原理，说一下内存泄漏的情况以及如何避免。 MySQL索引，B+树结构，为什么不用B树，磁盘IO怎么估算。 手写代码：LRU缓存，要求O(1)读写。我写了LinkedHashMap方案，面试官说：好，现在不用库，手写一遍。 手写完之后面试官突然问：你投递了多少家公司，用什么管理进度？ （这个我没...

查看6道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职进度条 #

984090次浏览 6541人参与

# 携程笔试 #

153469次浏览 888人参与

# 厦门银行科技岗值不值得投 #

18929次浏览 422人参与

# 米哈游工作体验 #

29873次浏览 144人参与

# 拼多多集团-PDD笔试 #

63971次浏览 484人参与

# 哪些公司一直卡在简历筛选 #

105575次浏览 360人参与

# 中国电信笔试 #

40745次浏览 399人参与

# 拿到offer之后，可以做些什么 #

104698次浏览 511人参与

# 入职第一天，你准备什么时候下班 #

118176次浏览 516人参与

# Agent面试会问什么？ #

38060次浏览 1418人参与

# 一人分享一个skill #

9851次浏览 243人参与

# 说说你知道的学历厂 #

401402次浏览 1433人参与

# 春招至今，你收到几个面试了？ #

98293次浏览 1240人参与

# 选实习，你更看重哪方面？ #

76765次浏览 505人参与

# 拼多多工作体验 #

55357次浏览 389人参与

# 记录实习开销 #

214497次浏览 1747人参与

# 你觉得专业和学校哪个对薪资影响最大 #

104521次浏览 620人参与

# 给工作过的公司写一条大众点评，你会怎么写？ #

12309次浏览 143人参与

# TCL求职进展汇总 #

152305次浏览 665人参与

# 通信/硬件的薪资开多少，才值得去？ #

76730次浏览 407人参与

# 面试体验最好和最差的公司 #

25436次浏览 170人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务