酸辣鱼籽酱

2023-02-19 00:24 门头沟学院数据分析师发布于四川

关注

大数据学习路线

个人学习路线，望各位大佬指正，不喜勿喷：

一、前言(基础)：

｜编程基础四大件

｜这根学什么语言、后续从事什么编程方向均无关，只要是做编程开发，这四个计算机基础就是无法避开的，这基础四大件真的比编程语言还重要！！！

数据结构和算法

可以说这个直接决定了⾯试的成败！⼏种基础数据结构类型得烂熟于⼼，⽐如：字符串、链表、⼆叉树、堆、栈、队列、哈希等；基

基本的⼏⼤算法也要了如指掌，⽐如查找、排序、动态规划、分治等等。建议LeetCode多刷题。

参考资料：《⼤话数据结构》、《算法》、《剑指offer》、《LeetCode刷题》等

计算机网络

此处的计算机⽹络指的就是TCP/IP协议栈，可以说它是当下互联⽹通信的基⽯，⽆论如何⼀定要对TCP/IP的协议栈了如指掌，主要就是学习和掌握原理，包括：ARP协议、IP协议、ICMP协议、TCP和UDP协议、DNS协议、HTTP协议、HTTPS协议。

参考书籍：《TCP/IP详解》等

操作系统

该部分重点包括：进程和线程的相关原理（原⼦性、并发、锁）、内存相关原理（内存分布、内存调度）

参考书籍：《深⼊理解计算机系统》等

设计模式

倒不需要23种设计模式全部记住，常见的几个如：单例模式、⼯⼚模式、代理模式、策略模式、模板⽅法模式建议熟练于心。

参考书籍：《⼤话设计模式》、《设计模式之禅》等

二、语言基础

语言

Java

语言基础

JVM虚拟机

并发/多线程编程

Scala

基于Java衍生出的编程语言，在大数据行业使用较为广泛

基本开发工具

Linux操作系统

服务器使用最多的操作系统内核

SSH终端

shell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。

IDEA

IDEA 全称 IntelliJ IDEA，是java编程语言的集成开发环境。IntelliJ在业界被公认为最好的Java开发工具，尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、创新的GUI设计等方面的功能可以说是超常的。

Git

是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

Maven

Maven项目对象模型(POM)，可以通过一小段描述信息来管理项目的构建，报告和文档的项目管理工具软件。

三、大数据组件学习

Hadoop（★★★★★）

Hadoop是由一个Apache基金会所开发的分布式系统基础架构，主要解决海量数据的存储和海量数据的分析计算问题，广义上来说，Hadoop通常是指一个更加广泛的概念--Hadoop生态圈。

Sqoop

Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Zookeeper

它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

Hive（★★★★★）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

Flume

Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

Kafka（★★★★★）

Kafka是一种高吞吐量的分布式发布订阅消息系统；

HBase

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

Spark（★★★★）

Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

Flink（★★★）

Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

四、项目

离线数仓

数据采集

数仓系统搭建

数据可视化

......

实时数仓

五、实习

｜完成了上述部分80%左右的学习即可开始准备实习

八股文

数据结构/算法

六、最后

｜个人认为学习途中非常有意义的事

1、坚定的信念

2、制定任务和计划

3、持续的激励及正向反馈很重要

4、总结与反思

#大数据暑期实习##大数据##大数据学习路线#

全部评论

推荐最新楼层

一颗好困芽

徐州工程学院前端工程师

写的真的好详细太贴心拉

2 回复分享

发布于 2023-02-20 13:21 江苏

雪梨燒仙草

湘潭大学前端工程师

为什么我没有早点刷到这篇帖子哭哭

2 回复分享

发布于 2023-02-20 12:30 湖南

一袋米要抗几楼？

门头沟学院 Java

这些需要学多久

1 回复分享

发布于 2023-02-27 15:27 广东

南京邮电大学硬件开发

请教佬实时数仓的项目在哪里找呢

点赞回复分享

发布于 04-18 14:19 江苏

在看牛客的火龙果很喜欢飞来飞去

银川科技学院大数据开发工程师

大数据的八股文去哪里看啊？哪里的全一些

点赞回复分享

发布于 2024-04-13 03:34 宁夏

Java菜鸡求offer

广州大学 Python

老哥如果时间不足的话，做离线数仓还是做实时数仓比较好

点赞回复分享

发布于 2023-06-01 02:05 广东

网易_数据开发工程师

可以

点赞回复分享

发布于 2023-04-17 13:03 浙江

昨天 10:21

中南大学 Java

暑期实习我恨你！！！！！

找暑期从六月中旬就开始了，一直到现在七月初聊过一些，但只有两个约面，一个一面挂了，一个被横向主包的命有点太苦了，有人管管吗......？

爱睡觉的冰箱哥：9不用慌，自带一段大厂实习

点赞评论收藏

分享

不愿透露姓名的神秘牛友

今天 14:10

hr新来的吧，变卦这么快

昨天沟通的好好的，今天就不要了，真想喷回去😭

点赞评论收藏

分享

06-16 09:09

山东工程职业技术大学运营

大二实习简历这样写行吗

大二0实习，求问有机会暑假去日常实习吗。简历有什么需要改进的地方吗，想去大厂

点赞评论收藏

分享

06-23 12:08

广州大学硬件测试

有没有人看看这个简历到底有多差

想找硬件测试实习

小浪_Coding：找硬件测试,也可兼顾软测欧, 简历还可以的 ,注意排版,项目写的有条理一点, 然后个人技能多加点, 润色好简历之后就开始沟通海投了,深圳,东莞这边做硬件相关的公司还不少, 医疗类,仪器类的都可以尝试

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-04 15:17

腾讯实习的HC怎么还在发！

27届又收到腾讯的面试通知了！ 分享一下投递时间线： 06.13 简历投递 06.26 初试 06.27复试 06.30HR面 07.01 offer

点赞评论收藏

分享

评论

58

336

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 应届生，你找到工作了吗 #

1719次浏览 25人参与

# 双非应该如何逆袭？ #

172840次浏览 2927人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

38324次浏览 277人参与

# 简历当中有水分算不算造假？ #

3491次浏览 35人参与

# 春招进度记录 #

340562次浏览 3202人参与

# 实习生的蛐蛐区 #

3022次浏览 34人参与

# 谈薪时HR压价该怎么应对 #

205667次浏览 3177人参与

# 三一集团提前批进度交流 #

22069次浏览 138人参与

# 百度秋招提前批进度 #

105026次浏览 1122人参与

# 毕业旅行去哪玩儿 #

7723次浏览 122人参与

# 正在春招的你，也参与了去年秋招吗？ #

308547次浏览 2523人参与

# 双非有机会进大厂吗 #

433536次浏览 4365人参与

# 非技术岗投递进展 #

144324次浏览 1264人参与

# 上班到公司第一件事做什么？ #

60275次浏览 518人参与

# 秋招盘点:机械人值得去的企业 #

71878次浏览 670人参与

# 材料进Fab厂真的劝退吗？ #

43075次浏览 184人参与

# 百度工作体验 #

229457次浏览 2008人参与

# 没有合适的工作，你会先找个干着，还是考公考研 #

116002次浏览 1133人参与

# 如果可以，你希望哪个公司来捞你 #

96521次浏览 397人参与

# 关于春招你都做了哪些准备？ #

101739次浏览 666人参与

# 工作中，努力重要还是选择重要？ #

139984次浏览 1705人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务