数仓方向实习或求职需要准备什么？（小白向）

前情提要：本文主要面向想在数仓方向求职的牛油，仅是我的个人理解和想法，欢迎提出建议和修改意见

近期有周围同学和个别牛友有问我：“数据仓库岗位需要准备什么才能找到实习或工作”，我在牛客上没有找到面向小白的比较清晰的解答，所以试着回忆一下我的去年春招（实习）和今年秋招我做的准备，并试着做一点总结，看能不能解决大家的部分疑惑。

首先，实习和秋招都面过多个互联网大厂，发现实习和正式的难度差距不是很大的。不要抱着“我随便学学就能找到实习”或“实习应该不需要会许多技术栈吧，我大概了解一下大数据组件就好”的想法。我大概觉得实习是秋招的70%难度（感觉日常实习跟暑期实习难度差不太多），都是需要手撕算法和背八股的，实习需要至少提前2个月准备比较稳妥，而秋招/春招则需要更多的时间，相关方向实习是求职最好的敲门砖。

实习和求职所需准备

（每一项我会列举几个面试常问的问题，可以对比一下自己的情况）

1、编程语言

由于很多大数据组件都是由Java编写，所以Java是必须要学会的，而且要较为深入。这里的深入并不是指工程能力，而是要把Java SE学明白，这里就有很多八股需要背。sql也需要非常熟练，不过这部分基本都是使用，八股不多。Scala和Python我觉得是锦上添花，可学可不学。

八股例：

Java的GC有哪些，有什么特点？

Java多线程和线程池？

hashmap的底层实现？

列表扩容机制？

sql执行流程？

2、算法能力

这个没得说，最简单的办法就是刷lc或牛客，至少要刷完面试高频的题，很多面试都有手撕算法，在会写的同时也要有一定的理解，不熟练的话面试紧张很容易写不出来。在数仓方向与后端不同，也需要对sql熟练，面试基本上都会手撕sql，个人理解sql比算法要简单不少，但也需要一定的积累。偶尔也会遇到一点非算法的手撕，比如写个饿汉单例，或写个分词计数（MapReduce或Spark）。

3、大数据组件

hadoop系列要背一些面经的，hdfs、MapReduce、yarn、hive、zookeeper等，这里有不少面经需要背，也是最能体现你熟悉大数据领域的地方。其次离线数仓要学好spark，实时数仓要学spark stream和flink。其他的像MySQL（很重要）、redis、Kafka（mq）、clickhouse等等也是体现你能力的地方，体现你的专业。

八股例：

mr中shuffle的具体流程？三次排序？分别是什么排序？

spark的宽窄依赖？如何划分stage？比mr优势在哪？

hdfs的容灾策略？读写流程？fsimage和editlog？

MySQL版本链？为什么使用B+树？

数据倾斜？怎么解决？怎么设计表

redis雪崩？