1.自我介绍2.项目内容:背景,uv,pv,功能,项目人数,分工3.数仓的设计思路4.分层数仓和使用普通数仓的区别5.为什么ods不直接对接app层,有没有考虑过增加一层数据集市层6.项目用了哪些技术栈7.hdfs如何保证高可用8.hdfs写入数据流程,写入过程中datanode挂了怎么办9.小文件原因,危害,解决方法10.数据倾斜介绍,数据倾斜如何排查11.spark的两种shuffle12.sql题:商铺的最大销量的类目13.设计题:数据量pb级别,要获取近30天和近90天的活跃用户uv,设计表和查询逻辑字节每次一面都是给你一块糖吃,让你以为自己又行了,结果二面开始就原形毕露了 #数据人的面试交流地#