👥 面试题目1.自我介绍,能不能从几个方面说一下项目2.有什么收获3.简历里面哪个技术学的最好4.spark的client模式和集群模式5.yarn6.能够重分区的算子7.为什么用rdd,不用df和ds,他们的区别8.为什么spark比mapreduce更快(磁盘io和进程线程模型)9.spark也会OOM和溢写磁盘啊,mapreduce也有缓冲区啊,都是内存计算,为什么更快(统一内存模型和流水线加载内存,面试官说没到点上)10.真实的优化经历,不要那些从网上背的八股11.什么是aqe12.为什么是动态调整,具体体现在哪方面(好像没说到他要的东西😭)11.hdfs查看文件大小命令,这个没答出来12.写一个SQL13.反问:技术栈和建议14.数据治理问题第一次面试太紧张了,话术出大问题了😭,说话不流畅,面试官说自我介绍不太过关,回答思路有些混乱了,要分点回答,多练练表达。