2023.10.7 一面1. 介绍项目,为什么做数据开发2. flink状态分类,反压,内存管理,调优经验3. spark宽窄依赖,job stage task如何划分,调优经验4. 接触过scala吗5. 聚类分类算法,聚类效果评估6. 场景设计题2023.10.10 二面 拷打的很细1. spark:任务提交流程,组件,Executor和job、task的关系,CPU core数,Driver计算什么2. 数据处理过程,RDD,算子,设计一个reducebykey算子(?),groupbykey和shuffle3. 哪些情况会发生sql跑的慢,怎么处理4. hive语法,函数,explode5. flink:任务提交流程,组件角色,数据延迟处理,watermark设置,任务并行度设置多少6. kafka了解吗(不会)7. 数据分析:聚类,预测,评估8. 未来规划