一面: 先问了项目 1. hadoop的读写流程,副本机制,为什么三副本,三副本怎么放(副本放置策略) 2. hdfs容错机制(secondarynamenode) 3. spark容错机制 4. spark的stage是怎么划分的 5. spark的部署、调度原理(master、worker这些) 6. 数据倾斜怎么处理 7. 实时处理的了解吗(我说flink),反压了解吗。 8. 两个窗口一个数据正常均匀,一个数据不平衡(比如前面数据特别多后面特别少),怎么处理(意思应该是有可能时间划分出错,调整一下窗口的起始位置和结束位置) 9...