28号下午两点 时长一个小时1:sparksql的具体的执行流程2:sparksql物理计划怎么选择最优的3:sparkrdd是什么的抽象 为什么说spark基于rdd实现了内存计算4:spark和mapreduce的shuffle的区别5:数仓建模理论6:根据我简历上写的项目 构建一个数仓 讲一些有哪些指标什么的7:讲一下你在工作中怎么做数据治理的8:两个sql题 最后一个sql题有长尾的现象 如何解决9:一份100G的数据 需要在1G内存中运行 需要怎么做求求给个二面吧 0offer的选手已经哭死了