数据开发零意向菜鸡摆烂选手今天的一面起手就是spark源码mr shuffle->spark shuffle穷追猛打shuffle会落盘为什么spark还叫基于内存哪里会溢写到磁盘shuffle前后会在同一个executor吗executor之间通讯,可以设计成直接互相拉取吗数仓现在的解决方案存在什么问题,你觉得怎么解决离线读取实时链路出来的数据会存在什么问题,怎么解决(说了一个面试官觉得是业务角度,追问组件技术角度呢)设计一个数据平台你觉得需要涉及到什么大概30min,靠面试官的良好态度支撑下来……