推荐阅读文章列表 大数据开发面经汇总【持续更新...】 我的大数据学习之路 大数据开发面试笔记V6.0 面经及答案 1.有没有做过一些SQL优化,用过布隆过滤器吗 * 我们要明白为什么要做SQL优化? 当然时因为任务跑的慢,那么哪些算子跑的慢呢? 最常见的包括 join、group by、count(distinct)、row_number等等 接下来就一一讲一下针对每一种算子有哪些优化的方法论(这里主要说一下count distinct) 第一种最常见的方法就是两阶段聚合,即使用两层group by(这时候选取key非常重要,可能会因为选取的key倾斜导致代码执行并没有变快) 第二种就是布...