Spark迷思
flatMap和map的异同
map reduce可真好玩
reduceByKey和groupByKey的区别
https://www.cnblogs.com/zzhangyuhang/p/9001523.html
groupbykey只是对数据进行分组操作 reducebykey(func)会在分组操作的基础上对数据进行函数映射操作
reducebykey的时候,本地节点先merge再传到不同节点再merge;groupbykey的时候,没有本地merge这个操作,所有节点的数据都先移出,再一起merge。所以groupbykey的运算成本更大,传输延迟更大。