1.mapreduce中为何要hash partition分区 默认是hash分区 为了打散数据 分布式处理 分区方式可以自己定义 实现分区器自定义实现; public class CustomPartitioner extends Partitioner<Text,Object>{ @Override public int getPartition(Text key,Object value,int numPartitions){ //控制分区代码逻辑 返回int即可 return partition; } } 2.mapreduce中为何使用快拍和归并排序 快排:因为内存中排序比较快 数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高 归并:对多个有序的小文件进行排序,不能单靠内存排,得借助磁盘 比如三个小文件分别是 1,4,6,8 1,5,8,8 0,3,7,11 同时打开所有小文件 分别使用迭代器取出第一个数 即1,1,0 此时0最小 将0追加写入新文件 并从三号文件通过迭代器拿出下一个数3 此事1最小 将1追加写入新文件 并从一号文件通过迭代器拿出下一个数4 直到所有文件都被迭代完 总的排序也就完成了 感觉会问你哪里用到排序了 1.map端的环形缓冲区用到快排 2.map端的小文件合并用到归并排序 3.reduce端将从map端拉取的文件进行归并排序 #数仓开发#

相关推荐

在评审的大师兄很完美:像这种一般就是部门不匹配 转移至其他部门然后挂掉 我就是这样被挂了
点赞 评论 收藏
分享
牛客网
牛客企业服务