关注
1.mapreduce中为何要hash partition分区
默认是hash分区 为了打散数据 分布式处理
分区方式可以自己定义 实现分区器自定义实现;
public class CustomPartitioner extends Partitioner<Text,Object>{
@Override
public int getPartition(Text key,Object value,int numPartitions){
//控制分区代码逻辑 返回int即可
return partition;
}
}
2.mapreduce中为何使用快拍和归并排序
快排:因为内存中排序比较快
数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高
归并:对多个有序的小文件进行排序,不能单靠内存排,得借助磁盘
比如三个小文件分别是
1,4,6,8
1,5,8,8
0,3,7,11
同时打开所有小文件 分别使用迭代器取出第一个数 即1,1,0
此时0最小 将0追加写入新文件 并从三号文件通过迭代器拿出下一个数3
此事1最小 将1追加写入新文件 并从一号文件通过迭代器拿出下一个数4
直到所有文件都被迭代完 总的排序也就完成了
感觉会问你哪里用到排序了
1.map端的环形缓冲区用到快排
2.map端的小文件合并用到归并排序
3.reduce端将从map端拉取的文件进行归并排序
#数仓开发#
查看原帖
1 评论
相关推荐
牛客热帖
正在热议
# 25届秋招总结 #
311122次浏览 2840人参与
# 海康威视求职进展汇总 #
399615次浏览 3406人参与
# 阿里云管培生offer #
34205次浏览 413人参与
# 地方国企笔面经互助 #
4083次浏览 11人参与
# 学历or实习经历,哪个更重要 #
52054次浏览 412人参与
# 选完offer后,你后悔学本专业吗 #
20658次浏览 146人参与
# 百度开奖 #
170672次浏览 1064人参与
# 如何一边实习一边秋招 #
993335次浏览 12646人参与
# 正在实习的你,几点下班 #
52557次浏览 394人参与
# 米哈游求职进展汇总 #
176469次浏览 1460人参与
# 美的求职进展汇总 #
206878次浏览 1619人参与
# 2023毕业生求职有问必答 #
120800次浏览 1302人参与
# 国央企薪资爆料 #
9652次浏览 75人参与
# 投递实习岗位前的准备 #
1180476次浏览 18400人参与
# 机械制造秋招总结 #
30314次浏览 353人参与
# 机械制造面试记录 #
149586次浏览 1931人参与
# 求职遇到的搞笑事件 #
71115次浏览 577人参与
# 如果不工作真的会快乐吗 #
59905次浏览 525人参与
# 得物求职进展汇总 #
66752次浏览 685人参与
# 0offer是寒冬太冷还是我太菜 #
900259次浏览 8017人参与
# 腾讯求职进展汇总 #
196360次浏览 1645人参与
# 数据人offer决赛圈怎么选 #
117043次浏览 1468人参与