关注
1. HashPartitioner 是默认的分区器,也可以用别的, 比如TotalOrderPartitioner, 也可以自定义开发。
第一个问题, 先回答为什么要分区 就是数据shuffle过程中的一种打散策略。
Hash散列化是最容易想到的。
2. 在MR当中会用到多次排序过程 特别是map输出到内存再溢写到磁盘时会产生大量的临时文件,这些小文件是不能直接交给Reducer处理的,而要进行一个合并的过程, 这个过程是带着map-key进行操作的 所以要用到归并排序。 在环形缓冲的内存区 使用快排, 原因我还没想到。
(https://blog.csdn.net/u010737756/article/details/114198358 )
3. 先定义和回顾数据倾斜的概念, 然后再思考join这个过程的实现 (reduce把相同key分组做笛卡尔积) 如果大表小表的差异巨大, 表现为小表的数据量比较少但key却比较集中,导致分发到某一个或几个reduce上的数据比其他reduce多很多,易造成数据倾斜。 常常会采用mapjoin 优化这类问题
查看原帖
5 评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
不期而遇的夏天:1.同学你面试评价不错,概率很大,请耐心等待;2.你的排名比较靠前,不要担心,耐心等待;3.问题不大,正在审批,不要着急签其他公司,等等我们!4.预计9月中下旬,安心过节;5.下周会有结果,请耐心等待下;6.可能国庆节前后,一有结果我马上通知你;7.预计10月中旬,再坚持一下;8.正在走流程,就这两天了;9.同学,结果我也不知道,你如果查到了也告诉我一声;10.同学你出线不明朗,建议签其他公司保底!11.同学你找了哪些公司,我也在找工作。
点赞 评论 收藏
分享
牛客热帖
正在热议
# 25届秋招总结 #
247347次浏览 2012人参与
# 学历or实习经历,哪个更重要 #
41032次浏览 298人参与
# 北方华创开奖 #
22776次浏览 259人参与
# 地方国企笔面经互助 #
2536次浏览 6人参与
# 你最想要的公司福利是? #
39900次浏览 126人参与
# 选完offer后,你后悔学本专业吗 #
10374次浏览 75人参与
# 面试题刺客退退退 #
137088次浏览 2092人参与
# 国企/银行/研究所公司爆料 #
89699次浏览 412人参与
# 应届生被毁约被毁意向了怎么办 #
27084次浏览 238人参与
# 一觉醒来,我觉醒了超级打工人系统 #
2880次浏览 35人参与
# 机械应届生薪资要多少才合适? #
12385次浏览 60人参与
# 查收我的offer竞争力报告 #
16732次浏览 228人参与
# 校招入职后的感受 #
156908次浏览 1961人参与
# 你觉得第一学历对求职有影响吗? #
14878次浏览 121人参与
# 没有实习经历,还有机会进大厂吗 #
804978次浏览 13813人参与
# 我的工作日记 #
21164次浏览 270人参与
# 不给转正的实习,你还去吗 #
1516831次浏览 16964人参与
# 寒假躺平还是提前实习 #
58403次浏览 438人参与
# 总结:哪家公司面试体验感最差 #
25724次浏览 129人参与
# 秋招OC许愿 #
226514次浏览 1870人参与
# 如何写一份好简历 #
602059次浏览 8440人参与