换个名字拿offer - 个人主页动态

2022-04-19 11:03

面试数仓岗位问题如下：1.mapreduce中为何要hash partition分区2.mapreduce中为何使用快拍和归并排序3.两张表，译过来就是a为维表(不小)，b为事实表，两表关联，如何优化？问后说关联是出现数据倾斜。数仓只知道mapreduce的原理流程，具体环节没有深究，大佬有能给解答的吗

牛客541460654号：1. HashPartitioner 是默认的分区器，也可以用别的，比如TotalOrderPartitioner，也可以自定义开发。第一个问题，先回答为什么要分区就是数据shuffle过程中的一种打散策略。 Hash散列化是最容易想到的。 2. 在MR当中会用到多次排序过程特别是map输出到内存再溢写到磁盘时会产生大量的临时文件，这些小文件是不能直接交给Reducer处理的，而要进行一个合并的过程，这个过程是带着map-key进行操作的所以要用到归并排序。在环形缓冲的内存区使用快排，原因我还没想到。（https://blog.csdn.net/u010737756/article/details/114198358 ） 3. 先定义和回顾数据倾斜的概念，然后再思考join这个过程的实现（reduce把相同key分组做笛卡尔积）如果大表小表的差异巨大，表现为小表的数据量比较少但key却比较集中，导致分发到某一个或几个reduce上的数据比其他reduce多很多，易造成数据倾斜。常常会采用mapjoin 优化这类问题

0 点赞评论收藏

2022-03-16 11:54

河北建筑工程学院大数据开发工程师

求近一周能收到offer

希望近一周能有好运加成，offer+1。社区给我力量

香菜宇宙第一：哈哈，祝楼主早日收到offer

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：