首页 / 数据仓库工程师
#
数据仓库工程师
#18884次浏览 125人互动
此刻你想和大家分享什么
点赞 评论 收藏
分享
2023-08-08 18:58
网易_数据开发工程师 点赞 评论 收藏
分享
面试官:能用通俗的方式说一下什么是数据仓库吗
大数据的奇妙冒险:牛客的博客好像很少人看,发到帖子总有人看了吧
点赞 评论 收藏
分享
又到一年春招时---更好的云,等更好的你
粘豆包-277:点赞点赞非常心动!
投递阿里巴巴等公司10个岗位 >
点赞 评论 收藏
分享
腾讯-数据工程-暑期实习 面经更新
投递腾讯等公司10个岗位 >
点赞 评论 收藏
分享
2022-05-15 00:04
上海财经大学 HRBP 点赞 评论 收藏
分享
2021秋招数据方向笔试面试记录
想要一个offer呀111:lz美团有消息了吗
投递东方财富等公司10个岗位 >
点赞 评论 收藏
分享
2022-05-18 08:35
华北水利水电大学 数据其它 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
2022-05-21 17:29
华北水利水电大学 数据其它 点赞 评论 收藏
分享
2023-08-24 19:38
网易_数据开发工程师 点赞 评论 收藏
分享
2023-08-17 08:58
网易_数据开发工程师 点赞 评论 收藏
分享
美团数仓开发一二面面经
wxcheng:数据倾斜那题楼主怎么答的呢
投递美团等公司10个岗位 >
点赞 评论 收藏
分享
大数据面试题:用 SQL 查询每个用户最大连续登录日期
点赞 评论 收藏
分享
2022-04-19 11:03
河北建筑工程学院 大数据开发工程师 数仓面试求教
牛客541460654号:1. HashPartitioner 是默认的分区器,也可以用别的, 比如TotalOrderPartitioner, 也可以自定义开发。
第一个问题, 先回答为什么要分区 就是数据shuffle过程中的一种打散策略。
Hash散列化是最容易想到的。
2. 在MR当中会用到多次排序过程 特别是map输出到内存再溢写到磁盘时会产生大量的临时文件,这些小文件是不能直接交给Reducer处理的,而要进行一个合并的过程, 这个过程是带着map-key进行操作的 所以要用到归并排序。 在环形缓冲的内存区 使用快排, 原因我还没想到。
(https://blog.csdn.net/u010737756/article/details/114198358 )
3. 先定义和回顾数据倾斜的概念, 然后再思考join这个过程的实现 (reduce把相同key分组做笛卡尔积) 如果大表小表的差异巨大, 表现为小表的数据量比较少但key却比较集中,导致分发到某一个或几个reduce上的数据比其他reduce多很多,易造成数据倾斜。 常常会采用mapjoin 优化这类问题
点赞 评论 收藏
分享
01-17 01:37
网易_数据开发工程师 点赞 评论 收藏
分享
北京爱奇艺用增数仓实习继任
投递爱奇艺等公司10个岗位
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
玩命加载中