2022/06/25 一面 35min 1:介绍项目 2:数仓分为几层?每一层作用? 3:数仓分层的意义? 4:flume导入数据到HDFS 为什么中间加kafka? 5:项目中可视化用什么做的? 6:SQL题 一列为日期 一列为金额 按月统计金额总和 7:MapRedcue原理 8:MapReduce的三个阶段 9:研究生上的课 10:接触过实时的大数据业务吗? 反问:部门技术栈 ?实习的话就是SQL为主 哪里需要补充知识?多了解一些实时业务方面内容
未来职业规划?考不考虑做AI? 实习的主要工作? 在实时项目中的技术选型的理由?实时中最大的困难?(OOM 最近看什么书?(大数据之路)谈谈哪块印象深刻? 发表论文过程中可以总结的经验? SQL题:一个tb表,里面有user_id,page_id,dt。1)求每个页面每天vv? 2)求每个页面每天的uv ?3)求每天用户访问最多的页面? 大主播小主播求vv中数据倾斜的处理?(头部map join,剩下shuffle join,然后union)还有没有别的处理方法?怎么知道哪些是头部? 按照上面3)问题,讲一下SQL提交到Spark后的流程?(Catalyst + Tungsten Java题:一个走廊x米,现在有a米,b米,c米的木板,现在需要知道最少多少块铺满走廊?
相关推荐