数据BP一面

整体流程:30min 项目 +  两道sql
离线数仓 + 指标计算
1、聊聊离线数仓
2、介绍数仓主题、数仓分层?
3、DWD和ADS层的区别?
4、数仓表数量、数据量多大?数据量级的困难,计算参数
5、快速完成ODS表的清洗和过滤?
6、实现最复杂的UDF?继承Hive UDF类?其他的UDF类?GenericUDTF 和 UDF区别?
7、计算引擎选择?为什么计算量大却选择Hive计算引擎?
--
8、海外简单聊聊?(接下来你该如何去展开?
9、这个项目你做的最复杂的、最有价值的?对比Flink、SparkStreaming
10、为什么使用SparkStreaming?
11、下游怎么使用数据?
12、数据及时产出??指的是离线的还是实时的?
13、先聊离线,怎么保证及时产出?
14、期待公司可以给到你什么呢?组件的剖析 和 业务支持
---
35min的聊天,开始上题SQL
1、统计阅读最多的五类文章(按照文章id先聚合,将uid、时间粒度抹去,再去join)
为啥使用开窗函数?为啥不用order by?
2、某一天的24小时分段统计高低峰,然后连续高峰、就将其合在一起
00-03  high  04-06 低峰
1、需要对时间串截取
2、开窗取上、取下 -> 辅助类,相同标1、不同标0,不同才会跳变一次,辅助类相同就是同一个字段
写了15min,开始针对此进行:数据倾斜、窗口函数使用

----
面试官人很好,很开心的过去,就是我能力不够





全部评论

相关推荐

评论
2
12
分享
牛客网
牛客企业服务