一面 50分钟自我介绍数仓的数据怎么采集的,采集平台包括哪些组件以及组件具体都做什么为什么flume要把数据放到kafka中数仓分层设计从ODS到DWD都做了哪些ETL零点漂移问题你怎么解决的按照你的解决方案,如果数据漂移的时间很长,你需要计算的时候会出现误差怎么办你的数仓都包含了哪些维度为什么没有订单维度(维度退化)Spark 了解多少spark web UI 都了解哪些如果数据倾斜你怎么定位stage是怎么划分的宽窄依赖怎么区分数据倾斜的解决方案平时写代码用什么语言Java 的 hashmap 底层是怎么存储的,如果多线程并发访问 HashMap 怎么办HashTable 和 ConcurrentHashMap 为什么 ConcurrentHashMap 性能高一些SQL:TopN 问题,如果允许排序相同怎么做二面 30分钟自我介绍介绍一下你怎么设计的业务总线矩阵数仓怎么分层的事实表的设计过程,都包含了哪些类型的事实表四道SQL:a 表中存在 b 表中不存在的 id row_number 排序行转列(1,2,3,4 变成 1;2;3;4)记不住题目了,就是一个简单的聚合加开窗聊了一下实习相关的内容以及后续流程hr 面hr约面试的时候说是hr面但是进面试间的面试官应该是一个主管,一直拷打项目,然后就寄了