面经|快手-数据开发实习
2024.12.23(一面)
一面 (1h 5mins)
- 实习拷打
- 快手-评论模版留存率(10 mins)
- 严格漏斗和非严格漏斗的区别
- 字节-链路改造优化
- 延伸:数据的时效性怎么保证(从整体和单点分别叙述)
- 延伸:优化任务的思路
- 延伸:并行度相关的改法(三种)
- repartition()能改变第一个stage的shuffle write的并行度吗?
- 第一个stage的shuffle write的并行度由什么决定?
- 字节怎么分的数据域
- 字节分了哪些主题域
- 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)
- 分层的意义(复用性和一致性)
- 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)
- SQL题
二面 (26 mins)
全程实习拷打
- 自我介绍
- 字节实习
- 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)
- 多机房涉及到的网络问题(通过全球化数据迁移解决)
- 快手实习
- 评论模版留存率
- 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)
- 为什么这样设计
- 最终的目的是什么
- 有没有想过通过抽样解决数据量大的问题
- 反问
一面 (1h 5mins)
- 实习拷打
- 快手-评论模版留存率(10 mins)
- 严格漏斗和非严格漏斗的区别
- 字节-链路改造优化
- 延伸:数据的时效性怎么保证(从整体和单点分别叙述)
- 延伸:优化任务的思路
- 延伸:并行度相关的改法(三种)
- repartition()能改变第一个stage的shuffle write的并行度吗?
- 第一个stage的shuffle write的并行度由什么决定?
- 字节怎么分的数据域
- 字节分了哪些主题域
- 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)
- 分层的意义(复用性和一致性)
- 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)
- SQL题
二面 (26 mins)
全程实习拷打
- 自我介绍
- 字节实习
- 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)
- 多机房涉及到的网络问题(通过全球化数据迁移解决)
- 快手实习
- 评论模版留存率
- 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)
- 为什么这样设计
- 最终的目的是什么
- 有没有想过通过抽样解决数据量大的问题
- 反问
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享