面经|百度-数据开发实习

2024.12.24(一面)

一面(30 mins)
- 自我介绍
- 实习拷打
  - 字节-链路优化改造
- 简单介绍维度建模
- JAVA(❌)
  - 多线程
  - 异常处理
- Linux(❌)
  - 怎么给文件夹分配读写操作
  - 查看文件内容
  - 监听日志
- Spark
  - 宽窄依赖怎么划分
  - 有几类算子,分别举例
  - 数据倾斜的定位和常见处理方式
- SQL:Top N的变种
- 算法:二分查找
二面(30 mins)
- 自我介绍
- 实习拷打
全部评论

相关推荐

2024.12.23(一面)一面 (1h 5mins)- 实习拷打  - 快手-评论模版留存率(10 mins)    - 严格漏斗和非严格漏斗的区别  - 字节-链路改造优化    - 延伸:数据的时效性怎么保证(从整体和单点分别叙述)    - 延伸:优化任务的思路    - 延伸:并行度相关的改法(三种)    - repartition()能改变第一个stage的shuffle write的并行度吗?    - 第一个stage的shuffle write的并行度由什么决定?  - 字节怎么分的数据域  - 字节分了哪些主题域  - 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)  - 分层的意义(复用性和一致性)  - 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)- SQL题二面 (26 mins)全程实习拷打- 自我介绍- 字节实习  - 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)  - 多机房涉及到的网络问题(通过全球化数据迁移解决)- 快手实习  - 评论模版留存率    - 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)    - 为什么这样设计    - 最终的目的是什么    - 有没有想过通过抽样解决数据量大的问题- 反问
查看17道真题和解析
点赞 评论 收藏
分享
评论
3
4
分享

创作者周榜

更多
牛客网
牛客企业服务