2025秋招经验分享-字节一面
推荐阅读文章列表
面试经验
来自牛客#数据人的面试交流地
1.自我介绍
2.项目内容:背景,uv,pv,功能,项目人数,分工
3.数仓的设计思路
4.分层数仓和使用普通数仓的区别
5.为什么ods不直接对接app层
6.项目用了哪些技术栈
7.hdfs如何保证高可用
8.hdfs写入数据流程,写入过程中datanode挂了怎么办
9.小文件原因,危害,解决方法
10.数据倾斜介绍,数据倾斜如何排查
11.spark的两种shuffle
12.sql题:商铺的最大销量的类目
13.设计题:数据量pb级别,要获取近30天和近90天的活跃用户uv,设计表和查询逻辑
难点解析
大数据面试笔记6.0基本涵盖上述问道的所有八股文,重点说一下开放题:第2题和第13题
Q1: 为什么ods不直接对接app层
- 不太建议app层直接依赖ods层,因为ods层对接的是在线系统,而app层对接的是业务应用,一旦在线系统发生变更,数据影响会直接穿透到app层,影响业务应用,因此中间层的一点好处就是屏蔽上游业务系统对于下游应用的影响
Q2: 数据量pb级别,要获取近30天和近90天的活跃用户uv,设计表和查询逻辑
- 第一种思路:将用户id转换为bitmap来进行存储,然后基于bitmap位运算来提高计算效率
- 第二种思路:在昨日计算最近30天用户uv的同时进行预计算,对最近29天的userid进行去重,今日计算时只需要和昨日预计算的结果进行去重即可;
- 第三种思路:用一张中间表存储用户最近一次登录时间,如果需要求最近30天登录用户数,那么直接基于中间表获取最近一次登录时间在30天内的用户即可
思考题
如何用一张中间表存储用户最近一次登录时间?
#数据人的面试交流地##大数据开发##2025秋招#