2025秋招经验分享-字节一面

推荐阅读文章列表

大数据开发面经汇总【持续更新...】

我的大数据学习之路

大数据开发面试笔记V6.0

面试经验

来自牛客#数据人的面试交流地

1.自我介绍

2.项目内容:背景,uv,pv,功能,项目人数,分工

3.数仓的设计思路

4.分层数仓和使用普通数仓的区别

5.为什么ods不直接对接app层

6.项目用了哪些技术栈

7.hdfs如何保证高可用

8.hdfs写入数据流程,写入过程中datanode挂了怎么办

9.小文件原因,危害,解决方法

10.数据倾斜介绍,数据倾斜如何排查

11.spark的两种shuffle

12.sql题:商铺的最大销量的类目

13.设计题:数据量pb级别,要获取近30天和近90天的活跃用户uv,设计表和查询逻辑

难点解析

大数据面试笔记6.0基本涵盖上述问道的所有八股文,重点说一下开放题:第2题和第13题

Q1: 为什么ods不直接对接app层

  • 不太建议app层直接依赖ods层,因为ods层对接的是在线系统,而app层对接的是业务应用,一旦在线系统发生变更,数据影响会直接穿透到app层,影响业务应用,因此中间层的一点好处就是屏蔽上游业务系统对于下游应用的影响

Q2: 数据量pb级别,要获取近30天和近90天的活跃用户uv,设计表和查询逻辑

  • 第一种思路:将用户id转换为bitmap来进行存储,然后基于bitmap位运算来提高计算效率
  • 第二种思路:在昨日计算最近30天用户uv的同时进行预计算,对最近29天的userid进行去重,今日计算时只需要和昨日预计算的结果进行去重即可;
  • 第三种思路:用一张中间表存储用户最近一次登录时间,如果需要求最近30天登录用户数,那么直接基于中间表获取最近一次登录时间在30天内的用户即可

思考题

如何用一张中间表存储用户最近一次登录时间?

#数据人的面试交流地##大数据开发##2025秋招#
全部评论

相关推荐

点赞 评论 收藏
分享
9.14二面,到今天完全没消息,这是不是就是凉了
有白袋子的蓝胖子:同914无消息,问了面试官就说在流程中,不知道是不是没hc了,在等前面的人鸽了之后再发
点赞 评论 收藏
分享
点赞 2 评论
分享
牛客网
牛客企业服务