字节大数据开发一面

1.自我介绍
2.实习介绍
3.实习工作内容下游使用方主要有那些?
4.AI团队数据支持 他们使用这个数据做的什么
5.除了对表的支持之外,是否在计算层面做过一些优化
6.boradcast join和sortmergeJoin的区别和 使用场景的不同

然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这里全程拷打实时

7.FLink窗口30s 步长5s 窗口触发的时间是在5s触发还是30s之后触发
8. 如果说这个任务是从checkpoints恢复出来的 那他第一次是在5s之后触发还是30s
9.Flink 之中窗口的计算大多时候会导致整点进行触发(有可能导致很多不同的任务再同一个时间段使用资源导致资源紧张),你如何避免窗口不在整点进行触发呢
10.Flink的状态有哪些
11.valueState 和 keyState的区别  这一步回答的不太好,说想问的是这两个在使用场景上的不同
12.上游是kafka 中间存在shuffle,晚高峰出现lag 你该怎么解决 说的提高并行度
13.如果是kafka单个partition导致的lag 你该怎么解决呢 回答的窗口触发计算使用预聚合、kafka提高分区数 进而让下游Flink也提高并行度,回答的貌似不太满意,之前一直做的离线,实时确实不太会
14 kafka如何保证的数据不重复且不遗漏
15 kafka那些手段保证了吞吐量这么大

后续开始拷打计算机基础,os和计算机网络一点没复习,心理更凉了

16 操作系统进程通信有哪些方式    说了有管道和SharedMemory这几种
17 是否了解SharedMemory的实现
18 socket是否有了解 说了下socket以及spark使用netty这种通信架构
19 netty 在spark怎么使用的
20 close wait状态的理解

这里计网和os回答的不太好,开始怀疑是否是计算机科班出身

21 java的HashMap底层如何实现的
22 HashMap的数组能使用arraylist来实现吗
23 二叉树的锯齿状遍历(需要自己构建TreeNode和输入输出)自己写了20分钟 写了个reverse的版本,面试官不满意,最后口述了个双端队列的思路(减少reverse的遍历)

感觉这轮面试又G了,我不知道这是不是字节的正常难度,每次面试字节都是高强度拷打,有点自闭了
全部评论
感觉在b站上看到过这个团队的flink技术应用汇报
1 回复 分享
发布于 2024-09-20 12:16 北京
方便的牛友们评价一下难度呗,面字节面的已经有点自闭了,第四个部门了已经
点赞 回复 分享
发布于 2024-09-13 21:59 广东
天呐,感觉难度好大。。。是抖音直播吗
点赞 回复 分享
发布于 2024-09-14 15:49 辽宁
佬现在啥情况
点赞 回复 分享
发布于 2024-09-21 10:29 湖北
统一说一下,已经挂了
点赞 回复 分享
发布于 2024-09-21 11:35 广东
看了眼主页,大佬
点赞 回复 分享
发布于 2024-09-24 10:07 北京
问的flink那部分工作中比较常用,另外直播是偏向于实时链路,所以问实时多一些
点赞 回复 分享
发布于 2024-10-05 19:54 北京
你这个是数仓吗?
点赞 回复 分享
发布于 2024-10-07 16:53 广东

相关推荐

讲解你都学了哪些?巴拉巴拉写数仓,springboot 写个http接口微服务了解吗?--不了解面试官说:我的理解是  巴拉巴拉虽然我也不干这个spark和flink的区别:spark批,flink实时,spark stream 微批flink实时是一条一条的嘛?他会不会很慢?  --讲了是,但是他有window 巴拉巴拉不知道讲的对不对flume  +sqoop是干什么用的;--flume 数据日志采集等等  sqoop不知道你比较熟悉什么架构,--spark,flink讲一讲flink是怎么运行的--想了一下不知道, 面试官讲就其实spark,flink就是在客户端怎么样和集群怎么样计算怎么样   (架构还是得更加了解)flink env中都有什么?--集群配置,什么名字来着、并行度  讲的不全dophinshedule了解吗?他的底层实现了解吗?你这个项目是什么网上做的吗?开源的吗哪里学的?讲一讲java基础:微服务了解吗 ?你知道java有哪些集合吗?--set  --hashset有什么区别?还有吗?面试官讲其实hashset 就是底层是hashmap实现的  巴拉巴拉  set其实是java的一个基础类bala什么时候用hashset 什么时候用hashmap--hashset通常指针对于处理去重操作,hashma用于需要存储数据时,并且hashset对比list他的查找插入时间复杂度是o(1)hashset 存放一个已有数据的时候会怎么办?--我说不会放进去 ,面试官问只是不会放进去吗?代码:链表反转  本来想让我写集合相关的,看我集合不熟就改这个了。--注意面向对象的代码书写细节反问:你们做什么业务?--主要就是flume-sqoop一些数据日志采集  一些简单的etl   包括dophinshedule一些流式管理;还有一些仓库维护;对我有什么建议吗?--实习面试侧重于一些基础一些的面试,不会问太多项目,校招侧重于具体的框架,最好能够重点了解某一个框架能够阅读源码,对于基础的语言需要重点了解不一定非得是java,但是肯定需要了解,技术栈不一定要宽,要深。没问hive kafka这个我也不会总结:要注重基础语言知识和深挖某一框架,加强基础语言代码了解
查看17道真题和解析
点赞 评论 收藏
分享
评论
10
53
分享

创作者周榜

更多
牛客网
牛客企业服务