小红书 数据开发一面二面面经
3.26 一面 40min 目前已约二面
岗位:数据湖开发 (今年春招感觉hc实在太少了,写点面经攒攒人品)
感觉自己发挥的并不是很好,但是也过了。。。
1. 自我介绍之后开始问项目
2.Hadoop 和spark的区别和优劣
3.谈到spark shuffle原理,hashshuffle 和 sortshuffle(这里我描述的不太清楚,说了半天,不知道最后说明白了没)
4.谈谈线程池,阻塞队列有界无界,救急线程
5.JVM内存模型
6.栈溢出的场景和应对方法
7.方法区能不能溢出,如果溢出的话储存的那些类信息怎么办
8.mysql索引设计原则
9算法题:经典两数之和,秒了后 延伸为三数之和
10 反问业务:数据湖技术栈主要为iceberg+flink(这个我确实没想到,以为是hudi)
总的来说偏八股,喜欢问细节,面试官比较少给反馈。。。搞得我后面好多都感觉答的不太好,但确实也是细节复习不到位
来更新下二面(在写的时候收到了三面通知)
一面以java八股为主,果然二面开始以大数据知识为主
1. 还是问项目
2. 还是问Hadoop和spark(不知道为什么面试官听了我的项目就喜欢问这个问题)
3. 谈谈spark的组件都有什么,on yarn模式有什么区别
4. spark那些外部资源 还有第三方jar包之类的都放在哪(应该是这么问的,不太会,说了下内存结构,告诉我是java classloader相关的机制)
5. 既然提到了内存结构,那就谈谈内存结构,堆外内存有什么优势(我脑子里面想的全都是劣势...)
6. spark standalone模式是怎么调度资源的,on yarn模式呢
7. spark executor内的task是怎么彼此隔离的(从线程池的角度,还有切分stage)
8. flink怎么实现exactly once(几乎是flink必问问题)
9. flink和spark streaming的区别
10. 详细说一下flink checkpointing吧,最好底层一些
11. 平时刷leetcode吗(我说刷,但对这部分不是很自信,就给我出了一道很简单的题哈哈)
12. 算法:很基础的把输入单词首字母大写输出,acm模式处理输入输出,随便写一写
13. 反问: 再问iceberg,确实比较好奇为什么不用hudi
小红书的面试感觉难度不低,好多问题其实都不是特别理解在问什么,纯按自己的理解在说,不够总体面试体验还是不错的
更新结果:4月就三面挂了 大家有兴趣我再更三面面经
#小红书校招##春招##面经##小红书##大数据开发工程师#