一个云计算小公司面经:
1、介绍项目
2、spark的内存模型?sparkonyarn的两种部署方式?区别?
3、flink的任务调度过程?如何处理乱序数据?水印怎么定义怎么实现?最终迟到的数据要怎么处理?
4、jvm那一套、多线程那一套、如何自己设计一个hashmap?
5、问了一堆项目中具体问题和场景
6、100万条数据,内存很小只有1.5MB,要排序怎么办?能使用哪些排序方法?用哪种好?
7、何时发生内存泄漏(内存溢出OOM)?使用过什么工具观察过spark、flink任务执行时的内存运行情况?这两个框架内存溢出异常时分别是什么情况?
8、spark数据倾斜怎么办?使用sample算子的时候,三个参数分别代表什么含义?答数据抽取是否放回,打分值,随机数种子值。是否放回有什么区别?调用的什么算法?
#面经##大数据开发工程师##社招#