奇虎360社招面经:大数据计算存储高级开发
一面:
1、介绍项目,公司的大数据架构。
2、kafka怎么保证数据的exactlyonce?
3、offset你们公司如何维护的?为什么不放在mysql?
4、kafka可以保证数据的局部有序,如何保证全局有序的?
5、介绍一下kafka的事务。
6、flink和sparkStreaming的区别?
7、flink批处理和实时处理有什么关系?
8、mapReduce的过程?map端预合并可以做取余操作吗?shuffle过程介绍一下?环形缓冲区溢写的阈值是多少?为什么是这个值?之后用的什么排序?为什么是这个排序?合并和归并有什么区别?
9、十大排序抽几个问空间复杂度、时间复杂度、稳定性、实现原理。
10、spark的RDD是什么东西?有什么特点?弹性体现在什么地方?
11、spark任务提交的过程?宽依赖窄依赖有什么区别?划分stage的过程除了宽窄依赖还有什么判断标准?任务分发的过程是怎么样的?
12、cache和persist的区别?是transformaiton算子还是action算子?
13、spark的内存模型是怎么样的?
14、redis为什么快?NIO AIO区别?
15、scala的match case和Java的switch case有什么区别?scala的隐式转换介绍一下?
16、多线程的原理?实现类、阻塞队列、参数、拒绝策略、区别。
17、Hive使用的时候会将数据同步到hdfs,小文件问题怎么解决的?
18、zookeeper了解吗?自己介绍,balabala。
差不多一个小时吧,有点懵,有的没答对,有的没答全,祈祷能通过吧。太南了。
#360公司##社招##面经##大数据开发工程师#