大数据开发面经

-- 我的论文相关、spark

1、网格怎么划分的
2、基于spark做的吗,使用了哪些算子?
这个转换类的:map、flatmap、mapPartitions、filter、reduceByKey
action: reduce、collect、count(eg分发到各个节点网格数目统计)
3、spark有哪些组件?组件之间怎么进行数据联通的?
回答了,master、DAG生成、依赖关系、worker等等。答得不是很好
4、yarn资源管理的工作机制
(简历自己写的给忘了)
5、yarn那些resouce manager、node manager 、application master、container角色?他们之间什么关系?每一个组件起的什么作用?
6、spark有哪些shuffle?什么场景下用哪些shuffle?
回答的hash shuffle和sort based shuffle。主要是中间文件太多。好像偏题了
7、spark中出现数据倾斜,怎么解决?
背的这个 https://blog.csdn.net/Aaron_ch/article/details/122224043
两阶段聚合没说清楚。

-- sql

1、班级表、学生表;统计每个班级的平均分
不需要考虑班级表left join学生表,只考虑学生表即可,班级表是一个迷惑条件。
我中间意识到好像不用班级表,但是有一个班级名称重复的情况,面试官赞同了。
面试官很好,还跟我讲了一下班级表是没用的。

-- java基础

1、线程安全保证的方式。答的四种关键字修饰 synchronized、volatile、atomic、final
2、讲一下synchronized和volatile区别。
没答上
3、共享屏幕写一下synchronized单例模式。
4、final、finally、finalize区别。
只说了final修饰的变量必须初始化,后面不能被赋值;其他没打上来┭┮﹏┭┮,java基础忘背了。。。
5、java线程池是什么,有哪些优势?
没答上
6、java8的lambda表达式是什么,说明一下优点、应用场景
只回答了lambda匿名函数,方便...
全部评论

相关推荐

讲解你都学了哪些?巴拉巴拉写数仓,springboot 写个http接口微服务了解吗?--不了解面试官说:我的理解是  巴拉巴拉虽然我也不干这个spark和flink的区别:spark批,flink实时,spark stream 微批flink实时是一条一条的嘛?他会不会很慢?  --讲了是,但是他有window 巴拉巴拉不知道讲的对不对flume  +sqoop是干什么用的;--flume 数据日志采集等等  sqoop不知道你比较熟悉什么架构,--spark,flink讲一讲flink是怎么运行的--想了一下不知道, 面试官讲就其实spark,flink就是在客户端怎么样和集群怎么样计算怎么样   (架构还是得更加了解)flink env中都有什么?--集群配置,什么名字来着、并行度  讲的不全dophinshedule了解吗?他的底层实现了解吗?你这个项目是什么网上做的吗?开源的吗哪里学的?讲一讲java基础:微服务了解吗 ?你知道java有哪些集合吗?--set  --hashset有什么区别?还有吗?面试官讲其实hashset 就是底层是hashmap实现的  巴拉巴拉  set其实是java的一个基础类bala什么时候用hashset 什么时候用hashmap--hashset通常指针对于处理去重操作,hashma用于需要存储数据时,并且hashset对比list他的查找插入时间复杂度是o(1)hashset 存放一个已有数据的时候会怎么办?--我说不会放进去 ,面试官问只是不会放进去吗?代码:链表反转  本来想让我写集合相关的,看我集合不熟就改这个了。--注意面向对象的代码书写细节反问:你们做什么业务?--主要就是flume-sqoop一些数据日志采集  一些简单的etl   包括dophinshedule一些流式管理;还有一些仓库维护;对我有什么建议吗?--实习面试侧重于一些基础一些的面试,不会问太多项目,校招侧重于具体的框架,最好能够重点了解某一个框架能够阅读源码,对于基础的语言需要重点了解不一定非得是java,但是肯定需要了解,技术栈不一定要宽,要深。没问hive kafka这个我也不会总结:要注重基础语言知识和深挖某一框架,加强基础语言代码了解
查看17道真题和解析
点赞 评论 收藏
分享
评论
13
52
分享

创作者周榜

更多
牛客网
牛客企业服务