蓦_然

2022-08-11 22:10 广东工业大学大数据开发工程师

关注

大数据面试题——Spark面试题（六）

41、cache后面能不能接其他算子，它是不是action操作？

cache可以接其他算子，但是接了算子之后，起不到缓存应有的效果，因为会重新触发cache

cache不是action操作

42、reduceByKey是不是action？

不是，很多人都会以为是action，reduce rdd是action

43、RDD通过Linage（记录数据更新）的方式为何很高效？

1）lazy记录了数据的来源，RDD是不可变的，且是lazy级别的，且RDD之间构成了链条，lazy是弹性的基石。由于RDD不可变，所以每次操作就产生新的rdd，不存在全局修改的问题，控制难度下降，所有有计算链条将复杂计算链条存储下来，计算的时候从后往前回溯 900步是上一个stage的结束，要么就checkpoint

2）记录原数据，是每次修改都记录，代价很大如果修改一个集合，代价就很小，官方说rdd是粗粒度的操作，是为了效率，为了简化，每次都是操作数据集合，写或者修改操作，都是基于集合的rdd的写操作是粗粒度的，rdd的读操作既可以是粗粒度的也可以是细粒度，读可以读其中的一条条的记录

3）简化复杂度，是高效率的一方面，写的粗粒度限制了使用场景如网络爬虫，现实世界中，大多数写是粗粒度的场景

44、为什么要进行序列化？

可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。

45、Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？

ApplicationMaster负责销毁，在Hadoop Mapreduce不可以复用，在spark on yarn程序container可以复用。

46、提交任务时，如何指定Spark Application的运行模式？

cluster模式：./spark-submit --class xx.xx.xx --master yarn --deploy-mode cluster xx.jar

client模式：./spark-submit --class xx.xx.xx --master yarn --deploy-mode client xx.jar

47、不启动Spark集群Master和work服务，可不可以运行Spark程序？

可以，只要资源管理器第三方管理就可以，如由yarn管理，spark集群不启动也可以使用spark；spark集群启动的是work和master，这个其实就是资源管理框架，yarn中的resourceManager相当于master，NodeManager相当于worker，做计算是Executor，和spark集群的work和manager可以没关系，归根接底还是JVM的运行，只要所在的JVM上安装了spark就可以。

48、spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一个进程么？

是，driver 位于ApplicationMaster进程中。该进程负责申请资源，还负责监控程序、资源的动态情况。

49、运行在yarn中Application有几种类型的container？

1）运行ApplicationMaster的Container：这是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源

2）运行各类任务的Container：这是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信以启动之。

50、Executor启动时，资源通过哪几个参数指定？

num-executors：executor的数量

executor-memory：每个executor使用的内存

executor-cores：每个executor分配的CPU

52、一个task的map数量由谁来决定？

一般情况下，在输入源是文件的时候，一个task的map数量由splitSize来决定的，那么splitSize是由以下几个来决定的

 goalSize = totalSize / mapred.map.tasks   inSize = max {mapred.min.split.size, minSplitSize}   splitSize = max (minSize, min(goalSize, dfs.block.size))

一个task的reduce数量，由partition决定。

53、导致Executor产生FULL gc 的原因，可能导致什么问题？

可能导致Executor僵死问题，海量数据的shuffle和数据倾斜等都可能导致full gc。以shuffle为例，伴随着大量的Shuffle写操作，JVM的新生代不断GC，Eden Space写满了就往Survivor Space写，同时超过一定大小的数据会直接写到老生代，当新生代写满了之后，也会把老的数据搞到老生代，如果老生代空间不足了，就触发FULL GC，还是空间不够，那就OOM错误了，此时线程被Blocked，导致整个Executor处理数据的进程被卡住。

54、Spark累加器有哪些特点？

1）累加器在全局唯一的，只增不减，记录全局集群的唯一状态

2）在exe中修改它，在driver读取

3）executor级别共享的，广播变量是task级别的共享两个application不可以共享累加器，但是同一个app不同的job可以共享

55、spark hashParitioner的弊端是什么？

HashPartitioner分区的原理很简单，对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID；弊端是数据不均匀，容易导致数据倾斜，极端情况下某几个分区会拥有rdd的所有数据。

#大数据开发##面试题#

全部评论

推荐最新楼层

测测降落伞质量

南京大学 C++

楼主真贴心，还配了答案

点赞回复分享

发布于 2022-08-12 19:29

不愿透露姓名的神秘牛友

11-24 20:55

校招Offer选择：阿里国际、京东、虾皮、华为、路过

阿里国际 Java工程师 2.7k*16.0

程序员猪皮：没有超过3k的，不太好选。春招再看看

点赞评论收藏

10-21 17:38

桂林理工大学 Java

秋招现状

霁华Tel：秋招结束了，好累。我自编了一篇对话，语言别人看不懂，我觉得有某种力量在控制我的身体，我明明觉得有些东西就在眼前，但身边的人却说啥也没有，有神秘人通过电视，手机等在暗暗的给我发信号，我有时候会突然觉得身体的某一部分不属于我了。面对不同的人或场合，我表现出不一样的自己，以至于都不知道自己到底是什么样子的人。我觉得我已经做的很好，不需要其他人的建议和批评，我有些时候难以控制的兴奋，但是呼吸都让人开心。

点赞评论收藏