首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
sc.parallelize([(1, 2), (1, 3)
[单选题]
sc.parallelize([(1, 2), (1, 3), (2, 3), (2, 4), (3, 1)]).reduceByKey(lambda x, y : x + y).count().collect()操作中会产生多少个 stage()
1
2
3
4
查看答案及解析
添加笔记
求解答(23)
邀请回答
收藏(162)
分享
5个回答
添加回答
10
之渊
首先获取list里面的每个元素,不管有没有map都算开始第一个阶段,stage1
接着reducebykey 肯定shuffle 了。 因此就 有一个 stage2 了
而后面的count 计算 是可以并行处理的,也就是 每个key的总数互相之间计算并没有依赖,因此不会产生新的 stage 。
其实还可以这样理解 shuffle 肯定会产生stage . 而stage 的划分是依赖关系决定的,遇窄依赖不变,遇宽依赖则进行划分。
第一个步开始的时候取数生成RDD 是属于 窄依赖。 也就是 stage 数是1
接着
reduceByKey 必须按照key 来进行生成新的分区。与原来开始的时候rdd的分区数可能不一样了。 划分一个新的stage. 也就是2
发表于 2020-08-20 08:32:44
回复(0)
11
佳境Shmily
以shuffle为界限划分两个stage,常见shuffle算子
distinct
、
groupByKey
、
reduceByKey
、
aggregateByKey
、
join
、
cogroup
、
repartition
等。
发表于 2020-03-09 14:46:09
回复(0)
1
灵踪马
阶段数是shuffle数+1
发表于 2021-04-15 19:44:25
回复(0)
0
玩命升级打怪的Allen
Shuffle之后产生stage,窄不变,宽变
发表于 2021-08-28 06:45:28
回复(0)
0
莫风尘
stage依据shuffle划分,reduce算子产生shuffle
发表于 2019-04-01 18:46:30
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
C++工程师
算法工程师
顺丰集团
Spark
Java工程师
来自:
顺丰科技2019秋招大...
上传者:
小小
难度:
5条回答
162收藏
3200浏览
热门推荐
相关试题
以下关于TCP和UDP说法正确的是()
Java工程师
C++工程师
iOS工程师
安卓工程师
运维工程师
前端工程师
算法工程师
测试工程师
顺丰集团
2019
评论
(13)
来自
顺丰科技2019秋招运维...
下列不属于Spark中driver...
Java工程师
C++工程师
算法工程师
顺丰集团
Spark
评论
(5)
来自
顺丰科技2019秋招大数...
一个空栈,如果有顺序输入:a1,a...
栈
C++工程师
顺丰集团
2019
评论
(9)
来自
顺丰科技2019秋招安卓...
图中U和I分别为
电路基础
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题