老欧讲职场

2024-02-03 20:51 字节跳动_大数据工程师

关注

大数据工程师面试题 - Spark 基础调优（一）

原则一：避免创建重复的RDD

通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也就是“RDD的血缘关系链”。

我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。

一个简单的例子：

错误的做法：

val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
val rdd2 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd2.reduce(...)

正确的用法：

val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
rdd1.reduce(...)

原则二：尽可能复用同一个RDD

除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能地复用一个RDD。一个简单的例子：错误的做法：

JavaPairRDD<Long, String> rdd1 = ...
JavaRDD<String> rdd2 = rdd1.map(...)
rdd1.reduceByKey(...)
rdd2.map(...)

正确的做法：

JavaPairRDD<Long, String> rdd1 = ...
rdd1.reduceByKey(...)
rdd1.map(tuple._2...)

大家好，我是大数据欧老师，就职于互联网某头部大厂，超过 8 年的大数据从业经历。如果你有面试大数据工程师的打算，欢迎找我聊一聊！

#大数据##大数据工程师##大数据知识体系##大数据面试##大数据面经#

大数据欧老师 - 面试真题分享文章被收录于专栏

解决职场真实面试问题，分享同学真实成功案例，欢迎订阅关注！

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

06-26 17:15

现在还能找到实习吗？

9本 家里最近出了一些变故我不能再继续往下读书了，要承担起家里的责任了，决定选择直接就业，看身边的同学们都找到实习了，我这个阶段还有机会找实习吗？

点赞评论收藏

分享

06-30 16:19

门头沟学院风险管理

我不是面试天才吗！？ 为什么屡面屡挂

点赞评论收藏

分享

05-21 23:52

成都锦城学院 C++

暑假能找到实习吗😭😭😭😭

炫哥_：哥们项目描述里面vector和mysql之类的都要写吗，直接开头技术栈巴拉巴拉就行了，完全不是技术点啊

点赞评论收藏

分享

06-23 17:50

同济大学算法工程师

26届，找不到实习，有没有佬给点建议

各位佬帮帮忙，给点求职或者简历修改建议，四五月份面了字节美团华为算法岗都挂了，现在应该坚定转java开发还是接着找算法

投递美团等公司10个岗位

点赞评论收藏

分享

06-26 15:59

上海大学柜面服务

没到这个价格，就不要说自己是牛马

不要轻易的说自己是牛马，一头活牛价格是6590元，一匹马的价格3000-30万不等。大家可以对照牛马的价格，看看自己的收入，是不是能够上“牛马”的称号！

机械打工仔：应该从牛成年开始算活了多少个月，然后用价格除

这才是牛的月薪，只不过一次结清了，更惨的是还没到牛手里

点赞评论收藏

分享

评论

1

5

招聘动态

现代汽车前瞻技术研发中心

京东TET

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习，不懂就问 #

19078次浏览 267人参与

# 如何准备秋招 #

5935次浏览 96人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

19732次浏览 174人参与

# 你觉得实习能学到东西吗 #

8761次浏览 195人参与

# 如果中了500万，你会离职吗？ #

87055次浏览 683人参与

# 你觉得现在还能进互联网吗？ #

2988次浏览 80人参与

# 打工人的精神状态 #

52305次浏览 950人参与

# 技术岗笔试题求解 #

74962次浏览 974人参与

# 秋招什么时候开投比较合适？ #

3667次浏览 70人参与

# 每个月的工资都是怎么分配的？ #

9006次浏览 162人参与

# 预测一下26届秋招形势 #

14343次浏览 152人参与

# 软开人，秋招你打算投哪些公司呢 #

99734次浏览 936人参与

# 高考出分的那一天，我__ #

10882次浏览 154人参与

# 机械实习一天多少钱合适？ #

28224次浏览 175人参与

# 安利/避雷我的专业 #

75563次浏览 522人参与

# 你觉得专业和学校哪个对薪资影响最大 #

61711次浏览 493人参与

# 央国企投递记录 #

88658次浏览 1364人参与

# 你们公司几号发工资 #

18403次浏览 114人参与

# 来聊聊你认为的薪资天花板是哪家？ #

30416次浏览 174人参与

# 来聊聊你目前的求职进展 #

635022次浏览 6748人参与

# 读研or工作，哪个性价比更高？ #

63379次浏览 725人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务