首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
蓦_然
获赞
1954
粉丝
1478
关注
0
看过 TA
4993
男
广东工业大学
2020
大数据开发工程师
IP属地:湖南
公众号:旧时光大数据,大数据开发学习、面试资料分享
私信
关注
拉黑
举报
举报
确定要拉黑蓦_然吗?
发布(82)
评论
刷题
蓦_然
关注TA,不错过内容更新
关注
2022-08-12 19:55
广东工业大学 大数据开发工程师
大数据面试题: 为什么会产生yarn,解决了什么问题,优势?
为什么会产生yarn,解决了什么问题,有什么优势? 简单来说,yarn是为了针对MRV1的各种缺陷提出来的资源管理框架 详细介绍如下 Hadoop 和 MRv1 简单介绍 Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图 1 演示了一个 Hadoop 集群的高级组件。 一个 Hadoop 集群可分解为两个抽象实体:MapReduce 引擎和分布式文件系统。MapReduce 引擎能够在整个集群上执行 Map 和 Reduce 任务并报告结果,其中分...
0
点赞
评论
收藏
分享
2022-08-12 19:53
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(七)
56、RangePartitioner分区的原理及特点? 原理 RangePartitioner分区则尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,也就是说一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。 特点 RangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePart...
0
点赞
评论
收藏
分享
2022-08-11 22:10
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(六)
41、cache后面能不能接其他算子,它是不是action操作? cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache cache不是action操作 42、reduceByKey是不是action? 不是,很多人都会以为是action,reduce rdd是action 43、RDD通过Linage(记录数据更新)的方式为何很高效? 1)lazy记录了数据的来源,RDD是不可变的,且是lazy级别的,且RDD之间构成了链条,lazy是弹性的基石。由于RDD不可变,所以每次操作就产生新的rdd,不存在全局修改的问题,...
0
点赞
评论
收藏
分享
2022-08-11 22:07
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(五)
35、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景? 可以画一个这样的技术栈图先,然后分别解释下每个组件的功能和场景 1)Spark core:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。 2)Spark Streaming:是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,将流式计算分解成一系列短...
0
点赞
评论
收藏
分享
2022-08-10 19:40
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(四)
26、如何从Kafka中获取数据? 1)基于Receiver的方式 这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。 2)基于Direct的方式 这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+p...
0
点赞
评论
收藏
分享
2022-08-10 19:38
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(三)
21、spark.storage.memoryFraction参数的含义,实际生产中如何调优?(☆☆☆☆☆) 1)用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6,,默认Executor 60%的内存,可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略,如果内存不够时,可能数据就不会持久化,或者数据会写入磁盘 2)如果持久化操作比较多,可以提高spark.storage.memoryFraction参数,使得更多的持久化数据保存在内存中,提高数据的读取性能,如果shuffle的操作比较多,有很多的数据读写操作到JVM中,那么应该调小一...
0
点赞
评论
收藏
分享
2022-08-09 20:54
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(二)
10、Spark的数据本地性有哪几种?(☆☆☆☆☆) Spark中的数据本地性有三种: 1)PROCESS_LOCAL是指读取缓存在本地节点的数据 2)NODE_LOCAL是指读取本地节点硬盘数据 3)ANY是指读取非本地节点数据 通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关,如果RDD经常用的话将该RDD cache到内存中,注意,由于cache是lazy的,所以必须通过一个action的触发,才能真...
0
点赞
评论
收藏
分享
2022-08-08 21:27
广东工业大学 大数据开发工程师
大数据面试题——Spark面试题(一)
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[*]:启动跟cpu数目相同的 executor standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模式也是其他模式的基础。 Spark ...
0
点赞
评论
收藏
分享
2022-07-30 10:26
广东工业大学 大数据开发工程师
恭喜蔚来offer选手
0
点赞
评论
收藏
分享
2022-06-12 11:46
广东工业大学 大数据开发工程师
恭喜b站选手offer,跟前几天的小米选手是室友
大数据面试题🉑🉑🉑,一早上读者就报喜了,四天从面试到发offer,恭喜b站选手
投递小米集团等公司10个岗位 >
0
点赞
评论
收藏
分享
2022-05-27 18:16
广东工业大学 大数据开发工程师
读者一年跳,百度+字节offer,反馈大数据面试题给力
0
点赞
评论
收藏
分享
2022-05-19 00:55
广东工业大学 大数据开发工程师
研一,小米实习offer到手,666
0
点赞
评论
收藏
分享
2022-05-18 12:30
广东工业大学 大数据开发工程师
为什么来牛客?
第一次听说牛客,是当时研一从一个研三师兄处听到的,后续这个师兄去了鹅厂,那时是17年。 师兄说应届生想要面试时占优,除了理论(俗称八股)面试要准备好,刷题必不可少,一定要去牛客上多刷题,还有剑指offer,刷个几百道,然后重复刷。 当年秋招时,在牛客也刷了些题,不过不多,勉勉强强吧。 秋招过后,基本上就比较少再来牛客了,直到上次牛客的一个活动:牛客4月创作营,然后又开始在牛客发一些帖子,分享一些自己的一些学习经验。 现在来牛客最主要的就是从牛客的大数据面经中整理大数据面试题,今年5月1日后,大数据面试题V3.0已经整理完了,所有题目都是来自于牛客的大数据面经 ...
0
点赞
评论
收藏
分享
2022-05-18 12:10
广东工业大学 大数据开发工程师
大数据面试题——HBase面试题
1、 HBase的特点是什么? 1)大:一个表可以有数十亿行,上百万列 2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列 3)面向列:面向列(族)的存储和权限控制,列(族)独立检索 4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏 5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳 6)数据类型单一:Hbase中的数据都是字符串,没有类型 2、HBase和Hive的区别? ...
大数据老刘:
大哥写的真好,我面试都遇到了好几个hbase问题。这应该是hbase的第一部分吧,期待后续的hfile设计结构以及lsm tree的讲解
投递谷歌等公司10个岗位 >
0
点赞
评论
收藏
分享
2022-04-30 20:36
已编辑
广东工业大学 大数据开发工程师
大数据面试题——Kafka面试题(二)
20、Kafka 都有哪些特点? 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败) 高并发:支持数千个客户端同时读写 21、请简述下你在哪些场景下会选择 Kafka? 日志收集:一个公...
0
点赞
评论
收藏
分享
1
2
3
4
5
6
关注他的用户也关注了:
牛客网
牛客企业服务