三石大数据

2023-03-17 15:33 已编辑门头沟学院大数据开发工程师发布于美国

关注

史上最全的大数据开发面经及答案汇总【字节跳动】

这是一篇总结了牛客网中10+篇字节大数据开发面经的文章，希望能够对大家有所帮助

本篇后续将会持续更新~~~ 【不断更新答案】

Hadoop篇

1.介绍一下Hadoop hadoop是什么

2.谷歌的三篇论文是否了解，三驾马车GFS，BigTable，MapReduce

3.hdfs源码你知道的话，讲讲元数据怎么管理的？

4.hdfs 你知道namenode的问题吗？怎么解决？应该就是联邦机制

5.hdfs写数据流程

6.namenode如果挂掉了怎么办【HA配置】

7.说一下mapredeuce

8.哪个阶段最费时间，环形缓冲区的调优以及什么时候需要调

shuffle：排序和溢写磁盘原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快】

9.环形缓冲区了不了解？说一下他的那个阈值高低的影响

10.写一个wordcount

11.WordCount在MapReduce中键值对变化

<偏移量, 一行数据> -> <单词1, 1> <单词2, 1> .... -> <单词1，10> <单词2，15>

12.map端为什么要排序？

13.map端输出的文件组织形式是什么样的？

14.reduce怎么知道从哪里下载map输出的文件

通过MRAPPMaster获取哪些节点有map输出，当map执行结束后，会汇报给MRAPPMaster。reduce中的一个线程会定期询问MRAPPMaster以便获取map输出的位置

15.如果map输出太多小文件怎么办

开启combiner合并，但是在求平均值的时候是不能使用的

16.MapReduce优化的case

输入端：合并小文件 combineinputformat map端：提高环形缓冲区的大小，减少IO次数开启combiner

zookeeper篇

1.zookeeper简单介绍一下，为什么要用zk？zk的架构？

2.zk的数据存储，当重启后怎么重构zk的数据模型

3.zk的原理，基于什么协议，follower和observer的区别，zk怎么扩容

4.zab和raft的区别引申到paxos和raft

5.zk机房扩容有什么要注意的吗？（我只知道过半所以奇数个，其他的不知道

6.cap原则

Flume篇

1.Flume都有什么组件，channel的特性以及什么时候该用什么类型的channel，除了Flume还有什么数据收集工具

DataX，Sqoop

Kafka篇

1.Kafka在项目中起到的作用，如果挂掉怎么保证数据不丢失，不使用Kafka会怎样

2.Kafka呢怎么保证数据一致性引申到exactly once

3.Kafka通过哪些机制实现了高吞吐量？

Hive篇

1.如何理解Hive，为什么使用Hive

2.Hive的实现逻辑，为什么处理小表延迟比较高

因为其计算是通过MapReduce，MapReduce是批处理，高延迟的。小文件也要执行MapReduce。Hive的优势在于处理大数据，对于处理小数据没有优势

HBase篇

1.Hbase的架构，读写缓存？

2.blockcache的底层实现？你提到了LRU那除了LRU还可以有什么方案？

3.Hbase重启后怎么重构blockcache？（不会只知道hlog和memstore）

4.Hbase写入方式 bulkload 不同写入方式的应用场景

Spark篇

1.Spark on yarn的流程，分部署模式答

2.怎样提高并行度相关参数

3.client和cluster模式的区别

4.Spark shuffle以及为什么要丢弃hashshuffle

5.讲讲Spark为什么比Hadoop快

6.RDD是什么，有什么特点

7.RDD的血缘

8.宽窄依赖

9.stage划分

10.Transform和Action算子分别有什么常用的，他们的区别是什么

11.Spark 能产生shuffle的算子

12.Spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

13.Spark内存管理

14.Spark数据落盘

15.看过Spark底层源码没有

16.Spark程序故障重启，checkpoint检查点

17.Spark 数据倾斜

18.用Spark遇到了哪些问题

19.Spark join的有几种实现

20.背压机制应用场景底层实现

Flink篇

1.Flink的组成

2.Flink流批一体解释一下

3.聊聊Sparkstreaming和Flink？为什么你觉得Flink比Sparkstreaming好？

4.那Flink shuffle呢？你了解吗？

5.watermark用过吗

6.checkpoint Chandy-Lamport算法

7.如何用checkpoint和watermark防止读到乱序数据。

8.Kafka和Flink分别怎么实现exactly once，问的比较深入，我只回答了一些用法，二阶段提交说了流程，没说出来机制。

9.流式框架

1)节点挂了，怎么保证任务正常执行

2)有状态怎么维护之前的状态

3)checkpoint数据重用前提

java基础篇

1.java限定词（private那些）

2.ArrayList原理，为什么初始是10，为什么扩容1.5倍

3.hashmap的实现原理

4.怎么解决hash碰撞+ 时间复杂度+优化+改成红黑树了时间复杂度+继续优化

5.实现单例模式

6.多路复用，NIO这些了解过吗？

7.100M的数组随机查快还是顺序查快解释为什么？

并发编程篇

1.如何实现多线程写过多线程吗

2.4种线程池功能

3.java内存模型

4.java内存模型中，线程和进程会如何分配这些资源

5.volatile的作用

6.synchronized和volited的区别

7.synchronized与lock的区别

8.公平锁与非公锁的区别

9.java锁都有什么，JUC包

10.lock是公平的还是非公平的（答案是可以根据逻辑去自己实现是否公平）

11.怎么保证线程同步？

12.sychornized讲一下和其他的区别

13.sychornized怎么优化

14.volatile可以保证原子性吗？

15.cas呢？我讲了cas的原理结果怼我我不是问你原理我是问你怎么保证原子性的？

16.reentrantlock底层原理

17.除了reentrantlock，你还知道什么锁

18.读写锁底层实现原理和应用场合

19.synchronize底层实现锁升级公平？

20.多线程（线程间的通信，锁，volatile，CAS）

算法篇

都是网上的一些原题，自行寻找答案

1.岛屿问题

2.矩阵最小路径和问题求矩阵最短路径

3.判断一棵二叉树是否镜像对称

4.判定二叉排序树

5.二叉树之Z遍历

6.非递归实现中序遍历

7.二叉搜索树查找第k个

8.堆排序

9.桶排序

10.股票交易1 2

11.二分查找

12.k个一组反转

13.重排链表

14.链表排序（归并排序实现）

15.包含min函数的栈 O(1)

16.搜索旋转排序数组

17.最长回文子串

18.LRU

19.数据结构让你设计一个hash表怎么设计？

20.那设计一个hashtable

21.string转int

#你觉得今年春招回暖了吗##牛客解忧铺##大数据开发面经##字节##春招#

全部评论

推荐最新楼层

牛客219693234号

门头沟学院 Java

点个赞

1 回复分享

发布于 2023-03-19 10:55 香港

三石大数据

楼主

门头沟学院大数据开发工程师

大家把希望及时更新的题目发出来，优先进行更新

点赞回复分享

发布于 2023-03-17 15:34 美国

DUT_SY9

大连理工大学大数据开发工程师

计网操作系统这些八股有吗？

点赞回复分享

发布于 2023-09-19 16:25 辽宁

就要转码嘛

门头沟学院 Java

这难度无敌了

点赞回复分享

发布于 09-06 11:22 江苏

11-29 18:43

汤臣倍健_人力_HR

汤臣倍健秋招—面经分享

大家不要总是看网上开始签约啥的，现在三方很多都还没开，慌啥，再说了，有人签约了就说明有hc释放出来了，所以不要焦虑 ，现在继续投着，前面大佬释放hc 大家还有机会来给大家提内推小建议啦，简历是别人认识你的初步印象，如何让面试官/HR通过简历看到你的优秀，看到你的特点，十分重要，决定着你是否会经常被捞； 简历是在有限篇幅（一般一页，经历多可到两页）的情况下介绍自己，因此需要简历需要有重点，有特点、有主次； 面试流程（共三面）：（1）一面：hr面（线上视频面试），自我介绍+个人基本信息（籍贯、目前所在地等）+三个词形容自己（个人特质）+简单了解之前的项目经历和实习经历+对其中1-2段经历追...

点赞评论收藏

11-13 15:49

美团_Keeta_数据研发(准入职员工)

开奖有感

    从今年3月找实习开始，就业的焦虑就一直盘在脑子里，到此刻决定签三方也算是可以暂时忘掉它了。    “世界就是个巨大的草台班子”，从美团给我大ssp之前我一直不敢认同，但我现在深深认同，也感谢团子起个高调给我这个牛马定了个好价钱；之后字节被这个包吓的也开始点天灯砸我也算是体验了一把谈薪上位者的感觉。    谈下来感觉校招还是要结合自己的面评大胆争取，珍惜这最后能吊着公司的机会，万一a到了呢，别人有的你也可以有。    很多人加我问要不要选数开，我还是觉得数开是最好入门但是硬性门槛（学历）最高的开发，加上今年的薪资水平，明年肯定是狼多肉少了，不过还是随时欢迎大家有困惑的时候私信我聊聊（无偿），希望大家都有最好的结果，把我今年最喜欢的话送给大家共勉：“且视他人之凝目如盏盏鬼火，大胆去走你的夜路。”    最后还是要小小恭喜一下自己，也感恩牛客各位大佬的不断分享，其他的offer我也直接释放了，秋招结束！团孝子启动！深漂启动！全部启动！

点赞评论收藏

不愿透露姓名的神秘牛友

昨天 18:44

为什么有些人工作十年还不如一个职场新人？

最近感触很深，身边有很多同事已经工作近十年了，但是通过日常对接，可以非常明显的感受出工作能力上的差距，有时候甚至还不如一个刚来一年的校招生！ 先说一个最显著的特征，就一个字：乱。 1️⃣做事方面： 1、极度混乱，没有主见，被分配任务之后手忙脚乱，完全不知道从哪下手何为主次，进入执行状态缓慢，有时候还要反复请示才敢走出第一步。 2、即便知道了如何去做，在做事的时候又是一片混乱，对很多事情没有掌控力，感觉需要费很大的力气才能达到一个至少不坏的结果。 3、 逻辑思维混乱是本质，上升到行为就是语言组织也很乱，说话前后没有因果关系，经常没头没脑的冒出一个结论，缺乏依据。 4、有的人总喜欢说一些重复的...

点赞评论收藏

11-04 11:21

哈尔滨工业大学（深圳）大数据开发工程师

26届哈深大数据找实习碎碎念

起步有点晚，最近每天疯狂拓展知识，顺便投投简历。目标放在了大厂和500+以上的厂。找第一段实习感觉需要个跳板。汇报一下简历情况，目前简历过不知道有无面试:平安科技，oppo，深信服，待面试:仲阳天王星。看规模很小，但是好像声势不小?要不要试试呢?求解。测评过:腾讯简历挂:货拉拉简历已读情况未知:Anker，字节，🦐

点赞评论收藏

11-14 23:00

重庆工程学院大数据开发工程师

求大佬指点简历

球球各位看看哪里还需要改进的，我对这方面实在是不懂#我的实习求职记录#

我的实习求职记录

点赞评论收藏

177

招聘动态

阿里云管培生

2025届校园招聘

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 25届机械人为了秋招做了哪些准备？ #

# 实习想申请秋招offer，能不能argue薪资 #

# 如果再来一次，你还会选择这个工作吗？ #

史上最全的大数据开发面经及答案汇总【字节跳动】

Hadoop篇

1.介绍一下Hadoop hadoop是什么

2.谷歌的三篇论文是否了解，三驾马车GFS，BigTable，MapReduce

3.hdfs源码你知道的话，讲讲元数据怎么管理的？

4.hdfs 你知道namenode的问题吗？怎么解决？应该就是联邦机制

5.hdfs写数据流程

6.namenode如果挂掉了怎么办 【HA配置】

7.说一下mapredeuce

8.哪个阶段最费时间，环形缓冲区的调优以及什么时候需要调

9.环形缓冲区了不了解？说一下他的那个阈值高低的影响

10.写一个wordcount

11.WordCount在MapReduce中键值对变化

12.map端为什么要排序？

13.map端输出的文件组织形式是什么样的？

14.reduce怎么知道从哪里下载map输出的文件

15.如果map输出太多小文件怎么办

16.MapReduce优化的case

zookeeper篇

1.zookeeper简单介绍一下，为什么要用zk？zk的架构？

2.zk的数据存储，当重启后怎么重构zk的数据模型

3.zk的原理，基于什么协议，follower和observer的区别，zk怎么扩容

4.zab和raft的区别 引申到paxos和raft

5.zk机房扩容有什么要注意的吗？（我只知道过半所以奇数个，其他的不知道

6.cap原则

Flume篇

1.Flume都有什么组件，channel的特性以及什么时候该用什么类型的channel，除了Flume还有什么数据收集工具

Kafka篇

1.Kafka在项目中起到的作用，如果挂掉怎么保证数据不丢失，不使用Kafka会怎样

2.Kafka呢 怎么保证数据一致性 引申到exactly once

3.Kafka通过哪些机制实现了高吞吐量？

Hive篇

1.如何理解Hive，为什么使用Hive

2.Hive的实现逻辑，为什么处理小表延迟比较高

HBase篇

1.Hbase的架构，读写缓存？

2.blockcache的底层实现？你提到了LRU那除了LRU还可以有什么方案？

3.Hbase重启后怎么重构blockcache？（不会 只知道hlog和memstore）

4.Hbase写入方式 bulkload 不同写入方式的应用场景

Spark篇

1.Spark on yarn的流程，分部署模式答

2.怎样提高并行度 相关参数

3.client和cluster模式的区别

4.Spark shuffle以及为什么要丢弃hashshuffle

5.讲讲Spark为什么比Hadoop快

6.RDD是什么，有什么特点

7.RDD的血缘

8.宽窄依赖

9.stage划分

10.Transform和Action算子分别有什么常用的，他们的区别是什么

11.Spark 能产生shuffle的算子

12.Spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

13.Spark内存管理

14.Spark数据落盘

15.看过Spark底层源码没有

16.Spark程序故障重启，checkpoint检查点

17.Spark 数据倾斜

18.用Spark遇到了哪些问题

19.Spark join的有几种实现

20.背压机制应用场景 底层实现

Flink篇

1.Flink的组成

2.Flink流批一体解释一下

3.聊聊Sparkstreaming和Flink？为什么你觉得Flink比Sparkstreaming好？

4.那Flink shuffle呢？你了解吗？

5.watermark用过吗

6.checkpoint Chandy-Lamport算法

7.如何用checkpoint和watermark防止读到乱序数据。

8.Kafka和Flink分别怎么实现exactly once，问的比较深入，我只回答了一些用法，二阶段提交说了流程，没说出来机制。

9.流式框架

java基础篇

1.java限定词（private那些）

2.ArrayList原理，为什么初始是10，为什么扩容1.5倍

3.hashmap的实现原理

4.怎么解决hash碰撞+ 时间复杂度+优化+改成红黑树了时间复杂度+继续优化

5.实现单例模式

6.多路复用，NIO这些了解过吗？

7.100M的数组 随机查快还是顺序查快 解释为什么？

并发编程篇

1.如何实现多线程 写过多线程吗

6.namenode如果挂掉了怎么办【HA配置】

4.zab和raft的区别引申到paxos和raft

2.Kafka呢怎么保证数据一致性引申到exactly once

3.Hbase重启后怎么重构blockcache？（不会只知道hlog和memstore）

2.怎样提高并行度相关参数

20.背压机制应用场景底层实现

7.100M的数组随机查快还是顺序查快解释为什么？

1.如何实现多线程写过多线程吗

12.sychornized讲一下和其他的区别

15.cas呢？我讲了cas的原理结果怼我我不是问你原理我是问你怎么保证原子性的？

19.synchronize底层实现锁升级公平？

2.矩阵最小路径和问题求矩阵最短路径

19.数据结构让你设计一个hash表怎么设计？