史上最全的大数据开发面经及答案汇总【字节跳动】

这是一篇总结了牛客网中10+篇字节大数据开发面经的文章,希望能够对大家有所帮助

本篇后续将会持续更新~~~ 【不断更新答案】

Hadoop篇

1.介绍一下Hadoop hadoop是什么

2.谷歌的三篇论文是否了解,三驾马车GFS,BigTable,MapReduce

3.hdfs源码你知道的话,讲讲元数据怎么管理的?

4.hdfs 你知道namenode的问题吗?怎么解决?应该就是联邦机制

5.hdfs写数据流程

6.namenode如果挂掉了怎么办 【HA配置】

7.说一下mapredeuce

8.哪个阶段最费时间,环形缓冲区的调优以及什么时候需要调

shuffle:排序和溢写磁盘 原则上说,缓冲区越大,磁盘 io 的次数越少,执行速度就越快】

9.环形缓冲区了不了解?说一下他的那个阈值高低的影响

10.写一个wordcount

11.WordCount在MapReduce中键值对变化

<偏移量, 一行数据> -> <单词1, 1> <单词2, 1> .... -> <单词1,10> <单词2,15>

12.map端为什么要排序?

13.map端输出的文件组织形式是什么样的?

14.reduce怎么知道从哪里下载map输出的文件

通过MRAPPMaster获取哪些节点有map输出,当map执行结束后,会汇报给MRAPPMaster。reduce中的一个线程会定期询问MRAPPMaster以便获取map输出的位置

15.如果map输出太多小文件怎么办

开启combiner合并,但是在求平均值的时候是不能使用的

16.MapReduce优化的case

输入端:合并小文件 combineinputformat map端:提高环形缓冲区的大小,减少IO次数 开启combiner

zookeeper篇

1.zookeeper简单介绍一下,为什么要用zk?zk的架构?

2.zk的数据存储,当重启后怎么重构zk的数据模型

3.zk的原理,基于什么协议,follower和observer的区别,zk怎么扩容

4.zab和raft的区别 引申到paxos和raft

5.zk机房扩容有什么要注意的吗?(我只知道过半所以奇数个,其他的不知道

6.cap原则

Flume篇

1.Flume都有什么组件,channel的特性以及什么时候该用什么类型的channel,除了Flume还有什么数据收集工具

DataX,Sqoop

Kafka篇

1.Kafka在项目中起到的作用,如果挂掉怎么保证数据不丢失,不使用Kafka会怎样

2.Kafka呢 怎么保证数据一致性 引申到exactly once

3.Kafka通过哪些机制实现了高吞吐量?

Hive篇

1.如何理解Hive,为什么使用Hive

2.Hive的实现逻辑,为什么处理小表延迟比较高

因为其计算是通过MapReduce,MapReduce是批处理,高延迟的。小文件也要执行MapReduce。Hive的优势在于处理大数据,对于处理小数据没有优势

HBase篇

1.Hbase的架构,读写缓存?

2.blockcache的底层实现?你提到了LRU那除了LRU还可以有什么方案?

3.Hbase重启后怎么重构blockcache?(不会 只知道hlog和memstore)

4.Hbase写入方式 bulkload 不同写入方式的应用场景

Spark篇

1.Spark on yarn的流程,分部署模式答

2.怎样提高并行度 相关参数

3.client和cluster模式的区别

4.Spark shuffle以及为什么要丢弃hashshuffle

5.讲讲Spark为什么比Hadoop快

6.RDD是什么,有什么特点

7.RDD的血缘

8.宽窄依赖

9.stage划分

10.Transform和Action算子分别有什么常用的,他们的区别是什么

11.Spark 能产生shuffle的算子

12.Spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

13.Spark内存管理

14.Spark数据落盘

15.看过Spark底层源码没有

16.Spark程序故障重启,checkpoint检查点

17.Spark 数据倾斜

18.用Spark遇到了哪些问题

19.Spark join的有几种实现

20.背压机制应用场景 底层实现

Flink篇

1.Flink的组成

2.Flink流批一体解释一下

3.聊聊Sparkstreaming和Flink?为什么你觉得Flink比Sparkstreaming好?

4.那Flink shuffle呢?你了解吗?

5.watermark用过吗

6.checkpoint Chandy-Lamport算法

7.如何用checkpoint和watermark防止读到乱序数据。

8.Kafka和Flink分别怎么实现exactly once,问的比较深入,我只回答了一些用法,二阶段提交说了流程,没说出来机制。

9.流式框架

1)节点挂了,怎么保证任务正常执行

2)有状态怎么维护之前的状态

3)checkpoint数据重用前提

java基础篇

1.java限定词(private那些)

2.ArrayList原理,为什么初始是10,为什么扩容1.5倍

3.hashmap的实现原理

4.怎么解决hash碰撞+ 时间复杂度+优化+改成红黑树了时间复杂度+继续优化

5.实现单例模式

6.多路复用,NIO这些了解过吗?

7.100M的数组 随机查快还是顺序查快 解释为什么?

并发编程篇

1.如何实现多线程 写过多线程吗

2.4种线程池功能

3.java内存模型

4.java内存模型中,线程和进程会如何分配这些资源

5.volatile的作用

6.synchronized和volited的区别

7.synchronized与lock的区别

8.公平锁与非公锁的区别

9.java锁都有什么,JUC包

10.lock是公平的还是非公平的(答案是可以根据逻辑去自己实现是否公平)

11.怎么保证线程同步?

12.sychornized讲一下 和其他的区别

13.sychornized怎么优化

14.volatile可以保证原子性吗?

15.cas呢?我讲了cas的原理 结果怼我 我不是问你原理 我是问你怎么保证原子性的?

16.reentrantlock底层原理

17.除了reentrantlock,你还知道什么锁

18.读写锁底层实现原理和应用场合

19.synchronize底层实现 锁升级 公平?

20.多线程(线程间的通信,锁,volatile,CAS)

算法篇

都是网上的一些原题,自行寻找答案

1.岛屿问题

2.矩阵最小路径和问题 求矩阵最短路径

3.判断一棵二叉树是否镜像对称

4.判定二叉排序树

5.二叉树之Z遍历

6.非递归实现中序遍历

7.二叉搜索树查找第k个

8.堆排序

9.桶排序

10.股票交易1 2

11.二分查找

12.k个一组反转

13.重排链表

14.链表排序(归并排序实现)

15.包含min函数的栈 O(1)

16.搜索旋转排序数组

17.最长回文子串

18.LRU

19.数据结构 让你设计一个hash表 怎么设计?

20.那设计一个hashtable

21.string转int

#你觉得今年春招回暖了吗##牛客解忧铺##大数据开发面经##字节##春招#
全部评论
点个赞
1 回复 分享
发布于 2023-03-19 10:55 香港
大家把希望及时更新的题目发出来,优先进行更新
点赞 回复 分享
发布于 2023-03-17 15:34 美国
计网操作系统这些八股有吗?
点赞 回复 分享
发布于 2023-09-19 16:25 辽宁
这难度无敌了
点赞 回复 分享
发布于 09-06 11:22 江苏

相关推荐

秋招进行到现在终于能写总结了。完全没想到战线会拉这么长,过程会如此狼狈,不过更应该怪自己太菜了。好在所有的运气都用在了最后,也是有个去处。背景:双2本硕科班,无竞赛,本科一段研究所实习,硕士一段大厂暑期实习但无转正。技术栈是C++&nbsp;&amp;&nbsp;Golang,实习是客户端音视频(而且是鸿蒙端开发),简历两个C++项目一个Golang项目。主要投递岗位:后端,cpp软开,游戏服务端,测开,以及一些不拘泥于Java的岗位。从8月起总共投递123家公司,笔试数不清了,约面大约30家。offer/oc/意向:友塔游戏(第一个offer,面试体验很好,就是给钱好少南瑞继保(计算机科班点击就送(限男生),不...
乡土丁真真:佬很厉害,羡慕~虽然我还没有到校招的时候,也想讲一下自己的看法:我觉得不是CPP的问题,佬的背书双2,技术栈加了GO,有两段实习。投了123,面了30.拿到11个offer。这个数据已经很耀眼了。这不也是CPP带来的吗?当然也不止是CPP。至少来说在这个方向努力过的也会有好的结果和选择。同等学历和项目选java就会有更好的吗?我个人持疑问态度。当然CPP在方向选择上确实让人头大,但是我觉得能上岸,至于最后做什么方向,在我看来并不重要。至于CPP特殊,有岗位方向的随机性,java不是不挑方向,只是没得选而已。也希望自己以后校招的时候能offer满满
点赞 评论 收藏
分享
喜欢走神的孤勇者练习时长两年半:爱华,信华,等华,黑华
点赞 评论 收藏
分享
服从性笔试吗,发这么多笔,现在还在发。
蟑螂恶霸zZ:傻 x 公司,发两次笔试,两次部门匹配挂,
投递金山WPS等公司10个岗位 >
点赞 评论 收藏
分享
22 177 评论
分享
牛客网
牛客企业服务