百度提前批大数据一二三面面经
百度提前批大数据一二三面面经
一面 2020.07.22 50分钟
1.redis的持久化原理;AOF会不会产生脏数据
2.Hbase原理
3.hive与spark的区别
4.mongodb优缺点及使用场景
5.spark连kafka的两种方式
6.flume的底层实现原理
7.生产者消费者模式与发布订阅模式有何异同
8.hive,mysql的性能优化谈谈
9.mysql的索引有哪些
10.mysql的join过程
11.leftjoin的使用场景
12.ES的节点和分片原理
13.spark的oom问题怎么产生的以及解决方案
14.strom,flink,spark的区别
15.什么是时间复杂度,空间复杂度
二面 2020.07.28 55分钟
1.聚簇索引,非聚簇索引区别,各自应用场景
2.myIsam,Innodb各自区别和使用场景
3.hbase,hive,mysql,redis区别,各自应用场景
4.hdfs读写流程
5.mapreduce的shuffle过程,map端的并行度
6.为什么一定要有shuffle过程
7.mapreduce分桶的作用
8.spark,hadoop的区别
9.spark的几种部署方式
10.hadoop没被淘汰的原因
11.hdfs与hbase有啥关系
12.hdfs默认副本数是几个?为什么
13.架构设计:每天上百亿级别数据,数据来了之后如何进行架构设计,以完成数据分析,数据检索功能
14.50个红球,50个蓝球,怎么放入两个袋子,让拿到红球的概率最大
15.手撕代码:1000的阶乘末尾有几个0
百度三面 2020.08.05 35分钟
没细问技术,只是过了一遍简历的知识点