大数据开发面经,转转,滴滴,美团
整理近期面得别的公司的面经,和大家分享一下。觉得有用的话,收个藏,评论一下,谢谢。
--------------------------------------------------------------------------------------------------------
转转
--------------------------------------------------------------------------------------------------------
1.自我介绍
2.Kafka,架构,ACK,发送数据,消费数据,高吞吐等
3.Flume的Source(常用的),Channel(常用的),Sink(常用的),Flume拦截器知道不,自定义,Flume小文件处理(调两个参数,我记得是)
4.Hadoop的高可用,一些要点,两个namenode如何保持同步(会通过JournalNodes的独立进程进行相互通信),脑裂和防止脑裂
5.Yarn资源调度流程和调度器
6.写过MapReduce吗,说一下shuffle,自定义过分区吗,写过?压缩了解吗?都用过那个(要了解每个的特点)
7.数据仓库的模型,分层,三范式,
8.如何保证数据质量,数据一致性?
9.拉链表了解吗?什么情况用到,怎么实现?
10.表级别的优化(表的设计?),Hive的优化,分区,mapjoin
11.hive的计算引擎(mr,tez,spark),tez引擎的优点,自定义UDF,UDTF
12.写个sql,省份,城市,人口数量,统计人口排名前两名城市
13.模糊去重和精确去重的算法
14.Spark Streaming 和Flink了解多少(一点点)
15.无序数组求目标值,Hash
16.8个球,一个轻,找出来
17.MySQL的了解,两个引擎区别
18.索引实效的情况
19.反问
--------------------------------------------------------------------------------------------------------
滴滴
--------------------------------------------------------------------------------------------------------
1.ArrayList和LinkedList,HashMap和HashTable对比
2.项目的流程之类的,数据建设的情况,平成做哪些工作
3.数仓分层
4.快排思想
5.数据结构常用的,应用过哪些,ArrayList和LinkedList怎么实现的,堆和栈中的存储,操作系统为啥么这么做,链表和数组区别
6.多线程的了解,实现方式,常用的几种线程池,保持同步(sync,lock类),解释一下线程
7.HDFS读写原理(怎么读取这个文件系统,API实现可以看一下,包括建立连接这些),分布式文件怎么存储,切片
8.MapReduce,Zookeeper,Kafka解释,kafka和反压(好像是,不太知道)
9.spark和mr对比
10.写了个题 和这个类似的一个题《编程之美》——电话号码对应英语单词
11.线程池核心参数(corePoolSize,maximumPoolSize,workQueue)线程池的饱和策略
12.JDK1.8的特性
13.关联两个表(带join和不带join方式),空值的处理
14.MySQL和HBase的对比(底层存储),优缺点
15.volatile解释一下,ThreadLocal
16.MySQL的优化,索引有那些
17.HDFS,shuffle,yarn资源调度
18.UDF,UDTF,UDAF解释一下,explode()怎么用
--------------------------------------------------------------------------------------------------------
美团
--------------------------------------------------------------------------------------------------------
1.Kylin的特点,存储HBase的rowkey的优化,
2.分组排序 rank() over() 这个
3.项目架构有那些,怎么做的,做过那些
4.MR的提交执行流程
5.Hive两个大表join的过程,
6.HDFS的put和get流程
7.撕代码:LeetCode 124
8.那个项目参与最长,参与度高,聊一聊,还是那些问题,用到啥,做了那些事情,技术选型,项目遇到的问题,难点,优化等
9.数据仓库建模
10.主从复制是咋样的,三副本写入,是怎么样的,应该要把写流程和机架感知(副本存放),和节点传输应答流程(Pipeline)说一说。
11.写题
两个有序链表 合并 去重(LeetCode21题,记得去重)
转转
--------------------------------------------------------------------------------------------------------
1.自我介绍
2.Kafka,架构,ACK,发送数据,消费数据,高吞吐等
3.Flume的Source(常用的),Channel(常用的),Sink(常用的),Flume拦截器知道不,自定义,Flume小文件处理(调两个参数,我记得是)
4.Hadoop的高可用,一些要点,两个namenode如何保持同步(会通过JournalNodes的独立进程进行相互通信),脑裂和防止脑裂
5.Yarn资源调度流程和调度器
6.写过MapReduce吗,说一下shuffle,自定义过分区吗,写过?压缩了解吗?都用过那个(要了解每个的特点)
7.数据仓库的模型,分层,三范式,
8.如何保证数据质量,数据一致性?
9.拉链表了解吗?什么情况用到,怎么实现?
10.表级别的优化(表的设计?),Hive的优化,分区,mapjoin
11.hive的计算引擎(mr,tez,spark),tez引擎的优点,自定义UDF,UDTF
12.写个sql,省份,城市,人口数量,统计人口排名前两名城市
13.模糊去重和精确去重的算法
14.Spark Streaming 和Flink了解多少(一点点)
15.无序数组求目标值,Hash
16.8个球,一个轻,找出来
17.MySQL的了解,两个引擎区别
18.索引实效的情况
19.反问
--------------------------------------------------------------------------------------------------------
滴滴
--------------------------------------------------------------------------------------------------------
1.ArrayList和LinkedList,HashMap和HashTable对比
2.项目的流程之类的,数据建设的情况,平成做哪些工作
3.数仓分层
4.快排思想
5.数据结构常用的,应用过哪些,ArrayList和LinkedList怎么实现的,堆和栈中的存储,操作系统为啥么这么做,链表和数组区别
6.多线程的了解,实现方式,常用的几种线程池,保持同步(sync,lock类),解释一下线程
7.HDFS读写原理(怎么读取这个文件系统,API实现可以看一下,包括建立连接这些),分布式文件怎么存储,切片
8.MapReduce,Zookeeper,Kafka解释,kafka和反压(好像是,不太知道)
9.spark和mr对比
10.写了个题 和这个类似的一个题《编程之美》——电话号码对应英语单词
11.线程池核心参数(corePoolSize,maximumPoolSize,workQueue)线程池的饱和策略
12.JDK1.8的特性
13.关联两个表(带join和不带join方式),空值的处理
14.MySQL和HBase的对比(底层存储),优缺点
15.volatile解释一下,ThreadLocal
16.MySQL的优化,索引有那些
17.HDFS,shuffle,yarn资源调度
18.UDF,UDTF,UDAF解释一下,explode()怎么用
--------------------------------------------------------------------------------------------------------
美团
--------------------------------------------------------------------------------------------------------
1.Kylin的特点,存储HBase的rowkey的优化,
2.分组排序 rank() over() 这个
3.项目架构有那些,怎么做的,做过那些
4.MR的提交执行流程
5.Hive两个大表join的过程,
6.HDFS的put和get流程
7.撕代码:LeetCode 124
8.那个项目参与最长,参与度高,聊一聊,还是那些问题,用到啥,做了那些事情,技术选型,项目遇到的问题,难点,优化等
9.数据仓库建模
10.主从复制是咋样的,三副本写入,是怎么样的,应该要把写流程和机架感知(副本存放),和节点传输应答流程(Pipeline)说一说。
11.写题
两个有序链表 合并 去重(LeetCode21题,记得去重)
笔试一个月的B站终于有消息了要面试了,终于有一家上海的公司给面试了🤣
#秋招##面经##校招##美团##滴滴##转转##大数据开发工程师#