猿辅导——大数据平台面经(凉经)
二面
1、为什么用seatunnel进行同步,不用dataX?
2、seatunnel底层引擎是spark,那为什么不直接用原生的spark进行同步呢?
3、项目有什么做的不够好的?
ODPS相当于hive,多进程写入会产生表锁,没法利用spark的并发优势——1.统一管理ODPS表,每个分区写入一张表,读取的时候直接读取表,然后每天定时进行聚合。这个过程对于用户来说是无感的。2.分布式锁,阻塞的多进程写入
对于分区不太友好,分区字段必须要全部写全,不能只填一个
4、介绍一下spark shuffle
5、spark shuffle一定会写文件吗
没答好,考虑大小的同时需要去考虑GC,shuffle属于中间计算结果,
三面
1、自我介绍
2、深挖实习项目细节
3、怎么对一个接口做测试呢?从什么角度入手?
4、你刚才说的是引擎侧的,如果是针对系统呢?接口测试你觉得考虑哪几个指标?
5、局域网之间,互相ping的延迟是什么?
6、单机情况下,以硬件和资源角度出发,如果去提高系统的性能?
7、hdfs架构
8、HA?journalNode?
9、理想的行业以及方向
10、对公司氛围有什么期待
11、反问
挂了...确实不太会测试
#猿辅导##大数据##面经#
1、为什么用seatunnel进行同步,不用dataX?
2、seatunnel底层引擎是spark,那为什么不直接用原生的spark进行同步呢?
3、项目有什么做的不够好的?
ODPS相当于hive,多进程写入会产生表锁,没法利用spark的并发优势——1.统一管理ODPS表,每个分区写入一张表,读取的时候直接读取表,然后每天定时进行聚合。这个过程对于用户来说是无感的。2.分布式锁,阻塞的多进程写入
对于分区不太友好,分区字段必须要全部写全,不能只填一个
4、介绍一下spark shuffle
5、spark shuffle一定会写文件吗
没答好,考虑大小的同时需要去考虑GC,shuffle属于中间计算结果,
算法:股票问题,字符串数组差集
1、自我介绍
2、深挖实习项目细节
3、怎么对一个接口做测试呢?从什么角度入手?
4、你刚才说的是引擎侧的,如果是针对系统呢?接口测试你觉得考虑哪几个指标?
5、局域网之间,互相ping的延迟是什么?
6、单机情况下,以硬件和资源角度出发,如果去提高系统的性能?
7、hdfs架构
8、HA?journalNode?
9、理想的行业以及方向
10、对公司氛围有什么期待
11、反问
挂了...确实不太会测试
#猿辅导##大数据##面经#