米塔碳数仓实习二面

无自我介绍

首先聊了聊项目在做的过程中有哪些难点,方案是怎么落实的

1.数据倾斜的定位,处理方式
2.spark和flink的区别
3.flink在事件流中会遇到什么问题,怎么解决
我答:乱序问题,解释了一下watermark
 4.参加过社团吗,印象最深刻的经历
5.项目为什么采用hive on spark架构
我说了hive的优点,spark相比mr快的原因,以及与spark on hive的区别与优劣势
6.列举mysql中你所熟悉的知识
如事务,mvcc,存储引擎,索引结构
7.脏读,幻读,不可重复读的理解
8.最熟悉那种语言
9.列举java有哪些数据结构
10.arraylist与linkedlist的区别
11描述.hashmap的结构,以及在插入的过程有哪些改变,平时是怎么使用的
12.给你1亿条数据,怎么去做etl
我答用sql去重与异常值处理,但面试官应该是想让我描述在大量数据场景下的去重或者说排序方案,其实就是布隆过滤器的问题,我这里呆了没考虑到,面试官似乎不满意我的答案……
13.为什么考虑做大数据方向,未来的职业规划

已oc
全部评论
兄弟打算实习多久啊,工作内容主要是离线数仓么
点赞 回复 分享
发布于 08-16 16:12 北京

相关推荐

5 12 评论
分享
牛客网
牛客企业服务