【更新至二面】网易严选大数据岗位内推一面面经
【一面】
上来问了一下项目 我项目是写一个基于hive的flink sink
spark和flink对比 为什么spark streaming做不到毫秒级响应
kafka大致的架构 为什么高可用 高吞吐 zero copy原理
hashmap的结构
sql题 两个表 一个是订单表 一个是部门表 找到每个部门哪个用户加起来所有的订单金额最大
【二面】
二面纯项目 连自我介绍都没有 也没有算法题或者sql题
我的项目是基于hive的电商数仓 所以问hive比较多
知道hive的sql语句怎么转成MR可执行任务的吗
MR的shuffle机制了解吗
数据仓库怎么分层 你的项目里分了哪些层
DWS层和ADS层有什么区别
有没有写过hive的UDF 怎么写的
流量漏斗分析 和页面来源分析知道吗
hive什么时候会产生数据倾斜 怎么处理
项目数据来源有哪些 有没有清洗数据 怎么清洗
有没有搭过大数据集群 用到哪些组件 每个组件的作用
计算框架了解吗 flink的checkpoint机制
#网易##面经##内推##秋招##大数据开发工程师#