科拉奥数据开发一面

说一下数仓项目的架构(离线和实时都问了)

说一下数仓分层及其作用

DWD层和DWS层的区别

事实表有哪些,为什么要设置周期快照事实表

说一下ADS层完成的比较难的需求及其实现(离线数仓的)

说一下为什么在实时项目中加入Redis作为缓存

说一下为什么使用LookUpJoin

MapReduce的工作原理

Hive怎么调优

Flink水位线机制

一道HiveSQL:假设有一张用户登录表,如何求出连续三天登录的用户

反问:

入职主要干啥

简历中哪点吸引了你

回答的怎么样

个人感觉答的不是很好的:

说一下ADS层完成的比较难的需求(这里我倒是说了一个,但是感觉面试官好像听得不是很懂的样子QWQ)

Hive怎么调优(这个主要说了分组和Join如何调优,其他参数实在不会)

Flink水位线机制,这个答完面试官说水位线主要处理乱序数据,但是我答的方向是可以使用事件时间,提高准确性

一开始宿舍比较吵,然后上天台开流量面试的,后来面完面试官说声音不是很连续,以后长记性了得找个网好点的地方

感觉要寄

全部评论
hive调优可以从数据倾斜和小文件答。比如数据倾斜,开启mapjoin参数,开启skew-join参数,开启skew-groupby参数等等 比如小文件,小文件可能是动态分区插入导致的,开启动态分区参数,并开启动态合并小分区参数; 开启动态识别小文件参数,并设置小文件平均大小的阈值,以及合并后文件的大小等等
1 回复 分享
发布于 昨天 11:37 安徽
ads复杂指标可以说是什么指标(比如复合指标/派生指标),然后说自己怎么dwd层带到dwm层带到ads层,中间关联了哪些,聚合了什么维度
点赞 回复 分享
发布于 昨天 11:41 安徽
watermark是为了解决事件时间乱序的问题吧
点赞 回复 分享
发布于 昨天 11:38 安徽
二面了没
点赞 回复 分享
发布于 04-13 05:30 河北

相关推荐

04-12 00:59
已编辑
清华大学 数据挖掘
投递字节跳动等公司9个岗位
点赞 评论 收藏
分享
评论
1
6
分享

创作者周榜

更多
牛客网
牛客企业服务