数仓群友提问字节2面面试题

兴哥,字节二面问到几个问题,想请教一下:
1、数据仓库的复杂性体现在哪些方面
2、数据仓库如此多的表怎么去管理的
3、原子指标和衍生指标是抽象的概念还是已经具像化的指标

问题1:最重要复杂体现在模型层面将业务抽象成模型,同时还要让数据模型好用,能够复用,并保障数据质量问题少发生

问题2主要考察元数据管理,分层,分域,数据表考评,分层还是咱们之前说的那4层 ods Dwd Dwd ads每一层做的事可以给他说一下我这里就不列举了,分域,包括主题域(业务分析角度),数据域(业务流程),你在这也可以说对于数仓整套元数据我们也有接入,并通过数据门户方式给业务展示,可以让业务快速了解每个分层每个域有什么表,作用是什么,以及表元数据(命名,作用,owner,存储等),同时也提升数仓整体复用性,减少烟囱表开发,同时对于数据表我们也有评分体系通过分数(图在下边)扫描出临时表 无用表 空表 数据表ods 穿透等评论并做整体治理

问题3 他想考你原子指标和派生指标区别,其实原子指标是一个概念 他在数仓任何地方 但又不存在,我们所说的全部指标都是派生指标,派生指标🟰原子指标+维度+周期,例如最近30天杭州地区下单人次 这个就是典型的派生指标,原子指标是下单人次,周期是最近30天,维度是杭州地区,所以从这里我们可以看出原子和派生指标关系,再顺道一提复合指标,复合指标一般通过率的方式表达,且是由派生指标为分子分母,比如最近30天离职率🟰最近30天离职人数/最近30天总员工数,这分子分母都是派生指标,再比如同比 环比也是复合指标
全部评论

相关推荐

- 飞书,开视频,面试官很友好,主要是让我在做整体流程的介绍,然后问了些常规八股- 第二个手撕在同一个小时的细节上没有完全撕出来,解决了90%,整体思路没问题- 3.6投递 3.20一面 3.24感谢信- 八股基本上都秒了,项目也讲清楚了,sql也都是秒的,也不懂为啥就挂了## 项目- 先那就挑一个你觉得做的最好的一个入仓的离线数仓的项目,具体讲一讲。从业务的背景,它的业务过程,你在其中做了什么内容,最后取得了什么成果这种思路展开讲一下。- 那你从业务的视角就是说是他比如说你的你的业务过程到底有哪些业务过程它有哪些数据,然后你怎么去做建模的,然后这种方式再细一下说一下。- 这个指标的话,其实你做了多少,做了哪些表,然后他的力度是什么?然后又有什么维度呢?- 在做这个指标的时候,你这整个的数据链路是啥?从离线到从是从线上到离线,然后再到你的指标,最后是大盘这种(大盘应该指的就是可视化)  - 我应该多讲一下数据通路中用到的数据同步工具- 你设计的DWD、DWS它的粒度是什么?都有哪些维度呢?- 你在做这个数仓其实是要类数仓的这样一个项目的话。那其实你觉得这里面最最难的点是在什么- 你现在的话其实更多的是接业务方需求,比如说业务方来一个需求做一个表,来个需求做一个表,那你的数据你的表就会越来越多越来越多。这跟是数仓的这种兼容和扩展影响不是很大吗?你这个是怎么考虑的?- 数据倾斜问题## 八股- 数仓建模的一般流程你知道吗?- 刚才提到你说总线矩阵,那总线矩阵的就是说横坐横轴跟纵轴都是什么?- ODS、DWD、DWS它的定位- ODS里面已经有了这个数据,为什么不直接从ODS里面去取还要再新建一个DWD呢?- Spark里面就是说它的一个优化的方法,你这边都用过哪些?- 小表join大表的话,是小表在前还是大表在前?- MR中MapTask个数和ReduceTask个数由什么决定?- Row number和rank的区别- avg函数他在算这种平均值的时候会忽略null吗?  - **`AVG` 函数的分母是有效数值的数量**## 手撕- SQL:学生成绩平均值问题和>60的问题,很简单- SQL:直播间同一天同一个小时内最大在线人数
MinJerous:有同学已经接了offer,不需要后续推进了。或者没hc了,还有就是很少,需要排序进三面(ld)
查看20道真题和解析
点赞 评论 收藏
分享
评论
2
5
分享

创作者周榜

更多
牛客网
牛客企业服务