字节数开面经一/二/三

被ks恶心完已经有点想摆了
偷了大家很多面经,回馈一下,也欢迎数开的xdm交流

一面:
实习拷打15min
如果有一个指标你会怎么去加工,逻辑会怎么去写
一个hql提交的具体执行过程
mr的整体过程
spark跑任务有几个阶段
Hadoop生态都有什么;HDFS组成部分,存储逻辑
数据倾斜,有没有实际优化过
对数仓的理解(基本建模/分层所有的八股都问了一遍)
hive和mysql之间的差异,mysql怎么实现毫米级的响应,b+树为什么快
想汰换表会怎么做
sql1 把string结构的数据转换成sql可用的数据结构,然后算中位数
sql2同时在线

二面:
实习拷打20min
对数仓建模的认识,实操过程你是怎么做的
flink-cdc是什么,有没有遇到过什么问题
phoenix,hbase是做什么的
hql提交后做了什么事情最后把数据生成出来
逻辑执行计划和物理执行计划有什么区别,为什么要分这两个
左表五条数据left join右表三条数据,结果是几条
map join知道吗?
sql:一张表记录学生和得分情况,展示分数高于平均分的学生id和分数

三面:
实习拷打20min(跟一二面不同的是他更在乎实操的细节)
spark调优场景20min(都是基于实习的场景给我提问题)
MR重启任务从哪开始跑,如果长时间任务(T+2)怎么减少重启对时效性的影响
算法:滑动窗口

总结下来感觉一二面比较重基础,三面比较注重实操和宏观思维吧,但应该也因面试官而异
实习和项目留点不详细的部分能分担不少八股火力
全部评论
佬 方便分享点HR面的内容吗?
点赞 回复 分享
发布于 10-08 15:01 湖北
老哥三面都直接考场景实操了吗,实习过程中都接触过嘛?咱都没经历过这些经验诶
点赞 回复 分享
发布于 10-09 16:38 湖北
老哥 一面这个指标加工怎么理解
点赞 回复 分享
发布于 10-18 11:11 北京

相关推荐

全流程介绍:在BOSS上投的简历,第一天投第二天约一面(约到了两天后)当天HR通知我顺利通过面试,问我什么时候约二面,于是我就约到了当天晚上。当天二面完后半小时后HR通知二面顺利通过,说需要加一轮技术面,问我什么时间合适。当时已经周五,所以三面约到了下周一。周一上午面完三面,下午HR通知顺利通过,问我什么时候有时间参与下HR面。于是约到了三面的当天晚上。面试官表示两个工作日之内会收到offer。不得不说字节的HR效率是真的高,借此机会我将自己一二三面做整理;以来是有个记录、二来希望可以帮到之后的兄弟姐妹们。  1、自我介绍    讲了一下自己的当前情况,介绍了一下对大数据开发两个方向上的理解;介绍了下自己的一段滴滴实习经历+自己写的项目。表示了自己会有写技术博客的习惯,取得了4W+阅读量此外粉丝量也即将达到2K人。  2、深挖两个项目 - 大部分时间    面试官对实习经历特别感兴趣,我提到了几个亮点:Spark调优+物化视图中间层建设+实时数仓经历,都被扒了个底朝天。此外面试官还会根据你写的项目来问你八股的问题,比如我分布式文件系统的项目,他问我使用什么数据结构来存储元数据的,我回答说HashMap,于是他就问了HasMap的底层原理。(大家在准备的时候一定要好好准备)  3、计算机网络中:在地址框输入域名后到页面展示经过了什么?    绝了,还好考研的时候学过没忘哈哈哈  4、Bloom Filter与BitMap    巧了,虽然BitMap没接触过,但是Bloom Filter在学习HBase的时候学过,所以答得还可以。作用、存在什么问题..应用场景等等。  5、HashMap底层原理    刚好复习到了这个知识点,因为上一次找实习的时候,当时是第一次面试,美团面试官也是根据我的项目问出了这个题。(所以说大家一定要好好准备项目相关八股)。  6、StarRocks中的表模型    提前准备了,面试的时候往这上面引导,面试官顺理成章的问了,我也顺理成章的答了出来。  7、StarRocks如何实现更新 (读时更新、写时更新)    这个地方不是很了解,面试官跟我讲了一下:Merge-on-Read和Merge-on-Write  8、StarRocks中的关联方式    这里答了出来,但是没答全;面试官同样跟我讲了一下;全程和蔼,可以让面试者很轻松自信。  代码题 ;动态规划,最小子数组和问题    没什么好说的,给我简单爽了。  面试时长55分钟,很无奈我找到是数仓实习,这个岗位却是做计算引擎开发(属于后端开发范畴);本来以为凉了,但是面试官表示开发技术不是问题,进去之后会进行培养。在这里给自己的CSDN打一波广告,欢迎大家参考!:   https://ansentai.blog.csdn.net/
查看9道真题和解析
点赞 评论 收藏
分享
数开面试题使用的hive,tez计算引擎1.如何建模、以及数据开发过程中需要注意的问题(数据探查、数据开发、数据质量监测、数据核对)2.页面数据有问题、如何排查3.抽数、推数数据量异常如何自动停止任务(要有工作日、非工作日的判断,非工作日不生效,UDF函数)4.hive表生命周期管理失效,如何进行生命周期管理(设成自动任务的话可能会使用shell脚本)(3个月前每月保留第一天与最后一天的数据,注意是业务时间第一天与最后一天,非调度时间)5.数据量大的表推数慢影响页面展示怎么解决6.根据2个日期计算工作日天数7.去重方式(开窗函数如何控制窗口的大小)8.列转行(清洗、分隔符统一、注意有些业务数据(比如一条数据楼栋面积字段(可能是总面积)对应多个房屋或多个楼栋)、LATERAL VIEW explode)9.明细表数据量大,每月还要都保留一份,怎处理?怎么优化?达梦分区(范围分区、哈希分区、列表分区、组合(多级)分区、间隔分区(属于范围分区)INTERVAL <间隔表达式>)10.更新数据效率更高的方式update采用的类似nested loop的方式,对更新的每一行,都会对查询的表扫描一次;merge into这里选择的是hash join,则针对每张表都是做了一次 full table scan,对每张表都只是扫描一次。11、筛选的时候in(不适合B大)、exists不适合B大)、join的底层以及效率12.常用的分析函数13.连续3天及以上连续出现的次数(减序号) #实习#  #校招#  #大厂#  #数开#  #数仓#
查看13道真题和解析
点赞 评论 收藏
分享
10 28 评论
分享
牛客网
牛客企业服务