字节Data大数据开发暑期实习面经

一面3.11
自我介绍
Spark SQL
Spark AQE
spark和mr的区别
宽窄依赖 和 会触发宽窄依赖的算子
Hadoop组件
HDFS读写流程
数仓分层
两个建模理论
窗口函数的范围
三个排序聚合函数
SQL题

二面3.14
自我介绍
Hive和Spark的区别
数仓分层
算法题
最大利润买卖股票 买卖一次和无限买卖
你的优点缺点

三面3.19
算法题
有序数组中求某个数出现的次数

讲讲你自学的知识
最近有看过哪些技术类书籍
聊聊书中不好理解的部分
为什么想做数仓
成绩咋样
平时喜欢干什么
未来的学习计划

HR面3.25
当天下午发offer

一面录音没录上,靠着记忆写的。感觉字节hc还是挺多的。
全部评论
暑期实习要求是立马到岗吗
点赞 回复 分享
发布于 03-31 00:50 湖北
好厉害
点赞 回复 分享
发布于 03-31 09:18 广东
请问大佬算法题是本地用acm模式写嘛
点赞 回复 分享
发布于 03-31 09:19 广东

相关推荐

更新,当天下午六点约HR面4.1号  HR面完当晚面试官加微信口头通过(下图)发面经攒下人品哈,今天刚面完, 不知道结果咋样,等后面流程吧排版方面后续还会整理,最近比较忙先把问题放出来给准备的同学,目前排版比较乱还请谅解一面3月11日 晚上7七点 , 预定时间是 45min  实际面了一个小时, 面完20min左右收到了二面的邀请前面的问题总体突出一个场景为什么选择大数据 这个岗位了解哪些大数据组件hdfs 中的文件存储格式Yarn 的几种调度策略你知道Hadoop 的具体业务场景吗 实际中是怎么搭建并使用的   问了hive与hdfs的区别hive的内部表和外部表用hive删除一个表 具体发生了那些流程么      sql题目:文章id    类型type   作者author第一问找出  不同类型的 文章有多少第二问   找出不同类型的作者有多少 一开始用的是  select type, count(distinct author) from t group by type,面试官说没问题,然后问我 有没有优化方案  我说有后来又写了一个比较难的sql(只是比方才那个难但也不是很难)网页url  点击时间    还有一些用不到的字段  让找出每个网页的最新点击时间算法题: 两个列表找相同元素(不得不提一嘴数开这个岗位对算法要求真的低)面试官最后对我的评价是  能力不错,就是缺乏具体的业务场景经验  后面就是反问了反问之前还问一句:  手上事情少时怎么做, 手上忙不过来了怎么办然后问了我一句 我以为只有小公司才会问的问题 给我3个任务 都挺紧的 ,都要这个周末交,这个任务量是完全超出我的能力的,这种情况下你会怎么做 反问先问了base如果我要进入这个岗位的话,我需要在哪些方面再好好准备一下及学习的建议关于岗位的一些内容,具体做什么用什么技术栈等等面试结束20 分钟约二面3月24 号 二面  东北老哥面的    老哥中间出差时间隔得比较久总体: 问的很细,很深 ,问底层,问这么做的原因自我介绍就感到强大的压力: 你介绍一下你大学期间 上过的这些课,或者看过的书, 参加过的比赛或者做过的这些项目等等这些 里面和大数据相关的 有哪些技术,围绕着这些来详细讲一讲吧(总之别人问自我介绍就是说 自我介绍一下吧, 这次加了一个超长的前缀,他说完我突然感觉我根本没那么多可讲的)业务方面:  对于需求方最重要的是什么? 交付方最重要的是什么范式建模  和 维度建模 相关的差异性, 区别 ,适用场景范式建模怎样保证数据一致性的提到维度建模 先想到  哪三个关键词?  (维度表事实表,还有一个是什么?)问了怎么去设计一个维度表,从什么方面去考虑范式建模  维度建模  在 olap  oltp  有什么 好处/弊端  hadoop一开始只有两个部分,hdfs 文件存储系统和MapReduce计算引擎, 在hadoop 某个更新的版本加了Yarn , 解决什么问题?  MR 和  后来的一些计算引擎 比如spark 什么的就主要是 shuffle为重点吧,那你解释一下 mapreduce 的shuffle 都发生了什么过程,我指的是 reduce之前的shuffle  partition 分区是怎么决定数量的, 或者什么时候决定的数量       用java 写MR 程序时 分区那里 继承子类对象时 就做了一个事是什么?(哈希取模)reduce拉取之前为什么要 合并? 不合并行不行 ? spark刚刚发行的那个版本 比 mr 快的 两个最主要的原因   :   关于数据倾斜 我们也是经常提,  有三种方案, 第一种是 方案本身和数据倾斜没有关系但是能 缓解数据倾斜带来的问题, 第二种是hive相关的一些参数的配置了解  第三种是spark里面怎么处理数据倾斜的sql题:找互关的人提前说了这是在大数据的范畴中,要考虑性能(暗示不要用大表join)from_id   to_id   1              2   2              1   3              4   4              5反问环节问了业务还有该怎么学这些,面试官给我推了一本书,这里我也给没看过的同学推荐一下,叫  kimball的维度建模  ,这本书在行业内几乎是指导教材一样的地位了,可我只是第一次听说 大概看了一下前面好多回答不上来的在这本书里都有答案最后的时候说因为这是带转正的所以按的是校招的标准,不然我也不会问这么严(他好像知道自己问的很难),暗示要好好准备三面 面了两个小时多,我感觉不光是我身边没有,这在网上都算是很长时间的面试了,高强度拷打,面完之后脑袋都感觉懵懵的当天下午三点一直面到五点多,第二天晚上快十一点 通知我二面过了  约三面,中间一度以为自己凉了3.27     部门主管  三面自我介绍未来职业规划数据库事务,二范式三范式是怎么实现的搭建过集群吗? 搭建集群的时候遇到有什么问题数据结构 如  队列,栈,堆链表这些hive 和spark 引擎的区别mapreduce 执行流程算法题  手写快排 + 二分查找变种写完算法后问了各个排序的时间复杂度又问了怎么计算时间复杂度和空间复杂度总体30min差不多,很简短整体流程就是 他问一句  我说一堆  听完后他点点头 然后问下一句我又说一堆 三面比二面简单太多,问的东西都答下来了,面试官很和蔼,感觉有戏字数原因先写这么多,本来想把当时所有回答都带上的,目前没那么多时间整理, 需要的可以私信我,有详细介绍当时的回答和正确的回答许愿OC,球球了
点赞 评论 收藏
分享
#牛客AI配图神器#上来自我介绍,个人信息、在校所学专业、毕业时间、为什么学习大数据。询问出生年份。(没懂为什么专门问这个)介绍项目,离线数仓的五层是怎么设计的,DataX做首日的全量采集、Maxwell做后续每日的增量采集,Flume传输数据,Kafka起缓存作用,解耦各个组件。大数据竞赛拿了全国一等奖,那么这个竞赛中做的是什么业务?学校主修课是什么,大数据是否是自学?介绍一下简历中的离线数仓。说一下Maxwell的底层实现原理。讲一下Hive On Spark引擎的特点。介绍一下简历中的实时数仓。说一下checkpoint机制和精准一次。Docker的常用命令。Doris需要更新数据吗,怎么更新数据的,是用update吗?Doris在项目中的作用。Kafka的偏移量需要手动维护吗。项目的数据来自哪里,是真实的数据吗?数据量有多少,能达到什么级别,有一亿条数据吗?HBase在项目中是怎么使用的,为什么维表存到HBase中?为什么没有存到Redis中?FastJson了解吗,说一下。SpringBoot的拦截器和过滤器的区别。现在是否在校?反问工作压力大吗?公司有食堂吗?(我在想没食堂 可以买拼好饭吃😋)刚才回答的内容还算可以吗?(面试官:回答得没问题,学生能学到这个程度,已经可以了)写面经攒人品,希望能一把过#数仓面试##数据开发##数仓开发#
查看19道真题和解析
点赞 评论 收藏
分享
评论
4
26
分享

创作者周榜

更多
牛客网
牛客企业服务