游戏魔王向晚

03-28 10:01 中南大学数据库工程师发布于湖南

关注

字节Data大数据开发暑期实习面经

一面3.11
自我介绍
Spark SQL
Spark AQE
spark和mr的区别
宽窄依赖和会触发宽窄依赖的算子
Hadoop组件
HDFS读写流程
数仓分层
两个建模理论
窗口函数的范围
三个排序聚合函数
SQL题

二面3.14
自我介绍
Hive和Spark的区别
数仓分层
算法题
最大利润买卖股票买卖一次和无限买卖
你的优点缺点

三面3.19
算法题
有序数组中求某个数出现的次数

讲讲你自学的知识
最近有看过哪些技术类书籍
聊聊书中不好理解的部分
为什么想做数仓
成绩咋样
平时喜欢干什么
未来的学习计划

HR面3.25
当天下午发offer

一面录音没录上，靠着记忆写的。感觉字节hc还是挺多的。

全部评论

推荐最新楼层

牛客861513826号

门头沟学院大数据开发工程师

暑期实习要求是立马到岗吗

点赞回复分享

发布于 03-31 00:50 湖北

我要offer打牌

华南师范大学大数据开发工程师

好厉害

点赞回复分享

发布于 03-31 09:18 广东

我要offer打牌

华南师范大学大数据开发工程师

请问大佬算法题是本地用acm模式写嘛

点赞回复分享

发布于 03-31 09:19 广东

03-26 14:16

哈尔滨工业大学 Java

字节跳动 | 抖音支付暑期实习面经（一二三面）

一面（技术面）自我介绍后直接进入算法题：算法题：对折链表（如1→2→3→4→5输出3→2→4→1→5）这题在山羊算法训练营的链表专题里专门讲过，训练营老师教我们先用快慢指针找中点，再反转后半部分最后合并，思路特别清晰！八股环节：Redis主从复制原理Redis跳表实现TCP半连接状态（三次握手时的SYN_RECV状态）TCP滑动窗口原理多线程安全方案（锁、CAS、ThreadLocal等）Java Future作用分代GC原因（新生代老年代区别）MySQL脏读/幻读及解决方案MVCC原理行锁/间隙锁实现SQL题：求学生总成绩TOP5（GROUP BY+SUM+ORDER BY+...

查看18道真题和解析面试中的破防瞬间如何判断面试是否凉了

点赞评论收藏

分享

04-01 20:13

已编辑

华北电力大学大数据开发工程师

字节大数据暑期面经

更新，当天下午六点约HR面4.1号  HR面完当晚面试官加微信口头通过（下图）发面经攒下人品哈,今天刚面完, 不知道结果咋样,等后面流程吧排版方面后续还会整理,最近比较忙先把问题放出来给准备的同学,目前排版比较乱还请谅解一面3月11日 晚上7七点 , 预定时间是 45min  实际面了一个小时, 面完20min左右收到了二面的邀请前面的问题总体突出一个场景为什么选择大数据 这个岗位了解哪些大数据组件hdfs 中的文件存储格式Yarn 的几种调度策略你知道Hadoop 的具体业务场景吗 实际中是怎么搭建并使用的   问了hive与hdfs的区别hive的内部表和外部表用hive删除一个表 具体发生了那些流程么      sql题目:文章id    类型type   作者author第一问找出  不同类型的 文章有多少第二问   找出不同类型的作者有多少 一开始用的是  select type, count(distinct author) from t group by type,面试官说没问题,然后问我 有没有优化方案  我说有后来又写了一个比较难的sql(只是比方才那个难但也不是很难)网页url  点击时间    还有一些用不到的字段  让找出每个网页的最新点击时间算法题: 两个列表找相同元素（不得不提一嘴数开这个岗位对算法要求真的低）面试官最后对我的评价是  能力不错,就是缺乏具体的业务场景经验  后面就是反问了反问之前还问一句:  手上事情少时怎么做, 手上忙不过来了怎么办然后问了我一句 我以为只有小公司才会问的问题 给我3个任务 都挺紧的 ,都要这个周末交,这个任务量是完全超出我的能力的,这种情况下你会怎么做反问先问了base如果我要进入这个岗位的话,我需要在哪些方面再好好准备一下及学习的建议关于岗位的一些内容,具体做什么用什么技术栈等等面试结束20 分钟约二面3月24 号 二面  东北老哥面的    老哥中间出差时间隔得比较久总体: 问的很细,很深 ,问底层,问这么做的原因自我介绍就感到强大的压力: 你介绍一下你大学期间 上过的这些课,或者看过的书, 参加过的比赛或者做过的这些项目等等这些 里面和大数据相关的 有哪些技术,围绕着这些来详细讲一讲吧(总之别人问自我介绍就是说 自我介绍一下吧, 这次加了一个超长的前缀,他说完我突然感觉我根本没那么多可讲的)业务方面:  对于需求方最重要的是什么? 交付方最重要的是什么范式建模  和 维度建模 相关的差异性, 区别 ,适用场景范式建模怎样保证数据一致性的提到维度建模 先想到  哪三个关键词?  (维度表事实表,还有一个是什么?)问了怎么去设计一个维度表,从什么方面去考虑范式建模  维度建模  在 olap  oltp  有什么 好处/弊端  hadoop一开始只有两个部分,hdfs 文件存储系统和MapReduce计算引擎, 在hadoop 某个更新的版本加了Yarn , 解决什么问题?  MR 和  后来的一些计算引擎 比如spark 什么的就主要是 shuffle为重点吧,那你解释一下 mapreduce 的shuffle 都发生了什么过程,我指的是 reduce之前的shuffle  partition 分区是怎么决定数量的, 或者什么时候决定的数量       用java 写MR 程序时 分区那里 继承子类对象时 就做了一个事是什么?(哈希取模)reduce拉取之前为什么要 合并? 不合并行不行 ? spark刚刚发行的那个版本 比 mr 快的 两个最主要的原因   :   关于数据倾斜 我们也是经常提,  有三种方案, 第一种是 方案本身和数据倾斜没有关系但是能 缓解数据倾斜带来的问题, 第二种是hive相关的一些参数的配置了解  第三种是spark里面怎么处理数据倾斜的sql题:找互关的人提前说了这是在大数据的范畴中,要考虑性能(暗示不要用大表join)from_id   to_id   1              2   2              1   3              4   4              5反问环节问了业务还有该怎么学这些,面试官给我推了一本书,这里我也给没看过的同学推荐一下,叫  kimball的维度建模  ,这本书在行业内几乎是指导教材一样的地位了,可我只是第一次听说 大概看了一下前面好多回答不上来的在这本书里都有答案最后的时候说因为这是带转正的所以按的是校招的标准，不然我也不会问这么严（他好像知道自己问的很难）,暗示要好好准备三面面了两个小时多,我感觉不光是我身边没有,这在网上都算是很长时间的面试了,高强度拷打,面完之后脑袋都感觉懵懵的当天下午三点一直面到五点多,第二天晚上快十一点 通知我二面过了  约三面,中间一度以为自己凉了3.27     部门主管  三面自我介绍未来职业规划数据库事务,二范式三范式是怎么实现的搭建过集群吗? 搭建集群的时候遇到有什么问题数据结构 如  队列,栈,堆链表这些hive 和spark 引擎的区别mapreduce 执行流程算法题  手写快排 ＋ 二分查找变种写完算法后问了各个排序的时间复杂度又问了怎么计算时间复杂度和空间复杂度总体30min差不多,很简短整体流程就是 他问一句  我说一堆  听完后他点点头 然后问下一句我又说一堆 三面比二面简单太多,问的东西都答下来了,面试官很和蔼,感觉有戏字数原因先写这么多,本来想把当时所有回答都带上的,目前没那么多时间整理, 需要的可以私信我,有详细介绍当时的回答和正确的回答许愿OC,球球了

点赞评论收藏

分享

03-20 16:57

京东_大数据开发工程师(实习员工)

【实习面经】爱学习（高斯教育）—大数据开发实习生（暑期）

JD一面 3.3（40min）无自我介绍实习中数仓建模工作的介绍（大概讲了15min）HDFS中副本机制的优点YARN调度的流程如何查看HDFS中的磁盘占用量以及YARN中的资源使用情况MapReduce运行过程中某一个YARN节点挂掉有什么影响说一说对Spark的理解数据同步工具除了Maxwell还用过哪些MySQL有用过吗？联合索引（A,B,C），查询条件中（B,C）是否会生效Redis和MySQL的对比Java中异常处理的方式map和list有了解吗Linux中如何查看一个日志文件中是否存在某个订单号Linux如何查杀进程二面 3.4（40min）个人背景，简单聊聊天实习工作拷打，数仓建...

查看19道真题和解析数据人的面试交流地

点赞评论收藏

分享

03-18 17:20

已编辑

石家庄学院大数据开发工程师

百分点科技-数仓开发-一面面经

#牛客AI配图神器#上来自我介绍，个人信息、在校所学专业、毕业时间、为什么学习大数据。询问出生年份。（没懂为什么专门问这个）介绍项目，离线数仓的五层是怎么设计的，DataX做首日的全量采集、Maxwell做后续每日的增量采集，Flume传输数据，Kafka起缓存作用，解耦各个组件。大数据竞赛拿了全国一等奖，那么这个竞赛中做的是什么业务？学校主修课是什么，大数据是否是自学？介绍一下简历中的离线数仓。说一下Maxwell的底层实现原理。讲一下Hive On Spark引擎的特点。介绍一下简历中的实时数仓。说一下checkpoint机制和精准一次。Docker的常用命令。Doris需要更新数据吗，怎么更新数据的，是用update吗？Doris在项目中的作用。Kafka的偏移量需要手动维护吗。项目的数据来自哪里，是真实的数据吗？数据量有多少，能达到什么级别，有一亿条数据吗？HBase在项目中是怎么使用的，为什么维表存到HBase中？为什么没有存到Redis中？FastJson了解吗，说一下。SpringBoot的拦截器和过滤器的区别。现在是否在校？反问工作压力大吗？公司有食堂吗？（我在想没食堂 可以买拼好饭吃😋）刚才回答的内容还算可以吗？（面试官：回答得没问题，学生能学到这个程度，已经可以了）写面经攒人品，希望能一把过#数仓面试##数据开发##数仓开发#

查看19道真题和解析

点赞评论收藏

分享

03-30 11:32

已编辑

网易_数据开发工程师

群友分享美团数据实习面试题（问的都是数据质量相关）

最近群里有同学找实习被某大厂问到数据基线和sla提效的问题， 在我的简历中，说到了数据基线和sla提效的问题，被问到了是怎么提效的？ （1）基线排查问题：首先点开基线，基线有个甘特图，点开后会展示每一个任务的运行时间，知道末尾的节点，及运行时长，因此可以定位它每一段到底哪个任务运行时间最长，在哪个任务卡住，甚至还能发现，部分任务中间有间隔（例如任务定时7点执行，但上游5点执行结束，导致2小时浪费），先定位各任务样貌。 （2）同步任务运行时间过长：在梳理完基线后，由于数据表是全量同步，因此发现同步数据花了近3小时，同时dwd也保持全量读取，因此都会导致数据变慢，可以对任务进行全量改...

数据人offer决赛圈怎么选数据人的面试交流地

点赞评论收藏

分享

评论

4

26

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 滴滴求职进展汇总 #

168197次浏览 1659人参与

# 你觉得材料专业有必要实习嘛 #

10441次浏览 51人参与

# 美团求职进展汇总 #

1916800次浏览 17784人参与

# 找工作有哪些冷知识 #

6844次浏览 106人参与

# 应届生应该先就业还是先择业 #

92766次浏览 566人参与

# 德州仪器求职进展汇总 #

4436次浏览 139人参与

# 实习期间如何提升留用概率？ #

19542次浏览 296人参与

# 小米硬件提前批进度交流 #

161476次浏览 1503人参与

# 应届生简历当中，HR最关注哪些？ #

28284次浏览 220人参与

# 互联网公司爆料 #

109704次浏览 649人参与

# vivo工作体验 #

18068次浏览 116人参与

# 牛友投递互助，不漏校招机会 #

263946次浏览 3653人参与

# 机械人避雷的岗位/公司 #

9039次浏览 51人参与

# Offer比较，你最看重什么？ #

139958次浏览 886人参与

# 机械人晒出你的简历 #

68504次浏览 600人参与

# 小鹏汽车工作体验 #

6412次浏览 42人参与

# 通信/硬件求职避坑tips #

47925次浏览 450人参与

# 双非能在秋招上岸吗？ #

205844次浏览 1066人参与

# 机械人，说说你的烦心事 #

58716次浏览 796人参与

# 扒一扒那些奇葩实习经历 #

21217次浏览 600人参与

牛客网
牛客企业服务