字节大数据开发一、二、三面

我投的是上海的抖音data部的,以面试来看应该是数仓开发的,两面问了好多数仓的知识。不过也是基于简历面的,面试体验很好。
2020.09.21 一面(40min)
1. 自我介绍
2. 聊项目
3. 聊数仓理论,聊mr的细节,Hadoop的一些细节。(这块聊的大概25min)具体问题都是慢慢衍生出来的,而且是场景加问题,具体字面描述我也不出来。
4. 两题SQL题目:一题是算全年级总分排名前三的学生;另一个算每个班级总分前三的学生(两题用的同一个表)
5. 讲一下第一题的mr的过程。
6.因为第一题用到了order by,问我如果改良,因为order by是全排序。
7. 反问环节
总结:字节的面试很考验一个人的综合能力,跟我面试的几家公司不太一样。其他公司都是条条框框的问题,比如hive数据倾斜啦、spark rdd这种。字节的问题都是围绕项目带出来的,真的吃透简历很重要。
--------------------------------------------------------------
然后一面完了之后被告知不要离线,一会二面。原来一面面试官是北京的负责人,二面把我转到上海这个部门的负责人来了。
2020.09.21 二面 (50min)
1. 自我介绍
2.项目
3. 围绕项目开始问数仓的理论,然后问了spark的一些场景问题,如何解决。我只记得说如果产生大量小文件,会导致什么问题?然后继续问,如果用户一直对HDFS创建小文件,怎么解决?(我回答的是联邦机制,然后面试官说不太对,有没有其他的办法)
4. spark shuffle频繁失败怎么办?有什么好的解决办法?(我回答的是利用cache以及checkpoint机制)
5. MySQL索引。
6. B+Tree在频繁写的场景里适合么?为什么?
7.那读场景呢?
8. MySQL的join类型?不是什么left join这种!我说我记不太清了,我说我大概指的hive join的类型,然后面试官就跟我聊起hive join的类型了。
9. hive join类型的shuffle和sorted merge的优劣?
10. 两题SQL题目。第一题找出关注列表中的关注对(很常见的,就是两表join);第二题找出3分种内连续登录次数超过3次的所有用户的id(表两个字段分别是用户id和登录时间)这题我没写出来
11. 反问
总结:二面跟一面的风格很像,主要围绕简历以及数仓这块问。然后最大的痛点就是第四题SQL没写出来,我感觉以字节的要求我应该是凉了。不管怎么样,这次面试让我学到东西了。依然想许愿后续的面试!!!
-----------------------------------------------------------------------
2020.09.22 三面 (30min)
1.自我介绍
2. 项目
3. sqoop的缺点?
4. 如果MySQL中有数据被频繁更新,使用sqoop导入到hdfs上,看不到状态更新的过程,如何解决该问题?
5. 算法题:两个栈实现队列
6. 平时除了在项目中锻炼自己的实操能力,还有其他什么途径么?
7.场景题:大数据下的浏览量、点赞数等指标的更新,要支持高并发查询。说一下的你的设计思路。
8. 反问
总结: 我好慌,不知道为什么三面30min就结束了。面试体验很棒,面试官会指导问题。依然想许愿后续的面试!!!
#字节跳动##面经##校招##大数据开发工程师#
全部评论
楼主你好,请问你是实习、校招还是社招?
点赞 回复 分享
发布于 2020-09-21 16:26
没手撕算法呀,这很不字节😂
点赞 回复 分享
发布于 2020-09-21 17:09
楼主你好,你可牛了大*了!
点赞 回复 分享
发布于 2020-09-30 10:56
嘎的宾  nbbbbbbbbbbbbb~~~~~~~~~~~~
点赞 回复 分享
发布于 2020-09-30 10:57
老哥,,不知道你还看不看牛客了。。要是能看到的话,想问问您场景题:大数据下的浏览量、点赞数等指标的更新,要支持高并发查询。说一下的你的设计思路。。这个应该怎么回答哇。。。
点赞 回复 分享
发布于 2022-08-30 18:47 吉林

相关推荐

不愿透露姓名的神秘牛友
09-27 21:32
阿里巴巴 后端前端测试算法 0 大专
点赞 评论 收藏
分享
9.12 一面结束后半小时飞速约了二面,9.14 二面- 自我介绍- 为什么读研- 为什么转专业- 你对大数据的理解- 介绍一下实习组内的分工、数仓架构- 以商品域为例,数据的模型/表有哪些,从哪些角度评价数据模型- 你们组具体的宏观的业务流程- 具体是怎么和其他部门协作的,流程是怎么样- 你是怎么理解数开的工作的,你个人的偏好是哪方向- 数据库的范式、事务- 范式建模、维度建模对比,适用具体场景- 你了解哪些排序算法,详细讲讲冒泡排序和快速排序- 对于小规模的数据比如学校成绩表、课程表等等建设数仓是否一定要使用维度建模- 看你写了 kimball 的维度建模,你对维度建模的理解- MR 流程- MR 的并行度是由什么决定的- 一个场景:两表Join,然后 group by 计算指标,写入一张表,这种场景可能会出现哪些潜在的问题- 你有很多任务优化的经验,你的具体思路是怎样的- 你之前谈到的数据质量,具体包括哪些,如何去实现的,以及如何量化- 你了解 Doris,ClickHouse 之类的 OLAP 引擎吗,和 Hadoop、Hive、Spark 这些有什么区别,具体场景是哪些- 你目前的秋招进度是怎样的,投了哪些公司- 没做题- 反问环节:业务、数仓架构、技术栈等
点赞 评论 收藏
分享
1.自我介绍2.实习介绍3.实习工作内容下游使用方主要有那些?4.AI团队数据支持 他们使用这个数据做的什么5.除了对表的支持之外,是否在计算层面做过一些优化6.boradcast join和sortmergeJoin的区别和 使用场景的不同然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这里全程拷打实时7.FLink窗口30s 步长5s 窗口触发的时间是在5s触发还是30s之后触发8. 如果说这个任务是从checkpoints恢复出来的 那他第一次是在5s之后触发还是30s9.Flink 之中窗口的计算大多时候会导致整点进行触发(有可能导致很多不同的任务再同一个时间段使用资源导致资源紧张),你如何避免窗口不在整点进行触发呢10.Flink的状态有哪些11.valueState 和 keyState的区别  这一步回答的不太好,说想问的是这两个在使用场景上的不同12.上游是kafka 中间存在shuffle,晚高峰出现lag 你该怎么解决 说的提高并行度13.如果是kafka单个partition导致的lag 你该怎么解决呢 回答的窗口触发计算使用预聚合、kafka提高分区数 进而让下游Flink也提高并行度,回答的貌似不太满意,之前一直做的离线,实时确实不太会14 kafka如何保证的数据不重复且不遗漏15 kafka那些手段保证了吞吐量这么大后续开始拷打计算机基础,os和计算机网络一点没复习,心理更凉了16 操作系统进程通信有哪些方式    说了有管道和SharedMemory这几种17 是否了解SharedMemory的实现18 socket是否有了解 说了下socket以及spark使用netty这种通信架构19 netty 在spark怎么使用的20 close wait状态的理解这里计网和os回答的不太好,开始怀疑是否是计算机科班出身21 java的HashMap底层如何实现的22 HashMap的数组能使用arraylist来实现吗23 二叉树的锯齿状遍历(需要自己构建TreeNode和输入输出)自己写了20分钟 写了个reverse的版本,面试官不满意,最后口述了个双端队列的思路(减少reverse的遍历)感觉这轮面试又G了,我不知道这是不是字节的正常难度,每次面试字节都是高强度拷打,有点自闭了
查看16道真题和解析
点赞 评论 收藏
分享
12 72 评论
分享
牛客网
牛客企业服务