字节大数据开发暑期实习面经

从来没有准备过数据研发的面试,仅仅是工作中有接触过一些大数据处理的工具,是HR那边捞的简历联系的面试。面试下来感觉自己的技术栈有点不匹配,但面试官很好人,一直在引导。
Timeline:5/12一面,5/20二面,5/23三面,5/24 HR面,当天会通知结果。本来通过了,但HR说我可实习时长不足4个月,最后没发offer。

一面 (5/12, 1h)
1. 自我介绍
2. SQL里select语句执行的顺序
3. 介绍SQL里的不同join
4. HiveSQL orderBy和sortBy的区别
5. 会用linux吗,常用的linux cmd有哪些,追问除了sh还有哪些运行shell脚本的方法
6. Hive和传统数据库的区别有哪些,为什么Hive修改小量数据会影响很多行数据
7. 现场笔试,算法题真的是我的短板。。
- 一题SQL,某天观看视频数最多的前五名用户及其看的unique视频数
这里开始写的时候用了count(distinct)和group by,被面试官提醒之后才改为用了两次group by做出来。有被问到count(1)的含义。
- 单链表折叠
不会。。。
- 回型打印二维数组
说出了正确思路,但代码没写出来。。。参见leetcode螺旋矩阵题解

过了1天很快通知进入二面,约了5/20二面。

二面 (5/20, 1h)
1. 自我介绍
2. 介绍最近做的点击率预估的项目
为什么用“Jieba"分词,了解它提取关键词的算法吗,有对比结巴分词和其他分词的包吗
3. 离线和在线数据的存储有什么区别
4. NoSQL和SQL的区别,适用场景分别是
5. MongoDB适合存流式数据吗(问了之前工作的公司:为什么数据既要存在hdfs上,还要存在MongoDB)
6. 了解MySQL的索引吗,HiveSQL为什么没有索引呢
7. 了解进程和线程吗
8. App里的log数据是怎么存储和分析的呢
9. 做题
两道SQL,行转列,log日志统计
蛇形合并多个列表

面完就通知了三面,约了5/23。

三面 (5/23, 40min)
1. 面试官介绍部门业务
给西瓜视频、头条做数据产品建设,偏内容的数据分析,对内产出策略,开发数据产品并落地。举了一个例子:为什么某些新闻的PV/UV高,给创作者提供insight。或者是帮助做拉新活动,将合适的创作者一步步引导成为达人。
2. 自我介绍
3. 简历项目深挖
- 电商销量预测
有考虑季节性因素吗,比如夏天等
- Yelp评论情感倾向性分析
为什么用LSTM,不用bert
4. 对工作城市的选择有什么倾向
5. 为什么去香港读大学
6. 去CMU交换的经历
7. 上一个公司用的平台,对大数据工具怎么学习的
8. Spark和HiveSQL的区别
9. 反问

HR面(5/24, 20min)
1. 自我介绍
2. 挑简历上的一个项目介绍
- 是否是独立完成的
- 和业务方对接的时候遇到什么困难,怎么解决
- 项目有哪里可以优化的点
3. 平时自己通过哪些途径学习
4. 最近有学习什么新的知识和技能吗
5. 为什么想来字节实习
6. 可实习的时长
7. 目前有哪些公司的offer,在什么地方,怎么考虑优先级
8. 对工作城市的选择
9. 给我介绍了一下通过之后后续的流程


#实习##面经##数据开发工程师##字节跳动#
全部评论
楼主通过了吗
1 回复 分享
发布于 2021-05-23 05:44
可以问下大数据场的笔试是什么题型吗?就是三道编程没有选择或者问答是嘛?谢谢
点赞 回复 分享
发布于 2022-04-29 15:51
楼主三面是主管面吗,有通知什么时候hr面了吗
点赞 回复 分享
发布于 2021-05-24 15:48
我投的数据研发岗,笔试完,一次也没有面
点赞 回复 分享
发布于 2021-05-14 20:05
没有问java相关的知识点吗
点赞 回复 分享
发布于 2021-05-14 19:31
我也是之前投的数分 现在被研发捞了 感觉我不行 就拘了面试
点赞 回复 分享
发布于 2021-05-14 10:55

相关推荐

04-02 14:59
已编辑
吉林大学 C++
财经一面:1.自我介绍2.介绍一个项目3.拷打项目:在项目过程中遇到了什么问题?你提到了火山模型,在执行SQL语句过程中具体怎么用的?死锁检测是什么过程?提到LRU-K,你有没有对此进行一个更深入的学习?除了火山模型,你还知道什么常用的数据库执行模型?4.B+树相对于其他树有什么优势?具体在什么类型的查询中更有优势?5.讲讲C++中队列,vector怎么用,底层是什么,你用的多不多。6.讲讲可扩展哈希。7.讲讲为什么TCP需要四次挥手而不是三次。8.讲讲进程,线程,协程的区别。你打开一个自己编写出来的二进制程序属于哪一种?9.讲讲实习主要做什么,遇到的最大的困难是什么?10.讲讲RU,RC区别,RC可能会遇到什么问题,RR会出现幻读吗?幻读是什么?InnoDB中RR怎么解决幻读的?RR仍然出现幻读是什么情况?索引类型,索引失效的情况有哪些?11.实习中怎么把C++项目改成Python的?会不会导致效率很低的情况?12.手撕,合并两个有序数组。13.能实习多久?我们这边是用Go的,可以吗?14.反问:具体干什么?这个得看分配到哪个组,这只是一面。15.线程池了解吗?财经二面:1.自我介绍2.讲一下常见的排序算法的时间复杂度,最常用哪个,为什么?3.大概说下你的项目,挑一个讲。4.讲一下索引常用的数据结构,对比B+树和可扩展Hash,什么场景用哪个,查找时各自时间复杂度?讲一下事务相关。5.C++11/14的新特性有什么?模板是什么,多态是怎么实现的?虚函数的作用和原理。6.看简历里有提Qt,Qt是什么,常见的库函数有什么?7.为什么做这个课程项目?遇到了什么困难?怎么解决的?读源码了吗?可持久化字典树介绍下。8.实习中遇到了什么困难?怎么解决的?9.讲一下火山模型,对比物化模型和向量化模型一起说。10.对分布式的锁有了解吗?布隆过滤器是干什么的?怎么实现的?11.手撕,最长摆动子序列,做完后问做过类似的题吗?12.底层一点的和互联网这块的更想做哪个?13.用过JAVA吗?14.其他的暑期实习什么进度?15.了解c++网络编程吗?电商复活赛一面1.自我介绍,面试官介绍下要问什么。2.项目拷打。3.介绍下LRU-K,描述下怎么实现LRU和LFU。4.C++面经,jthread相关。5.C++怎么随机生成字符串,不考虑重复的问题下,以定长为10的随机字符串作为索引有什么问题?6.介绍下索引失效的情况有哪些?最左前缀体现在什么情况?结合B+树,谈一谈为什么会有索引最左前缀原则。7.描述下B+树的结构,相比于其他数据库存储结构有什么特点及好处?8.实习。9.计网面经,你觉得TCP的拥塞控制,快速重传在什么场景下会有问题?TCP四次挥手,和UDP的区别。10.Redis结合场景和部分八股。11.什么时候需要建立索引?要考虑哪些因素?12.问是否了解某个技术,完全没印象。13.手撕:寻找二叉树最近公共祖先(提供父节点)
点赞 评论 收藏
分享
评论
9
92
分享

创作者周榜

更多
牛客网
牛客企业服务