2023-05-09 20:06 南京理工大学大数据开发工程师

关注

美团数据一面凉经

面了很久，有100分钟，面试官很认真。
介绍项目
MR的shuffle流程
数据倾斜怎么处理，实际处理过数据倾斜吗（我特老实，我说我没有）
spark的宽窄依赖，为什么要划分stage
抽象类和接口的区别
hive的四种排序（简历也没写hive，为啥逮着我问）
问了mysql相关
我简历上所有的组件问了个遍，redis spring druid mybatis，可我当时没准备，就没答出来。。。
设计模式，我巴拉巴拉了一通单例，面试官直接让我说工厂和建造者的区别，不知道建造者。。。
做数据处理最深的感受
项目遇到的困难怎么解决的
两道编程题：一道滑动窗口的，一道sql的。我sql不熟练，面试官还帮我改sql，真是个好人。

总结：
面试官人真的很好，很耐心，很感谢他，我学到了很多东西。

全部评论

推荐最新楼层

耳机分你一半

烟台大学后端

这是什么岗位的面试？

1 回复分享

发布于 2023-05-10 10:57 山东

赶不到末班车

兰州大学后端

面试官大概有几个？

点赞回复分享

发布于 2023-05-10 10:48 甘肃

69岁扶墙写python

门头沟学院数据分析师

这是大数据开发？

点赞回复分享

发布于 2023-05-12 17:37 上海

03-12 20:59

已编辑

门头沟学院数据分析师

Hive数据倾斜：解决这个高频痛点，让您在面试中脱颖而出

一、什么是 Hive 数据倾斜？定义与表现定义在 Hive 中，数据倾斜指的是数据在分区或键值上的分布严重不均，导致某些分区或键承载的数据量远超平均水平。这种不平衡会直接影响 MapReduce 任务的执行效率，尤其是在 Reduce 阶段，少数任务可能需要处理巨量数据，而其他任务却几乎无事可做。说得更直白点，想象你在分担工作：本来应该大家平摊，结果有个人揽了 90% 的活，其他人却闲着。这种场景在 Hive 里就是数据倾斜 —— 某些 Reduce 任务成了 “苦力”，拖慢了整个查询。表现形式数据倾斜的 “症状” 很明显，稍微留心就能发现：查询执行缓慢：本来几分钟能搞定的查询，可能拖到几小时...

大数据从入门到精通-最全...

点赞评论收藏

分享

02-22 21:14

天津机电职业技术学院大数据开发工程师

滴滴数据工程

1.自我介绍2.为啥字节离职3.简单讲讲字节的链路4.BMQ和Kafka的区别5.spark的submit过程6.数据倾斜如何解决7对于数据平台和数据仓库的理解#滴滴##字节跳动##阿里巴巴#

查看7道真题和解析

点赞评论收藏

分享

03-11 22:33

已编辑

华中师范大学大数据开发工程师

万兴科技_数开实习_一面

- 全程项目拷打，基本上没有八股- 腾讯会议，开视频## 面评- 知识面太窄了- 工作职责太少了- 流程不熟悉- 基础知识：组件原理、优化方式## 项目- 整个项目的流程是怎么样的- 讲一下整个项目的技术栈  - 数据同步用的啥  - Hive on Spark吗  - 数据可视化用的啥- 日志数据有什么- 某个业务这个行为是作为一个什么数据参与到项目中的  - 日志吗- 业务数据量有多大- 日活月活- 该ads表有什么数据项，dws表-dwd表-dim表的数据项- 讲一讲我负责的指标  - 指标业务逻辑  - 指标在业务背景是什么样的（合理性）  - 指标场景质疑- 有哪些数据域、主题域- 有没有用过云数据库- DolphinScheduler的处理过程  - 我们做ads指标是自己去写的脚本吗  - 怎么写的---都没有问sql实现逻辑## 八股- 数据倾斜给我出了一个场景：groupby的时候出现倾斜  - 我提了join倾斜情况- map join怎么处理小表太占内存，把内存挤爆的问题

查看42道真题和解析

点赞评论收藏

分享

03-06 19:13

美团_数据开发(实习员工)

腾讯PCG-数据工程一面

1.  简单介绍一下项目2.  在中间层建设中遇到过什么问题3.  数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态4.  拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题5.  用的什么计算引擎,sql在spark上怎么执行的6.  spark的提交流程7.  uv和pv的含义,计算uv在spark上的运行原理8.  MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优9.  sql转ast是怎么转的10. ast做逻辑执行计划优化做了哪些11. 逻辑执行计划和物理执行计划大概有什么区别12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)13. 不同数据类型join为什么导致数据倾斜14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的15. 加随机数打散,两阶段聚合怎么做的16. new一个线程怎么做,thread和runnable的区别是什么17. java集合类用过哪些(说没怎么用过java,就没再问了)18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的19. sql中所有关键字的执行顺序20. a join b where条件写在join里面和join外面 有什么区别21. 4道sql22. 一道mid算法做的是计算引擎调优，一直在问spark底层，顶不住顶不住。当晚挂...

查看20道真题和解析

点赞评论收藏

分享

03-11 22:32

已编辑

华中师范大学大数据开发工程师

字节_数开实习_一面

- 飞书面试间，在飞书上撕代码- 问了很多计算机基础八股，痛击薄弱点## 八股- 讲一讲线程池- Java实现线程的几种方法，有什么区别- 线程池的具体参数- 进程和线程的区别- java中如何控制进程内存- 讲一讲数据库的事务是什么- 讲一讲数据库中的锁有哪些- 讲一讲对索引的理解- 如何存储索引的- B树和B+树存储索引的区别- 相同数据量下，B树和B+树哪一个查询更快- http和https- 讲一讲TCP- 讲一讲Hive里有哪些数据格式，有什么区别- HDFS读写流程- 有用过Spark中的什么算子- 解释转换算子和行动算子的区别- Spark中的Stage如何划分的- groupBy 和 reduceBy 的区别- 讲一下数据仓库是什么## 项目- 我们的项目数据量多大- 团队组成- 我们的指标是如何变成报表的- 有遇到什么问题吗：讲的groupby的数据倾斜  - 如何解决数据倾斜的：局部聚合+全局聚合  - 怎么具体实现的：加随机前缀，这个前缀是什么，用什么加的，之后怎么消除的## 算法- DP：[322. 零钱兑换]*******************************************

查看53道真题和解析

点赞评论收藏

分享

评论

2

7

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习要如何选择和准备？ #

5784次浏览 201人参与

# 牛友打假中心 #

31281次浏览 2287人参与

# 携程求职进展汇总 #

200028次浏览 1687人参与

# 字节求职进展汇总 #

701505次浏览 7139人参与

# 正在实习的你，几点下班 #

93443次浏览 671人参与

# 美团求职进展汇总 #

1603495次浏览 14408人参与

# 讲讲我的真实离职原因 #

32363次浏览 619人参与

# 满分简历要如何准备？ #

10697次浏览 228人参与

# 我想去国央企的原因 #

52549次浏览 315人参与

# 面试被问第一学历差时该怎么回答 #

103081次浏览 650人参与

# 通信硬件2023笔面经 #

30203次浏览 230人参与

# 德州仪器求职进展汇总 #

2820次浏览 135人参与

# 工作两年想退休了 #

97425次浏览 1028人参与

# 用表情包形容我的2023 #

6650次浏览 46人参与

# 牛客十周岁生日快乐 #

103828次浏览 1380人参与

# 读研or工作，哪个性价比更高？ #

38790次浏览 583人参与

# 你觉得哪一届的校招最难？ #

158441次浏览 1284人参与

# 稳定和高薪机械人更看重哪个？ #

420072次浏览 5286人参与

# 满帮集团求职进展汇总 #

2322次浏览 52人参与

# 我心目中的理想工作是这样的 #

53125次浏览 736人参与

# 扒一扒那些奇葩实习经历 #

15582次浏览 543人参与

牛客网
牛客企业服务