在冲浪的比尔很想润

2024-04-25 20:36 中央民族大学大数据开发工程师

关注

美团大数据开发实习

一面——60mins
自我介绍
拉链表的制作，数据量有多少，为什么不用快照表呢
项目有哪些表
数仓分层有哪些，具体做了什么，数仓分层作用
怎么设计表，怎么建模，DIM
DWD层的主题分了哪些
如何做的可视化
什么是数据倾斜，数据倾斜的解决方案
Hadoop和spark的区别
Spark的shuffle流程是怎么样的
对哪些数据库了解
Shuffle有哪几种类型
在shuffle的过程中会进行排序吗，有哪几种排序
什么是快速排序，时间复杂度是多少，手撕快排代码题
Spark是如何划分stage阶段
Spark SQL的执行流程，如何将一个SQL语句转换为任务
宽窄依赖，宽依赖阶段会发生什么
两个SQL题
反问

全部评论

推荐最新楼层

电子科技大学人工智能

面的哪个地方的岗位

1 回复分享

发布于 2024-04-29 17:30 四川

讨厌红楼梦1

太原理工大学大数据开发工程师

你好，是什么部门呀

，SQL用的hive吗

点赞回复分享

发布于 2024-04-25 21:02 山西

中央民族大学 Java

问一下大佬，sql题大概是什么呀

点赞回复分享

发布于 2024-04-25 21:34 北京

再也不喝可乐了

门头沟学院大数据开发工程师

佬是已经oc了吗

点赞回复分享

发布于 2024-04-27 02:32 北京

西北工业大学安全工程师

你好，请问你的项目是之前实习做的吗？

点赞回复分享

发布于 2024-05-04 22:20 陕西

网易_数据开发工程师

点赞回复分享

发布于 2024-06-03 16:51 上海

03-12 20:59

已编辑

门头沟学院数据分析师

Hive数据倾斜：解决这个高频痛点，让您在面试中脱颖而出

一、什么是 Hive 数据倾斜？定义与表现定义在 Hive 中，数据倾斜指的是数据在分区或键值上的分布严重不均，导致某些分区或键承载的数据量远超平均水平。这种不平衡会直接影响 MapReduce 任务的执行效率，尤其是在 Reduce 阶段，少数任务可能需要处理巨量数据，而其他任务却几乎无事可做。说得更直白点，想象你在分担工作：本来应该大家平摊，结果有个人揽了 90% 的活，其他人却闲着。这种场景在 Hive 里就是数据倾斜 —— 某些 Reduce 任务成了 “苦力”，拖慢了整个查询。表现形式数据倾斜的 “症状” 很明显，稍微留心就能发现：查询执行缓慢：本来几分钟能搞定的查询，可能拖到几小时...

大数据从入门到精通-最全...

点赞评论收藏

分享

02-22 21:14

天津机电职业技术学院大数据开发工程师

滴滴数据工程

1.自我介绍2.为啥字节离职3.简单讲讲字节的链路4.BMQ和Kafka的区别5.spark的submit过程6.数据倾斜如何解决7对于数据平台和数据仓库的理解#滴滴##字节跳动##阿里巴巴#

查看7道真题和解析

点赞评论收藏

分享

03-11 22:33

已编辑

华中师范大学大数据开发工程师

万兴科技_数开实习_一面

- 全程项目拷打，基本上没有八股- 腾讯会议，开视频## 面评- 知识面太窄了- 工作职责太少了- 流程不熟悉- 基础知识：组件原理、优化方式## 项目- 整个项目的流程是怎么样的- 讲一下整个项目的技术栈  - 数据同步用的啥  - Hive on Spark吗  - 数据可视化用的啥- 日志数据有什么- 某个业务这个行为是作为一个什么数据参与到项目中的  - 日志吗- 业务数据量有多大- 日活月活- 该ads表有什么数据项，dws表-dwd表-dim表的数据项- 讲一讲我负责的指标  - 指标业务逻辑  - 指标在业务背景是什么样的（合理性）  - 指标场景质疑- 有哪些数据域、主题域- 有没有用过云数据库- DolphinScheduler的处理过程  - 我们做ads指标是自己去写的脚本吗  - 怎么写的---都没有问sql实现逻辑## 八股- 数据倾斜给我出了一个场景：groupby的时候出现倾斜  - 我提了join倾斜情况- map join怎么处理小表太占内存，把内存挤爆的问题

查看42道真题和解析

点赞评论收藏

分享

03-06 19:13

美团_数据开发(实习员工)

腾讯PCG-数据工程一面

1.  简单介绍一下项目2.  在中间层建设中遇到过什么问题3.  数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态4.  拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题5.  用的什么计算引擎,sql在spark上怎么执行的6.  spark的提交流程7.  uv和pv的含义,计算uv在spark上的运行原理8.  MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优9.  sql转ast是怎么转的10. ast做逻辑执行计划优化做了哪些11. 逻辑执行计划和物理执行计划大概有什么区别12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)13. 不同数据类型join为什么导致数据倾斜14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的15. 加随机数打散,两阶段聚合怎么做的16. new一个线程怎么做,thread和runnable的区别是什么17. java集合类用过哪些(说没怎么用过java,就没再问了)18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的19. sql中所有关键字的执行顺序20. a join b where条件写在join里面和join外面 有什么区别21. 4道sql22. 一道mid算法做的是计算引擎调优，一直在问spark底层，顶不住顶不住。当晚挂...

查看20道真题和解析

点赞评论收藏

分享

03-11 22:32

已编辑

华中师范大学大数据开发工程师

字节_数开实习_一面

- 飞书面试间，在飞书上撕代码- 问了很多计算机基础八股，痛击薄弱点## 八股- 讲一讲线程池- Java实现线程的几种方法，有什么区别- 线程池的具体参数- 进程和线程的区别- java中如何控制进程内存- 讲一讲数据库的事务是什么- 讲一讲数据库中的锁有哪些- 讲一讲对索引的理解- 如何存储索引的- B树和B+树存储索引的区别- 相同数据量下，B树和B+树哪一个查询更快- http和https- 讲一讲TCP- 讲一讲Hive里有哪些数据格式，有什么区别- HDFS读写流程- 有用过Spark中的什么算子- 解释转换算子和行动算子的区别- Spark中的Stage如何划分的- groupBy 和 reduceBy 的区别- 讲一下数据仓库是什么## 项目- 我们的项目数据量多大- 团队组成- 我们的指标是如何变成报表的- 有遇到什么问题吗：讲的groupby的数据倾斜  - 如何解决数据倾斜的：局部聚合+全局聚合  - 怎么具体实现的：加随机前缀，这个前缀是什么，用什么加的，之后怎么消除的## 算法- DP：[322. 零钱兑换]*******************************************

查看53道真题和解析

点赞评论收藏

分享

评论

10

70

全站热榜

更多

创作者周榜

更多

正在热议

更多

2043330次浏览 23251人参与

# 互联网回暖，腾讯要招5000人！ #

6798次浏览 96人参与

# 腾讯音乐26届实习 #

151166次浏览 917人参与

# 牛友故事会 #

173453次浏览 2916人参与

# 初创公司值得加入吗？ #

14017次浏览 71人参与

# 技术岗笔试题求解 #

27421次浏览 410人参与

# 元戎现在香不香 #

65534次浏览 534人参与

# 女生做医疗销售有前景吗 #

13957次浏览 74人参与

# 两会劳动法放大招 #

30378次浏览 491人参与

# 联想求职进展汇总 #

227438次浏览 1866人参与

# 我的省钱小妙招 #

6118次浏览 181人参与

# 双非应该如何逆袭？ #

24739次浏览 839人参与

# 大学最后一个寒假，我想…… #

23708次浏览 231人参与

# 牛友打假中心 #

2461次浏览 122人参与

# 你投递的公司有几家约面了？ #

58271次浏览 419人参与

# 如果中了500万，你会离职吗？ #

60135次浏览 447人参与

# 金融银行面经 #

60853次浏览 482人参与

# 面试时被问的最奇葩的问题 #

16308次浏览 95人参与

# Tplink求职进展汇总 #

106975次浏览 596人参与

# bilibili求职进展汇总 #

42831次浏览 444人参与

# 网易求职进展汇总 #

72545次浏览 554人参与

# 网易有道工作体验 #

5010次浏览 19人参与

牛客网
牛客企业服务