美团大数据开发面经

个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问
自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。
全部评论
老哥加油呀,比我强
点赞 回复 分享
发布于 2023-09-08 19:27 湖北
兄弟,结果咋样啊,感觉这一直在追着拷打啊
点赞 回复 分享
发布于 2023-09-10 13:01 四川
等一波二面题
点赞 回复 分享
发布于 2023-09-14 11:42 北京
我一面手撕了4个代码,就会一个,慌死了
点赞 回复 分享
发布于 2023-09-14 14:55 北京
就会一个,,,可以没有dws层。。。
点赞 回复 分享
发布于 2023-09-14 21:09 江苏
进面了吗,这不进,那就可以确定是KPI了
点赞 回复 分享
发布于 2023-09-15 00:22 陕西
我也在优选,我只要是场景为主,你这个八股太多了,好难
点赞 回复 分享
发布于 2023-09-17 17:30 广东
龟龟 看起来就很难
点赞 回复 分享
发布于 2023-09-27 08:54 四川
佬太强了
点赞 回复 分享
发布于 2023-10-02 15:58 广东

相关推荐

评论
22
98
分享
牛客网
牛客企业服务