美团大数据开发面经

个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问
自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。
全部评论
老哥加油呀,比我强
点赞 回复 分享
发布于 2023-09-08 19:27 湖北
兄弟,结果咋样啊,感觉这一直在追着拷打啊
点赞 回复 分享
发布于 2023-09-10 13:01 四川
等一波二面题
点赞 回复 分享
发布于 2023-09-14 11:42 北京
我一面手撕了4个代码,就会一个,慌死了
点赞 回复 分享
发布于 2023-09-14 14:55 北京
就会一个,,,可以没有dws层。。。
点赞 回复 分享
发布于 2023-09-14 21:09 江苏
进面了吗,这不进,那就可以确定是KPI了
点赞 回复 分享
发布于 2023-09-15 00:22 陕西
我也在优选,我只要是场景为主,你这个八股太多了,好难
点赞 回复 分享
发布于 2023-09-17 17:30 广东
龟龟 看起来就很难
点赞 回复 分享
发布于 2023-09-27 08:54 四川
佬太强了
点赞 回复 分享
发布于 2023-10-02 15:58 广东

相关推荐

联想数据开发工程师面经(2025届校招/实习) 📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。  📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:    - 算法题(LeetCode中等难度,考察数组、字符串、动态规划)    - SQL题(多表关联、窗口函数、复杂查询优化)    - 大数据基础(Hadoop/Spark原理简答)  2. 技术一面(1小时)- 数据结构与算法  - 手撕代码:合并K个有序链表(优先队列实现)    - 时间复杂度分析,如何优化?  - 大数据生态  - Spark和Hadoop的区别?Spark为什么更快?    - 数据倾斜的解决方案?  - SQL实战    - 写一个**连续登录用户统计**的SQL(使用窗口函数)  - 项目深挖  - 介绍一个大数据项目,你在其中负责什么?    - 如果数据量增加10倍,如何优化你的方案?  3. 技术二面(45分钟)- 系统设计  - 设计一个实时数据仓库,如何保证低延迟和高可用?    - Kafka和Flink在实时计算中的作用?  - 数据库   - MySQL索引原理,B+树 vs Hash索引    - Hive内部表和外部表的区别?  - 场景题  - 如果某天发现报表数据异常,如何排查?  4. HR面(30分钟)- 职业规划、为什么选择联想?  - 对加班/出差的看法?  - 期望薪资?  💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。  2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。  3. **算法刷题**:LeetCode热题100+剑指Offer,尤其是**链表、树、DP**。  4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。  🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。  - 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!  📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!  📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推# 内推码 #联想# 26届 #26届实习交流# 数据人的面试交流地 #春招提前批,你开始投了吗#  
点赞 评论 收藏
分享
评论
23
101
分享

创作者周榜

更多
牛客网
牛客企业服务