面经|快手-数据开发实习

2024.12.23(一面)

一面 (1h 5mins)
- 实习拷打
  - 快手-评论模版留存率(10 mins)
    - 严格漏斗和非严格漏斗的区别
  - 字节-链路改造优化
    - 延伸:数据的时效性怎么保证(从整体和单点分别叙述)
    - 延伸:优化任务的思路
    - 延伸:并行度相关的改法(三种)
    - repartition()能改变第一个stage的shuffle write的并行度吗?
    - 第一个stage的shuffle write的并行度由什么决定?
  - 字节怎么分的数据域
  - 字节分了哪些主题域
  - 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)
  - 分层的意义(复用性和一致性)
  - 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)
- SQL题

二面 (26 mins)
全程实习拷打
- 自我介绍
- 字节实习
  - 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)
  - 多机房涉及到的网络问题(通过全球化数据迁移解决)
- 快手实习
  - 评论模版留存率
    - 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)
    - 为什么这样设计
    - 最终的目的是什么
    - 有没有想过通过抽样解决数据量大的问题
- 反问
全部评论

相关推荐

联想数据开发工程师面经(2025届校招/实习)📌 背景:985本硕,计算机相关专业,有大数据项目经历,面试岗位为数据开发工程师(Base北京/上海)。📝 面试流程 & 问题回顾1. 笔试(线上编程+SQL)- 题型:- 算法题(********中等难度,考察数组、字符串、动态规划)- SQL题(多表关联、窗口函数、复杂查询优化)- 大数据基础(Hadoop/Spark原理简答)2. 技术一面(1小时)- 数据结构与算法- 手撕代码:合并K个有序链表(优先队列实现)- 时间复杂度分析,如何优化?- 大数据生态- Spark和Hadoop的区别?Spark为什么更快?- 数据倾斜的解决方案?- SQL实战- 写一个**连续登录用户统计**的SQL(使用窗口函数)- 项目深挖- 介绍一个大数据项目,你在其中负责什么?- 如果数据量增加10倍,如何优化你的方案?3. 技术二面(45分钟)- 系统设计- 设计一个实时数据仓库,如何保证低延迟和高可用?- Kafka和Flink在实时计算中的作用?- 数据库- MySQL索引原理,B+树 vs Hash索引- Hive内部表和外部表的区别?- 场景题- 如果某天发现报表数据异常,如何排查?4. HR面(30分钟)- 职业规划、为什么选择联想?- 对加班/出差的看法?- 期望薪资?💡 面试建议1. **重点复习**:SQL(窗口函数、优化)、Spark/Hadoop原理、常见大数据场景题。2. **项目复盘**:确保能清晰讲解技术选型、难点和优化思路。3. **算法刷题**:********热题100+剑指Offer,尤其是**链表、树、DP**。4. **反问环节**:可以问团队业务、技术栈、新人培养计划等。🌟 联想数据团队体验- 技术氛围浓厚,大牛导师带教,内部有完善的大数据平台。- 业务覆盖智能供应链、用户行为分析、风控建模等,实战性强!📢 投递Tips:联想对代码能力+大数据基础要求较高,建议尽早投递!📅 【投递链接】春招:https://talent.lenovo.com.cn/position?projectType=1暑期实习:https://talent.lenovo.com.cn/position?projectType=2【内推码】2025XZLMCX【内推入口】在“联想校招官网”投递校招职位,创建简历时“从哪儿获知招聘信息”选择“联想员工推荐”并且输入推荐人ITcode:2025XZLMCX投递的同学评论区留下【姓名缩写+岗位】,方便及时跟进加入联想,与创新者同行,用科技改变世界!(欢迎留言交流,祝大家offer多多!🎯) #内推#             内推码             #联想#             26届             #26届实习交流#             数据人的面试交流地   
点赞 评论 收藏
分享
讲解你都学了哪些?巴拉巴拉写数仓,springboot 写个http接口微服务了解吗?--不了解面试官说:我的理解是  巴拉巴拉虽然我也不干这个spark和flink的区别:spark批,flink实时,spark stream 微批flink实时是一条一条的嘛?他会不会很慢?  --讲了是,但是他有window 巴拉巴拉不知道讲的对不对flume  +sqoop是干什么用的;--flume 数据日志采集等等  sqoop不知道你比较熟悉什么架构,--spark,flink讲一讲flink是怎么运行的--想了一下不知道, 面试官讲就其实spark,flink就是在客户端怎么样和集群怎么样计算怎么样   (架构还是得更加了解)flink env中都有什么?--集群配置,什么名字来着、并行度  讲的不全dophinshedule了解吗?他的底层实现了解吗?你这个项目是什么网上做的吗?开源的吗哪里学的?讲一讲java基础:微服务了解吗 ?你知道java有哪些集合吗?--set  --hashset有什么区别?还有吗?面试官讲其实hashset 就是底层是hashmap实现的  巴拉巴拉  set其实是java的一个基础类bala什么时候用hashset 什么时候用hashmap--hashset通常指针对于处理去重操作,hashma用于需要存储数据时,并且hashset对比list他的查找插入时间复杂度是o(1)hashset 存放一个已有数据的时候会怎么办?--我说不会放进去 ,面试官问只是不会放进去吗?代码:链表反转  本来想让我写集合相关的,看我集合不熟就改这个了。--注意面向对象的代码书写细节反问:你们做什么业务?--主要就是flume-sqoop一些数据日志采集  一些简单的etl   包括dophinshedule一些流式管理;还有一些仓库维护;对我有什么建议吗?--实习面试侧重于一些基础一些的面试,不会问太多项目,校招侧重于具体的框架,最好能够重点了解某一个框架能够阅读源码,对于基础的语言需要重点了解不一定非得是java,但是肯定需要了解,技术栈不一定要宽,要深。没问hive kafka这个我也不会总结:要注重基础语言知识和深挖某一框架,加强基础语言代码了解
查看17道真题和解析
点赞 评论 收藏
分享
评论
5
18
分享

创作者周榜

更多
牛客网
牛客企业服务