快手数据研发面经

一面
1.自我介绍?
2.为什么从数分做数开?
3.你觉得数分和数开有什么区别?
4.spark和hadoop哪段实习接触的?
5.讲一下mr和hive原理?
6.hdfs中,一个block大小和通常配置个数?
7.用spark还是用hive?spark比hive好在哪里?
8.spark既然是基于内存的,那么内存不够怎么办?
9.数据倾斜?
10.uid粒度和did粒度用在AB不同的场景是指什么?
11.手撕sql
12.反问

二面
1.自我介绍
2.实习中的一个项目
3.如何理解数分与数仓的区别
4.最终可视化的数据存储在哪里
5.做好数仓什么最重要
6.反问

三面
1.实习情况
2.介绍一下实习中的pipeline
3.介绍一个项目,深挖
4.平时的课程
5.mr与spark的区别
6.spark怎么基于内存计算
7.线程与进程的区别
8.第一类错误与第二类错误
9.ab实验怎么分流
10.平时工作中遇到沟通难题如何解决的
11.平时对接的业务方
12.手撕sql
13.反问
全部评论
佬意向了吗
点赞 回复 分享
发布于 2023-10-14 00:48 浙江
请问oc了吗
点赞 回复 分享
发布于 2023-10-16 22:48 美国

相关推荐

#牛客创作赏金赛# 在当今的数据管理领域,诸多问题亟待解决:1. 数据不流通:数据地方保护主义盛行:各地区或部门出于自身利益考量,对数据进行封锁与割据,形成数据孤岛,严重阻碍数据在更大范围内的共享与流通,如同设置了重重贸易壁垒,使数据难以自由流动,无法发挥其整合后的巨大价值。2. 口径不统一:指标同名不同义、同义不同名现象频发:相同名称的指标在不同业务场景或部门中含义存在差异,反之,同一概念又可能被赋予不同的指标名称,这使得数据的理解与整合变得异常艰难,犹如不同语言体系下的混乱表达,极易造成沟通障碍与分析偏差。3. 工具不统一:各种 BI 工具百花齐放却缺乏整合:市场上 BI 工具种类繁多,每个工具都有其独特的功能与特点,但由于缺乏统一规划与整合,企业在使用过程中往往面临工具兼容性、数据迁移等诸多问题,如同各种风格迥异的乐器杂乱演奏,难以形成和谐的乐章。4. 边界不清晰:业务系统报表与 BI 报表职责界定模糊:业务系统报表和 BI 报表在功能、应用范围等方面没有明确区分,导致在数据呈现与分析过程中出现重复劳动、数据不一致等情况,仿佛两块相邻土地的权属不明,引发诸多争议与混乱。5. 权限难管控:复杂权限体系令人困扰:随着数据的增多与业务的复杂,权限管理变得极为复杂,不同层级、部门、岗位对数据的访问权限难以精准设定与有效控制,好似一座迷宫,管理者在其中迷失方向,容易出现权限漏洞或过度授权等风险。6. 响应不及时:贯穿所有部门的数据需求难以快速满足:各部门对数据的需求日益增长且多样化,但由于数据处理流程繁琐、资源有限等原因,数据提供方往往无法及时响应,导致业务决策因缺乏数据支持而延迟或失误,就像快递在漫长的运输途中耽搁,错过最佳使用时机。7. 指标不体系:指标关系树尚未构建完善:指标之间缺乏系统性的梳理与构建,未能形成完整的逻辑关系树,使得数据分析师难以从宏观层面把握数据全貌,在分析过程中犹如盲人摸象,只能获取片面信息,无法深入挖掘数据背后的内在联系。8. 指标难管理:基于指标平台的全生命周期管理亟待加强:指标从定义、采集、存储到应用、更新等整个生命周期缺乏统一有效的管理平台与规范流程,导致指标的准确性、一致性与时效性难以保障,如同没有管家的豪宅,物品杂乱无章,难以有效利用。9. 指标不准确:指标质量审计环节薄弱:对于指标数据的质量缺乏严格的审核与监督机制,无法及时发现与纠正数据偏差、错误或异常值,使得基于不准确指标得出的分析结果与决策建议可能产生误导,仿佛在错误的地图上导航,必然偏离正确方向。10. 指标不会用:缺少指标故事线辅助理解与应用:虽然有众多指标数据,但缺乏将指标串联起来形成有逻辑、有情节的故事线,导致业务人员难以理解指标含义与应用场景,无法将数据有效转化为实际行动方案,如同拥有众多珍珠却缺少串线,难以制成精美的项链。
点赞 评论 收藏
分享
点赞 评论 收藏
分享
1 32 评论
分享
牛客网
牛客企业服务