首页 / 数仓
#

数仓

#
14920次浏览 237人互动
此刻你想和大家分享什么
热门 最新
双非本+2硕,数据研发岗位秋招战况
#秋招# #数仓# #互联网# 总结一下我收到的面试和面试题目吧总计收到的面试:腾讯、百度、阿里云、字节、美团、滴滴、科大讯飞、京东百度提前批一面:1、自我介绍2、说一下你在实习中的收获我主要是从技能和废技能两个层面做的叙述3、简单概括一下你所做的工作4、你所接触过的最大的数据量有多大?你是怎么解决这个大数据量数据的处理的?5、你有一个任务产出很晚,你都怎么排查问题?6、写两道算法1)三个sql题,都很简单2)一个链表排序题(其实很简单,就是我太菜,没写好)7、说一说你在那边做的一个项目,你承担了什么角色,得到了什么收获科大讯飞正式批一面:1、说一说你们部门的数仓怎么分的层?2、你们在ods层到dwd层的数据做好什么操作吗?3、你了解的市面上有哪些数仓的分层架构?4、那我如果不分层,就把很多表的加工逻辑揉到一起会有什么问题?5、你所接触过的数仓都是基于什么构建的?6、你们数仓建模的方法是什么?7、你接触过的建模方法都有哪些?为什么不用别的呢?8、我有一个用户的信息,里面有信息的更改时间,你怎么把最新的数据取出来?9、Union和union all的区别是什么?10、Select * from a left join b on a.c1=b.c1 and b.status=1和select * from a left join b on a.c1=b.c1 where b.status=1的数据有什么区别?  美团一面:1、自我介绍2、说一说你在那边都负责什么3、你怎么判断你哪一个表放在数仓的哪一个层级4、你一个需求的指标,你怎么判断是在已有的数据资产上面更新还是新建数据资产?5、了解数据库的三范式建模吗?实际有没有用过?那你们那边主要用什么建模6、代码:1)用三范式建模的方式构建学生和成绩表,并将每门课程总成绩最高的学生找出来 2)我有100个随机数,想要分十组,每一组最少需要有2个数,怎么分能让我每组的差距最小7、开放性问题1)为什么没在字节留用2)以后打算在哪里发展3)说一说你的技术路线规划8、反问美团二面:1、自我介绍2、实习在那边主要都干什么,结合一个例子说明3、你们数仓的数据来源都有什么?你知道你们那边的数据抽取的原理是什么吗4、你说你处理过pb、eb级别的数据,那你平时处理的数据能有多少行5、你们数仓是怎么分层的?口径封装到dwi层,那你能举个例子吗?粒度有多细6、说一个你做的工作,并说说怎么把这些表做的分层7、你做过维表吗8、你都知道几种事实表9、Sql题:1)美团的不同城市的补给站的个数(很简单)2)一个表有uid、city_id、status、ctime(时间戳),求出每个城市每个user,每天的状态时间。(有点难度,因为要考虑跨天的问题)字节一面:1、说一下你在商业化那边做的项目,有什么收获?(我说了一个项目,我大题的工作内容还有我技术上和非技术上面的收获)2、你说说技术和业务哪个更重要,你怎么理解的3、那你理解咱们数仓到底在做什么?(我说了小公司的反面例子)4、那你感觉不分层还是不是数仓引出了《阿里,大数据之路》5、咱们这边数仓分层的dwi和dwa里面的i和a你知道啥意思吗6、你理解我们数仓在划分主题和建模的时候是侧重业务还是技术?辩证看待7、既然聊到了数仓分层,那你说说数仓分层有什么好处,又有什么坏处?好处已经说烂了,坏处其实就是(冗余、维护成本、管理成本)8、范式建模和数仓建模的区别9、你平时怎么保证维度一致性和指标一致性的?10、聊一个其他的,你理解特征和指标是什么,有什么区别?那标签呢?11、聊点技术上的问题:你平时处理数据倾斜怎么做的?你怎么用spark-ui去定位的?结合一个你实际的项目12、为什么我们用mr计算架构计算的时候很忌讳去写count distinct13、最后一个sql题先问我连续登录的问题,我说已经写过好多遍了,换一个题目吧。然后是这样一个题:给出一张表(数据量非常大),里面有user_id,timestamp,tag三个字段,找出每个用户最早和最晚的tag(userid和timestamp都是bigint)这道题其使用开窗函数轻松解决,或者扫两遍表,一次用max、min计算最早最晚时间,再去join原表,但是第一种方案涉及到排序,数据量很大的情况下很耗性能,第二种方案扫了两边表。其实有一种方案,就是先把ts和tag用cancat做拼接,直接对拼接的字段做min、max,会优先对比ts,顺便带出来tag。然后在外层把拼接字段做split,并用get函数获取ts和tag。滴滴一面+二面:新问题:1、你觉得你在工作过程中怎么和一些团队配合的?出现了问题怎么处理的?2、数据治理方面的工作3、Spark的弹性你怎么理解的4、你觉得你的数仓建设和别人数仓建设对比,怎么评价你的更好一些滴滴三面:1、你对滴滴这个公司有什么了解?2、你知道滴滴有什么业务吗3、你为什么选择滴滴我说了平台的前景、平台能给我提供的技术支持、还有薪资待遇4、你在团队协作上面遇到了什么问题,怎么解决的5、如果再给你一次机会去做这个项目,你会怎么去做来解决当初遇到的问题6、你接触过什么olap工具7、你平时会跟进大数据的新的技术吗8、你觉得你的缺点是什么9、你有认真总结过你实习的这段经历吗10、你觉得你是以技术学习为主还是业务学习为主11、你的职业规划是什么12、你觉得数仓工程师应该具备什么技能阿里云一面:1、你们那边的广告都是什么形式?都是什么人去投广告?广告投放的大致流程是什么样子的?2、你在那边做的主要的业务范围是什么?有什么收获吗3、写了两道sql题,第一道有点难度,第二道很简单阿里云二面:1、说一个你实际做项目的时候遇到的技术上的问题,以及你是怎么解决的?2、spark你知道怎么用日志和ui来排查数据倾斜问题吗3、给了一个阿里的实际场景题,比较open,看个人的技术积累和知识面吧,这个题差不多问了我四十分钟4、你理解的数仓的职能是什么二面我感觉我回答的很好阿里云三面(交叉面):主要及时扒了一下我的实习经历,没啥好说的阿里云hr面:面完了泡池子,估计就是陪跑了目前0offer,字节、阿里、华为还在流程中说一下面试感受以及我对实习的理解吧:总的来说,面试大厂的体验都是很好地,尤其是字节那个面试官还有阿里二面的面试官,其实面试的时候在引导我思考,不问八股(八股真的很没意思),很亲切,而且面试其实也是学习的过程,大家要善于总结和复盘。对于实习的话,我理解就是尽量时间久一些吧,不管是出于对技术的学习也好还是转正也好,实习久了真的学到的会多很多,因为在网上聊了几个只实习了两三个月就跑了的,其实这段时间并没有干什么实质性的任务,我实习了八个月,前四个月跟着我mentor做项目,后面就是自己去对接,而且做了驾驶舱、Q1重点项目,真的很磨练人,而且字节这边实习给实习生的权限很高,只要你想学,真的会收获满满。最后,也欢迎大家来交流。更新###华为已经面试完了,二轮技术面+一轮主管面,很顺利,目前泡池子去了,字节推进到3面了,小米oc(小米这个面试真的是我体验最差的面试),作业帮二面完事,大概率oc,阿里oc,京东推进到三面。
应届想染班味:这么难
查看69道真题和解析
点赞 评论 收藏
分享
把自己的文档整理了下,还剩下几百个没放上去 真累
投票
点赞 评论 收藏
分享
2024-11-13 19:00
已编辑
门头沟学院 大数据开发工程师
美团23k 数据开发诞生!
投票
美团 数据开发 23k
点赞 评论 收藏
分享
内部面试题 发这里了,来这里面的都看看
投票
数开面试题使用的hive,tez计算引擎1.如何建模、以及数据开发过程中需要注意的问题(数据探查、数据开发、数据质量监测、数据核对)2.页面数据有问题、如何排查3.抽数、推数数据量异常如何自动停止任务(要有工作日、非工作日的判断,非工作日不生效,UDF函数)4.hive表生命周期管理失效,如何进行生命周期管理(设成自动任务的话可能会使用shell脚本)(3个月前每月保留第一天与最后一天的数据,注意是业务时间第一天与最后一天,非调度时间)5.数据量大的表推数慢影响页面展示怎么解决6.根据2个日期计算工作日天数7.去重方式(开窗函数如何控制窗口的大小)8.列转行(清洗、分隔符统一、注意有些业务数据(比如一条数据楼栋面积字段(可能是总面积)对应多个房屋或多个楼栋)、LATERAL VIEW explode)9.明细表数据量大,每月还要都保留一份,怎处理?怎么优化?达梦分区(范围分区、哈希分区、列表分区、组合(多级)分区、间隔分区(属于范围分区)INTERVAL <间隔表达式>)10.更新数据效率更高的方式update采用的类似nested loop的方式,对更新的每一行,都会对查询的表扫描一次;merge into这里选择的是hash join,则针对每张表都是做了一次 full table scan,对每张表都只是扫描一次。11、筛选的时候in(不适合B大)、exists不适合B大)、join的底层以及效率12.常用的分析函数13.连续3天及以上连续出现的次数(减序号) #实习#  #校招#  #大厂#  #数开#  #数仓#
查看13道真题和解析
点赞 评论 收藏
分享
数据开发 科大讯飞 ssp 30kx14
投票
科大讯飞 数据开发 30k
点赞 评论 收藏
分享
2023-11-01 16:41
门头沟学院 Java
点赞 评论 收藏
分享
有大佬能内推嘛,大数据开发一年被裁
点赞 评论 收藏
分享
2024-09-18 20:14
阿里巴巴_大数据开发
点赞 评论 收藏
分享
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务