杭州电魂数据开发-数仓方向一面

1.分区表
2.Hive和Spark的区别
3.为什么要来数据开发,了解数据开发吗
4.维度建模
5.项目相关问题
6.对UDF、UDAF、UDTF三者的理解
7.数据格式Parquet、ORC、Avro
8.Parquet、ORC的区别
9.分层的作用
..........
总的来说和面试官沟通的过程中也学到了很多,但是感觉通过希望不大,好多都没答上来
全部评论
感觉还挺简单的
点赞 回复 分享
发布于 2024-03-22 15:59 上海
老哥,这是秋招还是实习?
点赞 回复 分享
发布于 2023-09-21 14:25 辽宁
我昨天也面了,几乎和你的一模一样
点赞 回复 分享
发布于 2023-09-21 12:21 广西

相关推荐

讲解你都学了哪些?巴拉巴拉写数仓,springboot 写个http接口微服务了解吗?--不了解面试官说:我的理解是  巴拉巴拉虽然我也不干这个spark和flink的区别:spark批,flink实时,spark stream 微批flink实时是一条一条的嘛?他会不会很慢?  --讲了是,但是他有window 巴拉巴拉不知道讲的对不对flume  +sqoop是干什么用的;--flume 数据日志采集等等  sqoop不知道你比较熟悉什么架构,--spark,flink讲一讲flink是怎么运行的--想了一下不知道, 面试官讲就其实spark,flink就是在客户端怎么样和集群怎么样计算怎么样   (架构还是得更加了解)flink env中都有什么?--集群配置,什么名字来着、并行度  讲的不全dophinshedule了解吗?他的底层实现了解吗?你这个项目是什么网上做的吗?开源的吗哪里学的?讲一讲java基础:微服务了解吗 ?你知道java有哪些集合吗?--set  --hashset有什么区别?还有吗?面试官讲其实hashset 就是底层是hashmap实现的  巴拉巴拉  set其实是java的一个基础类bala什么时候用hashset 什么时候用hashmap--hashset通常指针对于处理去重操作,hashma用于需要存储数据时,并且hashset对比list他的查找插入时间复杂度是o(1)hashset 存放一个已有数据的时候会怎么办?--我说不会放进去 ,面试官问只是不会放进去吗?代码:链表反转  本来想让我写集合相关的,看我集合不熟就改这个了。--注意面向对象的代码书写细节反问:你们做什么业务?--主要就是flume-sqoop一些数据日志采集  一些简单的etl   包括dophinshedule一些流式管理;还有一些仓库维护;对我有什么建议吗?--实习面试侧重于一些基础一些的面试,不会问太多项目,校招侧重于具体的框架,最好能够重点了解某一个框架能够阅读源码,对于基础的语言需要重点了解不一定非得是java,但是肯定需要了解,技术栈不一定要宽,要深。没问hive kafka这个我也不会总结:要注重基础语言知识和深挖某一框架,加强基础语言代码了解
查看17道真题和解析
点赞 评论 收藏
分享
03-11 00:05
已编辑
滴滴_后端(实习员工)
(先说结果,面完秒挂,面试官有病听不懂人话,把我的回答从对的改成错的,同样的项目和话术其他面试官都听得懂,她听不懂,随便吧,遇见她算我倒霉)1.自我介绍2.问上段实习中的学习方法3.(面试官要开始发力了)看我项目说用有限状态机解决了接口幂等性的问题,我是怎么做的。我回答说:经过业务考虑和技术选型,我的接口是改变数据状态的接口,只能从a状态变到b状态是正确的,而不是像新增一条数据的操作,所以我选了有限状态机来解决我接口的幂等性问题。我也考虑过市面上其他的一些幂等性场景和解决方法,例如重复下单的场景,为了防止一个用户多次点击下单按钮或重复传入表单,这种因为是数据库记录新增操作,所以需要使用redis里面存放有过期时间的唯一token或者使用数据库唯一行来约束,但我没有这个场景所以用不到面试官:你项目是使用redis和有限状态机来幂等的啊,你能说具体点吗我:我没用redis啊,我只用了有限状态机,redis那个方案是我在网上看其他的幂等性问题是这么解决的来参考的方案,而且在我发现和我的业务不匹配后也否决了。面试官:你有限状态机在分布式环境下怎么做的啊我:?我的服务是分布式的但我的数据库是单机的啊,而且就算是数据库也做了水平分库分表也不用考虑什么分布式场景啊,这跟我有限状态机改变一个状态有影响吗。面试官:我还是不太明白你在这个分布式环境下怎么用的redis和有限状态机做的幂等性我:?我没用redis啊面试官:那我们下一个问题吧4.什么是接口幂等性,有哪些接口操作是天生幂等的我:接口幂等性就是同样的请求申请同样的接口,不会造成系统的不一致,例如重复下单中相同的下单请求数据库只会新增一条。至于天生幂等的操作的话,修改指定id的数据为指定数据或删除唯一id的数据或查询请求都是天生幂等的面试官:你说的不对,重复删除会报错,所以不幂等。(我:我??唯一id重复删除你还能删成啥样,你删了就没了哪影响幂等性了。你报错影响的接口幂等性吗?)。而且你说的幂等性定义也不对,幂等性是相同的参数申请同样的接口我:我说的同样的请求,同样的请求参数不一样吗面试官:我不知道你有没有回放听,但你说的肯定不是相同的请求。(哈哈)5.如果系统发生oom,怎么排查(这个很正常就过了)6.给你出个场景题目,假如有100G的数据a,100G的数据b,然后需要用a join b得到c,同时一个mysql数据库只能操作10G的数据,那你怎么做。(在我说了分库分表,引入中间件,一致性哈希算法,在a join b的时候使用多线程异步技术并行执行,之后,又追问很多相关细节,然后又问我里面可以用java做哪些操作,最后她得出结论我太理想化了,考虑不全)7.反问:我要提升的面试官:我还是没听懂你的接口幂等性怎么用的redis解决的,在分布式环境下你的有限状态机没问题吗。(哈哈)我反应过来了,这面试官应该是个大数据开发或数仓开发那种,一直问我hadoop,spark,sql语句这种,遇见她我是真倒霉啊😅
のミク:你的翻版,我面数开人家问我会不会设计模式和springboot
点赞 评论 收藏
分享
评论
5
12
分享

创作者周榜

更多
牛客网
牛客企业服务