大数据刷题

大数据刷题
1.刷题对于你所求职的岗位的重要性?
刷题可以说的上是对于实力提升的最快的途径,凡事都是要上手做了才能知道其中的难度,尤其是大数据来说组件特别多要想玩会很多组件首先就要学会安装,然后要了解
其中的基本使用,对于一些命令是必须要会的尤其是搭建企业级别的数仓对于集群的搭建和跑etl任务的调优来说真的很重要,还有就是面试经常会要求手写代码或者对于其中的关键代
进行描述,这就离不开平时的练习了
2.有哪些刷题技巧和经验可以分享,刷题节奏,从什么时候开始刷题
下面我就拿我来说吧,作为大数据开发的工程师来说,首先大数据SQL是必须要精通的,对于牛客的所有SQL必须要全部都能过关,并且要会2种不同的思路来写这个会了之后后面
就是调优,让SQL执行效率更高减少资源的消耗,其次是大数据组件的开发,对于实时和离线计算,spark和flink必须要会基本代码的开发,对于spark来说首先对于rdd各种算子是必须要会其中的计算
全部都知道其中的执行流程,对于sparkSQL要会对接各种数据源,做到数据高效计算。flink首先是要对于其中的source来源以及中间转化要会,经典的窗口函数,状态编程
checkpoint,kafka的精确一致性,水位线延迟数据处理等等,关键代码要会可以不用手写,但对于其中的实现过程必须要会,后面就是Kafka的基本命令,如果使用一个消费者组
进行多个消费者来同时进行消费等等吧,大家如果没有方向就跟着我来就好,我目前以上的技术都是会的,懂了上面的就是做大数据etl,cdh集群搭建,大数据风控开发
数据服务数据可视化等等,对于刷题时间如果你选择进入大数据方向那么你就可以按照我的开始学习和刷题了,没有啥思路的可以按照我上面的来做就好
3.怎么判断刷题能力是否提升了?
这个其实很好判断,对于我上面列的你都可以实现并且可以随时调代码,对于后面的面试你可以做到游刃有余工作干活可以做出你以前没有做出来的那么你的实力就提升了
,一般到了这个程度找工作是没啥问题的
全部评论
要学习这么多的嘛
点赞 回复 分享
发布于 2023-06-10 11:25 广东
大数据开发实习生一般在公司干嘛啊
点赞 回复 分享
发布于 2023-06-14 12:38 陕西
在哪里找题来刷呀?大佬有地方和*吗?
点赞 回复 分享
发布于 2023-06-19 15:35 重庆

相关推荐

03-11 00:05
已编辑
北京邮电大学 Java
(先说结果,面完秒挂,面试官有病听不懂人话,把我的回答从对的改成错的,同样的项目和话术其他面试官都听得懂,她听不懂,随便吧,遇见她算我倒霉)1.自我介绍2.问上段实习中的学习方法3.(面试官要开始发力了)看我项目说用有限状态机解决了接口幂等性的问题,我是怎么做的。我回答说:经过业务考虑和技术选型,我的接口是改变数据状态的接口,只能从a状态变到b状态是正确的,而不是像新增一条数据的操作,所以我选了有限状态机来解决我接口的幂等性问题。我也考虑过市面上其他的一些幂等性场景和解决方法,例如重复下单的场景,为了防止一个用户多次点击下单按钮或重复传入表单,这种因为是数据库记录新增操作,所以需要使用redis里面存放有过期时间的唯一token或者使用数据库唯一行来约束,但我没有这个场景所以用不到面试官:你项目是使用redis和有限状态机来幂等的啊,你能说具体点吗我:我没用redis啊,我只用了有限状态机,redis那个方案是我在网上看其他的幂等性问题是这么解决的来参考的方案,而且在我发现和我的业务不匹配后也否决了。面试官:你有限状态机在分布式环境下怎么做的啊我:?我的服务是分布式的但我的数据库是单机的啊,而且就算是数据库也做了水平分库分表也不用考虑什么分布式场景啊,这跟我有限状态机改变一个状态有影响吗。面试官:我还是不太明白你在这个分布式环境下怎么用的redis和有限状态机做的幂等性我:?我没用redis啊面试官:那我们下一个问题吧4.什么是接口幂等性,有哪些接口操作是天生幂等的我:接口幂等性就是同样的请求申请同样的接口,不会造成系统的不一致,例如重复下单中相同的下单请求数据库只会新增一条。至于天生幂等的操作的话,修改指定id的数据为指定数据或删除唯一id的数据或查询请求都是天生幂等的面试官:你说的不对,重复删除会报错,所以不幂等。(我:我??唯一id重复删除你还能删成啥样,你删了就没了哪影响幂等性了。你报错影响的接口幂等性吗?)。而且你说的幂等性定义也不对,幂等性是相同的参数申请同样的接口我:我说的同样的请求,同样的请求参数不一样吗面试官:我不知道你有没有回放听,但你说的肯定不是相同的请求。(哈哈)5.如果系统发生oom,怎么排查(这个很正常就过了)6.给你出个场景题目,假如有100G的数据a,100G的数据b,然后需要用a join b得到c,同时一个mysql数据库只能操作10G的数据,那你怎么做。(在我说了分库分表,引入中间件,一致性哈希算法,在a join b的时候使用多线程异步技术并行执行,之后,又追问很多相关细节,然后又问我里面可以用java做哪些操作,最后她得出结论我太理想化了,考虑不全)7.反问:我要提升的面试官:我还是没听懂你的接口幂等性怎么用的redis解决的,在分布式环境下你的有限状态机没问题吗。(哈哈)我反应过来了,这面试官应该是个大数据开发或数仓开发那种,一直问我hadoop,spark,sql语句这种,遇见她我是真倒霉啊😅
点赞 评论 收藏
分享
评论
13
45
分享

创作者周榜

更多
牛客网
牛客企业服务