做项目呀,尚硅谷一个离线一个数仓,认认真真跟着做。一个多月差不多能做完。 没项目肯定不太行
2 4

相关推荐

分享一下我在大数据方向的学习路线,列出的基本上是必须掌握的内容。对于项目方面,建议先离线后实时项目,再之后便是数据湖等项目。另外推荐《大数据之路》这本书,里面涉及到的理论和企业中的白皮书基本一样。平常也可以多翻看各个公司公开分享的技术文章,源码等。比如:阿里的学习文档、美团的技术文档等,在没有实际生产经验时可以了解各个场景下技术选型、底层调优、内存调整、资源配置、数据治理等各个重要环节和内容。1. Java:JAVA SE、JVM、JUC(刚开始只需要看Java基础就可以,不要花太多时间在Java的学习上,也不需要学习一些web框架,因为不管是源码二次开发,UDF开发,还是数仓都不需要用到这些框架,除非涉及到数据平台开发。2. Linux+Shell,熟悉基本操作即可3. Git、Maven(了解会用,如果需要使用能快速学习上手使用即可)4. Hadoop(重点,HDFS,MapReduce,Yarn)5. Zookeeper6. Hadoop高可用(了解即可)7. Flume8. Kafka(重点,时间紧张的话可以大致了解用途,后面可以和Flink一起学,主要用来处理实时数据)9. Hive(重点,需要熟练了解原理,并且会写HQL,以及一些优化,是基础)10. Spark(重点,大部分公司都是写SparkSQL,并且调优,需要明白底层原理,内存结构,SparkUI等,来不及的话可以先跳过Java API编写Spark代码的学习)11. Maxwell、DataX、DolphinScheduler(项目中数据同步、模拟日常调度工作)12. 离线数仓项目:sgg电商数仓6.0(跟着做完这个项目,就知道数仓、维度模型、指标体系等等,以及生产中一些内容。这套教程比较全面,若来不及可以选择sgg其它离线数仓项目)。学到这里可以去找实习,实时数仓等技术可以在实习中抽空学13. Flink(重点)14. MPP架构(如:Doris、Clickhouse、StarRocks)15. 实时数仓项目16. 数据治理17. 数据湖、湖仓一体18. 刷算法、刷sql、刷场景题 #数据开发工程师# #秋招#  #春招#  #实习#  #大厂#
投递美团等公司10个岗位
点赞 评论 收藏
分享
2024.12.23(一面)一面 (1h 5mins)- 实习拷打  - 快手-评论模版留存率(10 mins)    - 严格漏斗和非严格漏斗的区别  - 字节-链路改造优化    - 延伸:数据的时效性怎么保证(从整体和单点分别叙述)    - 延伸:优化任务的思路    - 延伸:并行度相关的改法(三种)    - repartition()能改变第一个stage的shuffle write的并行度吗?    - 第一个stage的shuffle write的并行度由什么决定?  - 字节怎么分的数据域  - 字节分了哪些主题域  - 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)  - 分层的意义(复用性和一致性)  - 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)- SQL题二面 (26 mins)全程实习拷打- 自我介绍- 字节实习  - 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)  - 多机房涉及到的网络问题(通过全球化数据迁移解决)- 快手实习  - 评论模版留存率    - 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)    - 为什么这样设计    - 最终的目的是什么    - 有没有想过通过抽样解决数据量大的问题- 反问
查看18道真题和解析
点赞 评论 收藏
分享
牛客网
牛客企业服务