想请教大牛前辈们一个关于数开的问题

关于大数据技术栈,请问各位前辈有用python作为第一语言的flink教程吗?

后辈现在研一,本科时候专业是数学+应统,求职方向是数分,有两段快消公司和跨境电商实习,工作内容也包括一些python自动化数据链路和bi看板的搭建,但是没有接触过大数据技术栈,现在想把数据仓库相关作为第二赛道和数分并行

目前进度是看完了黑马的hadoop+hive,正在学黑马的spark,用的语言也是python,但是我找了很久都没有发现用python的flink组件教程,只有java的,这才不得不伸手求助

另外,我也有些好奇,目前互联网的数仓岗位,都可以接受python作为主要语言吗,还是都需要java作为硬性要求呢?看了几个实习jd,似乎都没有把java作为核心要求

感谢大牛前辈们赐教 #数据开发#
全部评论
1.大部分数仓需求基于Hive SQL离线开发,极少部分实时需求会用到 Flink + spring boot所以最好能掌握Java技术栈。 2.至于python数仓开发完全用不上。
点赞 回复 分享
发布于 10-02 14:06 北京
我跟你好像,python也是我的开发语言
点赞 回复 分享
发布于 10-06 13:05 北京
flink肯定优先是Java,自定义函数都是打jar包跑的
点赞 回复 分享
发布于 10-17 10:38 北京

相关推荐

数开面试题使用的hive,tez计算引擎1.如何建模、以及数据开发过程中需要注意的问题(数据探查、数据开发、数据质量监测、数据核对)2.页面数据有问题、如何排查3.抽数、推数数据量异常如何自动停止任务(要有工作日、非工作日的判断,非工作日不生效,UDF函数)4.hive表生命周期管理失效,如何进行生命周期管理(设成自动任务的话可能会使用shell脚本)(3个月前每月保留第一天与最后一天的数据,注意是业务时间第一天与最后一天,非调度时间)5.数据量大的表推数慢影响页面展示怎么解决6.根据2个日期计算工作日天数7.去重方式(开窗函数如何控制窗口的大小)8.列转行(清洗、分隔符统一、注意有些业务数据(比如一条数据楼栋面积字段(可能是总面积)对应多个房屋或多个楼栋)、LATERAL VIEW explode)9.明细表数据量大,每月还要都保留一份,怎处理?怎么优化?达梦分区(范围分区、哈希分区、列表分区、组合(多级)分区、间隔分区(属于范围分区)INTERVAL <间隔表达式>)10.更新数据效率更高的方式update采用的类似nested loop的方式,对更新的每一行,都会对查询的表扫描一次;merge into这里选择的是hash join,则针对每张表都是做了一次 full table scan,对每张表都只是扫描一次。11、筛选的时候in(不适合B大)、exists不适合B大)、join的底层以及效率12.常用的分析函数13.连续3天及以上连续出现的次数(减序号) #实习#  #校招#  #大厂#  #数开#  #数仓#
查看13道真题和解析
点赞 评论 收藏
分享
3 4 评论
分享
牛客网
牛客企业服务