B站外包二面
没想到,真是没想到还给我发了二面的机会。
1.你最熟悉的大数据框架--Spark
2.宽窄依赖,算子中哪个是宽依赖算子?哪个是窄依赖算子?简单举几个例子。
3.colase算子简单介绍下--忘了
4.平时用PySpark写代码,主要用RDD还是SQL完成?--SQL
5.Shuffle原理和shuffle过程
6.shuffle的几种方式:?和storted方式简单介绍下
7.使用的Spark版本号--3.1.2
8.所有项目中最有成就感的是哪个?
项目中 -> rfm的取值范围:
r:0~30,30~60,60~90
f:1,10,100
m:最开始是0.01,后面改为18,38,100
ES:作为数据导出的部分
9.最近工作的数据量有多大?--> 几百万。
面试官回答:我们量级更大,几十、上百亿条数据
10.报表软件熟悉哪些?FineReport,tableau
11.一道SQL题,求连续登录天数等于十的用户数。
1.你最熟悉的大数据框架--Spark
2.宽窄依赖,算子中哪个是宽依赖算子?哪个是窄依赖算子?简单举几个例子。
3.colase算子简单介绍下--忘了
4.平时用PySpark写代码,主要用RDD还是SQL完成?--SQL
5.Shuffle原理和shuffle过程
6.shuffle的几种方式:?和storted方式简单介绍下
7.使用的Spark版本号--3.1.2
8.所有项目中最有成就感的是哪个?
项目中 -> rfm的取值范围:
r:0~30,30~60,60~90
f:1,10,100
m:最开始是0.01,后面改为18,38,100
ES:作为数据导出的部分
9.最近工作的数据量有多大?--> 几百万。
面试官回答:我们量级更大,几十、上百亿条数据
10.报表软件熟悉哪些?FineReport,tableau
11.一道SQL题,求连续登录天数等于十的用户数。
全部评论
怎么知道是外包公司啊
哪个部门呀,商业化还是主站呀
相关推荐
投票
B站 技术岗 21 + 1 以下( 21~24 ) + 1( 24~28 ) + 1( 28~30 ) + 130 + 1 以上
点赞 评论 收藏
分享