B站外包二面

没想到,真是没想到还给我发了二面的机会。
1.你最熟悉的大数据框架--Spark
2.宽窄依赖,算子中哪个是宽依赖算子?哪个是窄依赖算子?简单举几个例子。
3.colase算子简单介绍下--忘了
4.平时用PySpark写代码,主要用RDD还是SQL完成?--SQL
5.Shuffle原理和shuffle过程
6.shuffle的几种方式:?和storted方式简单介绍下
7.使用的Spark版本号--3.1.2
8.所有项目中最有成就感的是哪个?
项目中 -> rfm的取值范围:
    r:0~30,30~60,60~90
    f:1,10,100
    m:最开始是0.01,后面改为18,38,100
ES:作为数据导出的部分
9.最近工作的数据量有多大?--> 几百万。
    面试官回答:我们量级更大,几十、上百亿条数据
10.报表软件熟悉哪些?FineReport,tableau
11.一道SQL题,求连续登录天数等于十的用户数。
全部评论
怎么知道是外包公司啊
点赞 回复 分享
发布于 11-18 21:21 浙江
哪个部门呀,商业化还是主站呀
点赞 回复 分享
发布于 11-19 11:47 江苏

相关推荐

不愿透露姓名的神秘牛友
11-07 11:33
B站 技术岗 21 + 1 以下( 21~24 ) + 1( 24~28 ) + 1( 28~30 ) + 130 + 1 以上
点赞 评论 收藏
分享
评论
1
收藏
分享
牛客网
牛客企业服务