#腾讯大数据开发工程师面经#
#大数据开发工程师面经#
#大数据面试
昨天面试腾讯大数据开发,面试题奉上,欢迎大佬指点
问题:
1.自我介绍
2.项目细节
3.题目 有用户对于微信文章表t_user_log,数据量约40亿,t_wx_doc表,数据量约400W,
表结构信息如下
create table default.t_user_log (
ip string comment 'ip',
ts string comment '时间戳',
userid string comment '用户id',
docid string comment '文章id',
action string comment '用户行为1 阅读,2点赞,3 分享,4 打赏, 5 评论',
entry string comment '如口'
) partitioned by (
day string comment ''
)
create table default.t_wx_doc (
cpid string comment '公众号id',
ts string comment '发文时间戳' ,
docid string comment '文章id',
text string comment '文章内容',
category string comment '文章分类'
)
机器资源有限,(vcore 小与100, &&men<400G)请编程解决下面两个问题
计算框架 算法不限
1 .找出热门的公众号top10
2. 给定一个10000w 大小用户包(userid 字符长度为16)计算他们各自最可能喜欢的5个公众号
4. Flink如何保障在使用kafka的时候是execyly-one的?
5. Flink与spark的区别
6. Flink内存模型
7. Spark内存模型
8. Spark shuffle过程
9. Spark Rdd属性
10. Rdd的那个算子可以重分区但是不用shuffle
11. 问题3热门文章数据量大的时候,出现数据倾斜如何解决
面试完之后感觉要跪了,效果很差。继续加油补知识
#大数据开发工程师面经#
#大数据面试
昨天面试腾讯大数据开发,面试题奉上,欢迎大佬指点
问题:
1.自我介绍
2.项目细节
3.题目 有用户对于微信文章表t_user_log,数据量约40亿,t_wx_doc表,数据量约400W,
表结构信息如下
create table default.t_user_log (
ip string comment 'ip',
ts string comment '时间戳',
userid string comment '用户id',
docid string comment '文章id',
action string comment '用户行为1 阅读,2点赞,3 分享,4 打赏, 5 评论',
entry string comment '如口'
) partitioned by (
day string comment ''
)
create table default.t_wx_doc (
cpid string comment '公众号id',
ts string comment '发文时间戳' ,
docid string comment '文章id',
text string comment '文章内容',
category string comment '文章分类'
)
机器资源有限,(vcore 小与100, &&men<400G)请编程解决下面两个问题
计算框架 算法不限
1 .找出热门的公众号top10
2. 给定一个10000w 大小用户包(userid 字符长度为16)计算他们各自最可能喜欢的5个公众号
4. Flink如何保障在使用kafka的时候是execyly-one的?
5. Flink与spark的区别
6. Flink内存模型
7. Spark内存模型
8. Spark shuffle过程
9. Spark Rdd属性
10. Rdd的那个算子可以重分区但是不用shuffle
11. 问题3热门文章数据量大的时候,出现数据倾斜如何解决
面试完之后感觉要跪了,效果很差。继续加油补知识
全部评论
感谢分享
码一下,我是刚选方向的菜鸡
能问下怎么投的大数据开发吗?校招岗位只有数据分析啊😂
大佬知道是腾讯哪个事业群吗?
相关推荐