#腾讯大数据开发工程师面经# #大数据开发工程师面经# #大数据面试 昨天面试腾讯大数据开发,面试题奉上,欢迎大佬指点问题: 1.自我介绍 2.项目细节 3.题目 有用户对于微信文章表t_user_log,数据量约40亿,t_wx_doc表,数据量约400W, 表结构信息如下 create table default.t_user_log ( ip string comment 'ip', ts string comment '时间戳', userid string comment '用户id', docid string comment '文章id', action string comment '用户行为1 阅读,2点赞,3 分享,4 打赏, 5 评论', entry string comment '如口' ) partitioned by ( day string comment '' )create table default.t_wx_doc (cpid string comment '公众号id',ts string comment '发文时间戳' ,docid string comment '文章id',text string comment '文章内容',category string comment '文章分类') 机器资源有限,(vcore 小与100, &&men计算框架 算法不限1 .找出热门的公众号top102. 给定一个10000w 大小用户包(userid 字符长度为16)计算他们各自最可能喜欢的5个公众号4. Flink如何保障在使用kafka的时候是execyly-one的?5. Flink与spark的区别6. Flink内存模型7. Spark内存模型8. Spark shuffle过程9. Spark Rdd属性10. Rdd的那个算子可以重分区但是不用shuffle11. 问题3热门文章数据量大的时候,出现数据倾斜如何解决面试完之后感觉要跪了,效果很差。继续加油补知识