牛客926186275号 - 个人主页动态 - 牛客网

发布(2) 评论刷题收藏

2020-07-02 10:47

西安科技大学大数据开发工程师

#腾讯大数据开发工程师面经# #大数据开发工程师面经# #大数据面试昨天面试腾讯大数据开发，面试题奉上，欢迎大佬指点问题： 1.自我介绍 2.项目细节 3.题目 有用户对于微信文章表t_user_log,数据量约40亿，t_wx_doc表，数据量约400W, 表结构信息如下 create table default.t_user_log (   ip string comment 'ip',   ts string comment '时间戳',   userid string comment '用户id',   docid string comment '文章id',   action string comment '用户行为1 阅读，2点赞，3 分享，4 打赏, 5 评论',   entry  string comment '如口' ) partitioned by (   day string comment '' )create table default.t_wx_doc (cpid string comment '公众号id',ts string comment '发文时间戳' ,docid string comment '文章id',text string comment '文章内容',category string comment '文章分类') 机器资源有限，（vcore 小与100， &&men<400G）请编程解决下面两个问题计算框架 算法不限1 .找出热门的公众号top102. 给定一个10000w 大小用户包（userid 字符长度为16）计算他们各自最可能喜欢的5个公众号4. Flink如何保障在使用kafka的时候是execyly-one的？5. Flink与spark的区别6. Flink内存模型7. Spark内存模型8. Spark shuffle过程9. Spark Rdd属性10. Rdd的那个算子可以重分区但是不用shuffle11. 问题3热门文章数据量大的时候，出现数据倾斜如何解决面试完之后感觉要跪了，效果很差。继续加油补知识

投递腾讯等公司6个岗位大数据求职圈

0 点赞评论收藏

分享

2020-07-02 10:43

西安科技大学大数据开发工程师

在牛客打卡1天，今天也很努力鸭！

大数据求职圈

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客企业服务