B站外包面经
1、MySQL存储引擎都有哪些?有什么特点?
2、MySQL语法:in和exists的区别?--> in 的内容是小表,数据量少,否则查询慢
3、大数据生态圈都了解哪些?
4、Hive:
1.map join用在什么场景下?怎么用?
2.UDF、UDTF、UDAF区别?用过么?写一下。
3.10亿条用户数据,包含user_id,city,金额,另有一个维表,包含省份、城市,求每个省份有多少个用户?
1.进阶:如果80%的用户都在上海跟北京,会出现什么情况?怎么解决?-->数据倾斜,及其“具体”解决办法
5、java:
1.抽象类和接口的区别
6、linux:
1.用什么版本?--> cento OS
2.设置环境变量的都是哪几个文件???文档???优先级是什么?
7、数仓分几层?每层都干嘛了?维度建模都怎么建的?
8、终极问题:如果有10亿条数据,但是只有100M的服务器怎么处理?-->发散类题目,不管是存储还是计算,从多方面回答。
这个面试官,最忌讳什么都只说一点点就结束了,需要扩散思维,把知道的都交代一遍。
2、MySQL语法:in和exists的区别?--> in 的内容是小表,数据量少,否则查询慢
3、大数据生态圈都了解哪些?
4、Hive:
1.map join用在什么场景下?怎么用?
2.UDF、UDTF、UDAF区别?用过么?写一下。
3.10亿条用户数据,包含user_id,city,金额,另有一个维表,包含省份、城市,求每个省份有多少个用户?
1.进阶:如果80%的用户都在上海跟北京,会出现什么情况?怎么解决?-->数据倾斜,及其“具体”解决办法
5、java:
1.抽象类和接口的区别
6、linux:
1.用什么版本?--> cento OS
2.设置环境变量的都是哪几个文件???文档???优先级是什么?
7、数仓分几层?每层都干嘛了?维度建模都怎么建的?
8、终极问题:如果有10亿条数据,但是只有100M的服务器怎么处理?-->发散类题目,不管是存储还是计算,从多方面回答。
这个面试官,最忌讳什么都只说一点点就结束了,需要扩散思维,把知道的都交代一遍。
全部评论
相关推荐
点赞 评论 收藏
分享