1、MySQL存储引擎都有哪些?有什么特点?2、MySQL语法:in和exists的区别?--> in 的内容是小表,数据量少,否则查询慢3、大数据生态圈都了解哪些?4、Hive: 1.map join用在什么场景下?怎么用? 2.UDF、UDTF、UDAF区别?用过么?写一下。 3.10亿条用户数据,包含user_id,city,金额,另有一个维表,包含省份、城市,求每个省份有多少个用户? 1.进阶:如果80%的用户都在上海跟北京,会出现什么情况?怎么解决?-->数据倾斜,及其“具体”解决办法5、java: 1.抽象类和接口的区别6、linux: 1.用什么版本?--> cento OS 2.设置环境变量的都是哪几个文件???文档???优先级是什么?7、数仓分几层?每层都干嘛了?维度建模都怎么建的?8、终极问题:如果有10亿条数据,但是只有100M的服务器怎么处理?-->发散类题目,不管是存储还是计算,从多方面回答。这个面试官,最忌讳什么都只说一点点就结束了,需要扩散思维,把知道的都交代一遍。