一面: 自我介绍 从实习出发提问: 说一说你实习过程中使用 hive sql 的一些心得 你处理字符串字段的时候会使用到哪些函数?需要匹配特定模式字符串可以使用哪些函数? 你刚刚说到的把太多数据分到一个服务器上处理导致运行太慢是什么现象?(数据倾斜) 当两个表相连接,出现数据倾斜,你怎么处理?如果是两个大表连接出现数据倾斜又能怎么处理? 从数据挖掘角度出发: 用通俗的语言解释一下 bagging 和 boosting 假设现在我们想根据公司以前的快递数据训练一个模型用来预测公司以后每个月的快递量,并且向公司提供这项服务,在公司的相关属性数据可以获得的情况下,你会怎么选择模型? 从业务...