顺丰大数据挖掘与分析暑期实习面经
一面:
- 自我介绍
- 从实习出发提问:
- 说一说你实习过程中使用 hive sql 的一些心得
- 你处理字符串字段的时候会使用到哪些函数?需要匹配特定模式字符串可以使用哪些函数?
- 你刚刚说到的把太多数据分到一个服务器上处理导致运行太慢是什么现象?(数据倾斜)
- 当两个表相连接,出现数据倾斜,你怎么处理?如果是两个大表连接出现数据倾斜又能怎么处理?
- 从数据挖掘角度出发:
- 用通俗的语言解释一下 bagging 和 boosting
- 假设现在我们想根据公司以前的快递数据训练一个模型用来预测公司以后每个月的快递量,并且向公司提供这项服务,在公司的相关属性数据可以获得的情况下,你会怎么选择模型?
- 从业务角度出发:
- 知道 gmv 是什么吗?
- 假设现在想判断一个市场是不是优势市场,你可以怎么办?(当时也不懂优势市场是什么,反问请面试官解释了一下才回答)
二面(hr面):
- 实习经历、个人性格、兴趣爱好、家庭情况等常规问题