广联达数据分析一面面经
总体是30分钟。
- 自我介绍。
- 介绍一下Wide&Deep模型结构。
- 说一下召回和排序分别是做什么的。
- 销量预测大赛项目构造了哪些特征;对于省份、车型这些字符串类型的数据是怎么处理的才能输入决策树模型中;为什么不选用序列模型。
- SQL中where和having的区别。
HAVING子句可以筛选成组后的各组数据,WHERE子句在聚合前先筛选记录,也就是说作用在GROUP BY子句和HAVING子句前;而 HAVING子句在聚合后对组记录进行筛选。 - group by和partition by的区别。
(1)group by是分组函数,partition by是分析函数(然后像sum()等是聚合函数);
(2)在执行顺序上,以下是常用sql关键字的优先级from > where > group by > having > order by,而partition by应用在以上关键字之后,实际上就是在执行完select之后,在所得结果集之上进行partition;
(3)partition by相比较于group by,能够在保留全部数据的基础上,只对其中某些字段做分组排序(类似excel中的操作),而group by则只保留参与分组的字段和聚合函数的结果(类似excel中的pivot)。
(4)如果在partition结果上聚合,聚合函数是逐条累计运行结果的,而在group by后的结果集上使用聚合函数,会作用在分组下的所有记录上。 - 索引是什么。
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。索引的作用相当于图书的目录,可以根据目录中的页码迅速找到所需的内容。 - mysql的索引机制和原理。
B+树。 - sql中有几种join的方法,有什么区别。
- 介绍GBDT和rf以及他们的不同之处。
- 过拟合以及解决方法。
- 讲一下内存管理。