机器学习面试问题（来源网上）

项目中你用到了归一化，那么当数据有很大和很小值的时候你是怎么处理的？

对数变换
分桶，分箱法：考虑不同区间采用不同函数映射，就是分段函数。比如大部分在0-100区间，那么把0-100映射到0-0.9，剩下的映射到0.9-1。
p.s. 归一化和标准化的区别：
归一化：输出范围在0-1之间，缩放仅仅跟最大、最小值的差别有关。
标准化：输出范围是负无穷到正无穷，缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）
如果对输出结果范围有要求，用归一化
如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。
数据归一化后，可以消除量纲的影响，避免梯度消失或爆炸，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解

1*1卷积核的作用？

哈希冲突如何处理？
http://data.biancheng.net/view/63.html

常见的几种最优化方法（梯度下降法、牛顿法、拟牛顿法、共轭梯度法等）的区别？

梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢
牛顿法收敛速度快，每一步需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂，可通过拟牛顿法简化计算过程。
拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度

4.1 几种优化器的区别？

图片说明

word2vec窗口和负采样的参数如何设置？

为什么交叉熵可以用在分类中?

为什么RNN会梯度消失？

tanh激活函数的求导大于0小于1，以及序列过长会导致梯度消失。（rnn每一步共享权重？）
图片说明
https://blog.nowcoder.net/detail/bed235c53d404371969f448c38447c21

LSTM和GRU的区别？

正则化为什么能防止过拟合？讲一下l1和l2正则化？

模型如何更新？

cbow与N-skipgram哪个训练速度快？

图片说明

为什么要使用lightgbm模型？

GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛，通常被用于点击率预测，搜索排序等任务。LightGBM （Light Gradient Boosting Machine）(请点击https://github.com/Microsoft/LightGBM) 是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有以下优点：
● 更快的训练速度
● 更低的内存消耗
● 更好的准确率
● 分布式支持，可以快速处理海量数据