机器学习面试题与解析1

面试高频题1：

题目：了解决策树吗

答案解析：

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

决策树的构造过程：

决策树的构造过程一般分为3个部分，分别是特征选择、决策树生产和决策树裁剪。

（1）特征选择：

特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准，如何选择特征有不同的量化评估方法，从而衍生出不同的决策树，如ID3（通过信息增益选择特征）、C4.5（通过信息增益比选择特征）、CART（通过Gini指数选择特征）等。

目的（准则）：使用某特征对数据集划分之后，各数据子集的纯度要比划分钱的数据集D的纯度高（也就是不确定性要比划分前数据集D的不确定性低）

（2）决策树的生成

根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止生长。这个过程实际上就是使用满足划分准则的特征不断的将数据集划分成纯度更高，不确定行更小的子集的过程。对于当前数据集的每一次划分，都希望根据某个特征划分之后的各个子集的纯度更高，不确定性更小。

（3）决策树的裁剪

决策树容易过拟合，一般需要剪枝来缩小树结构规模、缓解过拟合。

决策树主要的算法有ID3,C4.5和CART，感兴趣的小伙伴可以深入研究。

面试高频题2：

题目：lstm的原理、lstm和rdd的区别

答案解析：

LSTM原理： LSTM 是一种特殊的RNN。通过精巧的设计（CNN中的深度残差网络也是类似）解决长序列训练过程中的梯度消失和梯度爆炸问题（即远距离传递导致的信息丢失问题）。标准RNN由简单的神经网络模块按时序展开成链式。这个重复模块往往结构简单且单一，如一个tanh层。这种记忆叠加方式显得简单粗暴。LSTM内部有较为复杂的结构。能通过门控状态来选择调整传输的信息，记住需要长时记忆的信息，忘记不重要的信息。LSTM关键在于增加一条贯穿与链上的信息传送带，称为细胞状态（cell state）。LSTM通过精心设计门结构来对cell state上的信息进行增添和移除。门是使得信息选择式通过的方法。包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。Sigmoid 层输出0到1之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 代表“允许任意量通过”。LSTM通过三个门结构来维护cell state上的信息。 RNN和LSTM的区别如下： 1.RNN没有细胞状态；LSTM通过细胞状态记忆信息。 2.RNN激活函数只有tanh；LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数，添加求和操作，减少梯度消失和梯度爆炸的可能性。 3.RNN只能够处理短期依赖问题；LSTM既能够处理短期依赖问题，又能够处理长期依赖问题。这道题主要是考察对LSTM的理解，以及与其他神经网络算法的区别