吐血整理！！人工智能面试必看的面试题合集，不看后悔一辈子

各位小伙伴们大家好啊，今天给大家带来的是关于人工智能方向的面试题，如果还没有找到工作或者是正在准备面试的小伙伴可以仔细看看噢，其他小伙伴也可以借此对自己的知识点查缺补漏一下。

1.防止过拟合的方法有哪些？

过拟合的原因是算法的学习能力过强；一些假设条件（如样本独立同分布）可能是不成立的；

训练样本过少不能对整个空间进行分布估计。

处理方法有： a. 早停止，如在训练中多次迭代后发现模型性能没有显著提高就停止训练； b. 数据集扩增，原有数据增加、原有数据加随机噪声、重采样； c. 正则化 d.交叉验证 e.特征选择/特征降维

2.LR和SVM的联系与区别是什么？

联系： 1）都是分类算法 2）如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的 3）LR和SVM都是监督学习算法

区别 1）LR和SVM的损失函数不同 2）SVM只考虑局部的边界线附近的点，LR考虑全局，远离的点对边界线的确定也起作用

3.在k-means或kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？

曼哈顿距离只计算水平或垂直距离，有维度的限制，而欧氏距离可用于任何空间的距离计算问题。

4.什么时候正则化在机器学习中是有必要的？

当模型过度拟合或者欠拟合的时候，正则化是有必要的。这个技术引入了一个成本项，用于带来目标函数的更多特征。因此，正则化是将许多变量的系数推向零，由此而降低成本项。这有助于降低模型的复杂度，使该模型可以在预测上（泛化）变得更好。

5.什么叫做不平衡数据集，有什么应对方案？

不平衡数据集数据集中，每个类别下的样本数目相差很大。解决不平衡分类问题的策略可以分为两大类，一类是从训练集入手 , 通过改变训练集样本分布 ,降低不平衡程度 .另一类是从学习算法入手 , 根据算法在解决不平衡问题时的缺陷 , 适当地修改算法使之适应不平衡分类问题。平衡训练集的方法主要有训练集重采样 (re-sampling)方法和训练集划分方法。学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等。

6.什么是 K-fold 交叉验证？

K-fold 交叉验证就是把原始数据随机分成 K 个部分，在这 K 个部分中选择一个作为测试数据，剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次，每次实验都从 K 个部分中选择一个不同的部分作为测试数据，剩余的数据作为训练数据进行实验，最后把得到的 K 个实验结果平均，用于评价模型的泛化能力，从而进行模型选择。

7.传统图像处理提取的sift特征是什么意思？

sift指的是scale invarient feature transform，即尺度不变特征变换。sift特征是一种对缩放、旋转、光照变化等不敏感的局部图像特征，其提取过程是先生成图像的尺度空间，然后在尺度空间中检测极值点作为关键点，最后利用关键点邻域的梯度信息生成特征描述符。

8.现在深度学习在nlp领域有哪些应用？请具体说明

1）机器翻译，or神经机器翻译（NMT）在翻译中提供了统计方式之外的另一种方式，同时也更加简便。 2）知识问答，问答机器人，可以用深度学习模型，从语料中学习获得一些问题的答案。 3）自然语言生成，能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，来自动生成一段高质量的自然语言文本。

9.你意识到你的模型受到低偏差和高方差问题的困扰。那么，应该使用哪种算法来解决问题呢？为什么？

可以使用bagging算法（如随机森林）。因为，低偏差意味着模型的预测值接近实际值，换句话说，该模型有足够的灵活性，以模仿训练数据的分布。这样貌似很好，但是别忘了，一个灵活的模型没有泛化能力，意味着当这个模型用在对一个未曾见过的数据集进行测试的时候，它会令人很失望。在这种情况下，我们可以使用bagging算法（如随机森林），以解决高方差问题。bagging算法把数据集分成重复随机取样形成的子集。然后，这些样本利用单个学习算法生成一组模型。接着，利用投票（分类）或平均（回归）把模型预测结合在一起。另外，为了应对大方差，我们可以使用正则化技术，惩罚更高的模型系数，从而降低了模型的复杂性，另外还可以使用可变重要性图表中的前n个特征。可以用于当一个算法在数据集中的所有变量里很难寻找到有意义信号的时候。

10.给你一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？