吃到了第一张饼

今天面试时间差不多半小时，面完也不知道自己面的到底是实习岗还是正式岗。

先说一下对这个公司的感觉吧，感觉面试官的脾气都比较好，但是并没有让我去进行自我介绍，而是一上来就开始问我的项目。还在担心自己的自我介绍记得不牢固怎么办……总的来说，还算ok。

非常开心的是，我的面试之店终于开张了！过去的一个月都在焦虑，怕自己找不到工作。今天总算正儿八经的去参加了一场面试，但还没有让手撕代码，只是问了一些原理层面的东西。

有几个问题没答上来，需要好好复习一下啦。

业务那个哥问了一个问题，如果数据是有些有标签有些没标签的，应该怎么处理？

雀食，感觉真实业务场景中都不怎么会是有监督学习。我只能给他答上来我的思路，就是我知道它是半监督学习，但我没有怎么接触过

今天没答上来的问题，去问了一下小chat给的答案：

1.SVM支持向量机的优缺点：

优点：

①高维数据处理能力：在高维空间中表现良好，因此适用于处理具有大量特征的数据集，如文本分类或图像识别。

②有效的非线性分类：SVM可以通过核技巧（如径向基函数）来处理非线性问题，从而提高模型的灵活性。

③最大间隔分类：SVM的目标是找到能够实现最大间隔分类的超平面，这意味着它通常有较好的泛化性能，能够更好地应对未见过的数据。

④可以处理小样本：即使在数据集规模比较小的情况下，SVM也可以表现良好，因为它主要依赖于支持向量的特性。

缺点：

①计算复杂度高：对于大型数据集，SVM的训练时间可能较长，尤其是在使用复杂核函数时。

②不适合多分类问题：直接将SVM扩展到多类别问题可能会变得相对复杂。多类别SVM旨在使用支持向量机为实例分配标签，其中标签来自有限的几个元素的集合。目前主要的方法是将单一的多类别问题分解为多个二分类问题。一对多策略：最高函数输出的类别就是最终类别。一对一策略：对于一对一方法，分类是通过最大获胜投票策略来完成的，在该策略中，每个分类器将实例分配给两个类中的一个，然后将分配的类的投票增加一票，最后由投票最多的类决定实例分类。

③对大规模数据集的内存需求较高：在训练SVM时，需要将所有数据存储在内存中，这对于大规模数据集可能会导致内存不足的问题。

2.SVM处理高维数据/海量数据的时候适合用吗？

通常表现得很出色，但也存在一些挑战：

①计算复杂度：时间复杂度通常是O(n^2)到O(n^3)之间，其中n时样本的数量。对于大规模数据集，训练时间可能会变得非常长。

②调参困难：对于大规模数据集，更加复杂的参数调整过程可能会耗费大量的时间和计算资源。

3.决策树的优缺点：

优点：①易于理解和解释：决策树的模型结构类似于人类的决策过程，易于可视化和解释。

②能够处理多输出问题：决策树可以扩展到多输出问题，例如多标签分类和回归。

③能够处理缺失值：决策树可以处理具有缺失值的数据，不需要额外的处理。

缺点：①容易过拟合：决策树倾向于过度分割数据，导致过拟合问题，特别是在深树的情况下。为了缓解过拟合，可以使用剪枝技术或限制树的最大深度等方法。

②稳定性差：决策树对数据中的微小变化非常敏感，这可能导致树的结构不稳定，需要小心处理。

③处理连续性特征时可能不准确：决策树对于连续性特征的处理通常是通过阈值划分的方式，这可能导致对连续型特征的不准确建模。