吃到了第一张饼
今天面试时间差不多半小时,面完也不知道自己面的到底是实习岗还是正式岗。
先说一下对这个公司的感觉吧,感觉面试官的脾气都比较好,但是并没有让我去进行自我介绍,而是一上来就开始问我的项目。还在担心自己的自我介绍记得不牢固怎么办……总的来说,还算ok。
非常开心的是,我的面试之店终于开张了!过去的一个月都在焦虑,怕自己找不到工作。今天总算正儿八经的去参加了一场面试,但还没有让手撕代码,只是问了一些原理层面的东西。
有几个问题没答上来,需要好好复习一下啦。
业务那个哥问了一个问题,如果数据是有些有标签有些没标签的,应该怎么处理?
雀食,感觉真实业务场景中都不怎么会是有监督学习。我只能给他答上来我的思路,就是我知道它是半监督学习,但我没有怎么接触过
今天没答上来的问题,去问了一下小chat给的答案:
1.SVM支持向量机的优缺点:
优点:
①高维数据处理能力:在高维空间中表现良好,因此适用于处理具有大量特征的数据集,如文本分类或图像识别。
②有效的非线性分类:SVM可以通过核技巧(如径向基函数)来处理非线性问题,从而提高模型的灵活性。
③最大间隔分类:SVM的目标是找到能够实现最大间隔分类的超平面,这意味着它通常有较好的泛化性能,能够更好地应对未见过的数据。
④可以处理小样本:即使在数据集规模比较小的情况下,SVM也可以表现良好,因为它主要依赖于支持向量的特性。
缺点:
①计算复杂度高:对于大型数据集,SVM的训练时间可能较长,尤其是在使用复杂核函数时。
②不适合多分类问题:直接将SVM扩展到多类别问题可能会变得相对复杂。多类别SVM旨在使用支持向量机为实例分配标签,其中标签来自有限的几个元素的集合。目前主要的方法是将单一的多类别问题分解为多个二分类问题。一对多策略:最高函数输出的类别就是最终类别。一对一策略:对于一对一方法,分类是通过最大获胜投票策略来完成的,在该策略中,每个分类器将实例分配给两个类中的一个,然后将分配的类的投票增加一票,最后由投票最多的类决定实例分类。
③对大规模数据集的内存需求较高:在训练SVM时,需要将所有数据存储在内存中,这对于大规模数据集可能会导致内存不足的问题。
2.SVM处理高维数据/海量数据的时候适合用吗?
通常表现得很出色,但也存在一些挑战:
①计算复杂度:时间复杂度通常是O(n^2)到O(n^3)之间,其中n时样本的数量。对于大规模数据集,训练时间可能会变得非常长。
②调参困难:对于大规模数据集,更加复杂的参数调整过程可能会耗费大量的时间和计算资源。
3.决策树的优缺点:
优点:①易于理解和解释:决策树的模型结构类似于人类的决策过程,易于可视化和解释。
②能够处理多输出问题:决策树可以扩展到多输出问题,例如多标签分类和回归。
③能够处理缺失值:决策树可以处理具有缺失值的数据,不需要额外的处理。
缺点:①容易过拟合:决策树倾向于过度分割数据,导致过拟合问题,特别是在深树的情况下。为了缓解过拟合,可以使用剪枝技术或限制树的最大深度等方法。
②稳定性差:决策树对数据中的微小变化非常敏感,这可能导致树的结构不稳定,需要小心处理。
③处理连续性特征时可能不准确:决策树对于连续性特征的处理通常是通过阈值划分的方式,这可能导致对连续型特征的不准确建模。
④产生不平衡树:如果某个类别的样本数量远远大于其他类别,决策树可能会产生不平衡的树结构,导致对少数类别的分类性能下降。
#弓早早的面试感悟(从心的我)#