6-3 经典机器学习算法原理整理(下)
五 、朴素贝叶斯
1.原理
朴素贝叶斯通过特征的概率来预测分类,模型是不需要调参的:
第一步,训练分类器,计算输入的训练样本中,每个不同的分类类别在训练样本中出现的频率以及每个类别下各个特征属性出现的条件概率值。
第二步,对于待分类的样本,计算在该样本出现的条件下,各个分类类别出现的概率,哪个概率最大,待分类的样本就属于哪个类别。
也可以理解成:
参考《统计学习方法》,假定y为某类别可能性,我们可以将公式化简为:有新样本,驾龄2年,车速80,希望判断其性别。
此时,分类结果包括{男,女},样本特征1代表驾龄,特征2代表车速,我们需要对比不同性别时上式分子的值,从而推断性别为男还是为女。
P(性别=男)*p(驾龄=2|性别=男)*p(车速=80|性别=男)=0.5*0.4*0.6=0.12
P(性别=女)*p(驾龄=2|性别=女)*p(车速=80|性别=女)=0.5*0.2*0.2=0.02
结果推测该样本为男性。
2.优缺点
优点:①基于较简单的概率学公式,预测快速;②在分类变量的情况下模型效果好,数值变量需要先假设正态分布。
缺点:①朴素贝叶斯的一个限制前提是各个特征之间相互独立,但这在现实中很难实现
优化:①如果输入的特征是连续变量,但不是正态分布,应当转为正态分布。②朴素贝叶斯在调包计算的过程中可选择的参数有限,应当重点关注数据预处理以及特征工程。
3.场景应用
应用:由于朴素贝叶斯的计算十分迅速,并且以多分类预测闻名,因此,朴素贝叶斯主要可以应用于文本分类;垃圾邮件分类等情况。
4.延伸提问
六、线性可分支持向量机
1.原理
2.优缺点
优点:①少数的支持向量决定了最终结果,对异常值不敏感②计算的复杂性取决于支持向量的数量,而不是样本空间的维度,避免了“维数灾难”。
缺点:①经典的支持向量机主要使用在二分类算法中,若需要解决多分类问题,可以通过多个二分类支持向量机来解决②对参数和核函数的选择比较敏感。
3.延伸提问
多项式核:核参数较多,尤其是当多项式的阶数较高的时候,计算复杂度大。
(3) 非线性可分问题可以用支持向量机吗?
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>