【有书共读】《机器学习》读书笔记CH9-CH10

第九章  聚类
在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习揭示数据内在性质及规律,为进一步的数据分析提供基础。
聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
聚类性能度量:外部指标,(1)Jaccard系数,(2)FM指数,(3)Rand指数
内部指标:(1)BD指数,(2)Dunn指数
距离计算包括闵可夫斯基距离:有序属性和VDM距离:无序属性
原型聚类:K均值算法、学习向量量化、高斯混合聚类、密度聚类、DBSCAN
层次聚类:AGNES
k均值算法可看作高斯混合聚类在混合成分方差相等,且每个样本仅指派给一个混合成分时的特例

第十章:降维与度量学习
懒惰学习:在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。懒惰学习方法有k近邻学习器、懒惰决策树。
急切学习:在训练阶段就对样本进行学习处理。
维数灾难:在高维情形下出现的样本数据稀疏、距离计算困难等问题。
缓解维数灾难的一个重要途径是降维,亦称“维数简约”,即通过某种数字 变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变的更为容易。
线性降维方法:MSD:原始空间中样本之间的距离在低维空间中得以保持。PCA:对样本具有最大可分性。
非线性降维方法:核化线性降维:KPCA,”核化“PCA;流形学习。
度量学习:直接学习出一个合适的距离度量
#笔记##机器学习##读书笔记#
全部评论

相关推荐

点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-27 10:46
点赞 评论 收藏
分享
评论
点赞
2
分享
牛客网
牛客企业服务