【有书共读】《机器学习》读书笔记CH9-CH10

第九章  聚类
在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习揭示数据内在性质及规律,为进一步的数据分析提供基础。
聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
聚类性能度量:外部指标,(1)Jaccard系数,(2)FM指数,(3)Rand指数
内部指标:(1)BD指数,(2)Dunn指数
距离计算包括闵可夫斯基距离:有序属性和VDM距离:无序属性
原型聚类:K均值算法、学习向量量化、高斯混合聚类、密度聚类、DBSCAN
层次聚类:AGNES
k均值算法可看作高斯混合聚类在混合成分方差相等,且每个样本仅指派给一个混合成分时的特例

第十章:降维与度量学习
懒惰学习:在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。懒惰学习方法有k近邻学习器、懒惰决策树。
急切学习:在训练阶段就对样本进行学习处理。
维数灾难:在高维情形下出现的样本数据稀疏、距离计算困难等问题。
缓解维数灾难的一个重要途径是降维,亦称“维数简约”,即通过某种数字 变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变的更为容易。
线性降维方法:MSD:原始空间中样本之间的距离在低维空间中得以保持。PCA:对样本具有最大可分性。
非线性降维方法:核化线性降维:KPCA,”核化“PCA;流形学习。
度量学习:直接学习出一个合适的距离度量
#笔记##机器学习##读书笔记#
全部评论

相关推荐

生命诚可贵:先不说内容怎么样 排版就已经太差劲了 第一眼看不到重点,第二眼已经没有再看的耐心了, 篇幅占的太满了 字体不要用灰色 观感不好 想重点突出的黑色加粗就可以了 多列要点 少些大段的句子 项目经历把项目用的技术要点列出来,光写个python plc什么的太宽泛了 自我评价也有点偏多
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客企业服务