2019-11-29 10:36 已编辑门头沟学院 Java

关注

第十讲聚类模型

K-mens聚类

将样本划分为由类似的对象组成的多个类的过程。聚类后，我们可以更加准确的在每个类中单独使用统计模型进行评估、分析或者预测；也可以探究不同类之间的相关性和主要差异。
分类是已知类别的，聚类未知。

K-means聚类算法流程：

指定需要划分的簇的个数K值（类的个数）
随机地选择k个数据对下个作为初始的聚类中心
计算其余的各个数据对象到这k个初始聚类中心的距离，把数据对象划分为距离它最近的那个中心所在的簇类中
调整新类并且重新计算出新类的中心；
循环步骤三、四，看中心是否收敛不变，如果收敛或达到迭代次数则停止循环
结束

流程图

k-means算法的评价
优点：

算法简单，快速
对处理大数据集，该算法是相对高效率的
缺点：
要求用户必须事先给出要生成的簇的数目k
对初值敏感
对于孤立点数据敏感

K-mean++算法

k-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能远。
流程：

随机选取一个样本作为第一个聚类中心
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个数越大，表示被选取作为聚类中心的概率越大；最后，用轮盘法（依据概率大小来选取抽选）选出下一个聚类中心
重复第二步，直到选择k个聚类中心，选出初始点后，就继续使用标准的k-means算法。

操作：分类 - > 聚类

所有变量通过spss进行标准化消去量纲可能结果会跟原来不一样

图片说明

系统/层次聚类

系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到将所有数据点合为一类，并生成聚类谱系图。
课程分类或者成绩分类

指标与指标之间的距离

例子

类与类之间的距离用重心法来定义的

方法

最短距离法

最长距离定义法

组间平均连接法

组内平均连接法

图片说明

重心法

图片说明

系统聚类流程图

最短距离系统聚类法

根据五个学生的六门课的成绩，对这五个学生进行分类

计算每两个学生的距离（样品间的距离矩阵欧氏距离）

将每一个样品看做是一个类

即G1 G2 G3 G4 G5 观察D(G1,G5) = 15.8 最小，故将G1与G5聚为一类，记为G6 ，计算新类与其余各类之间的距离，得到新的距离矩阵D1

聚类结果

聚类分析注意问题

对于一个实际问题要根据分类的目的来选取指标，指标选取不同分类结果一般也不同
样品间距离定义方式不同，聚类结果也一般不同
聚类方式的不同，聚类结果一般也不同（尤其是样品特别多的时候）。最好能够通过各种方法找出其中的共性
要注意指标的量纲，量纲差别太大会导致聚类结果不合理
聚类分析的结果可能不令人满意，因为我们所做的事一个数学的处理，对于结果我们要找到一个合理的解释。

流程

将每个对象看作一类，计算两两之间的最小距离
将距离最小的两个类合并为一个新类
重新计算新类与所有类之间的距离
重复二三两步，直到所有的类最后合并成一类
结束
spss的操作

标准化需要知道怎么还原

肘部法则

DBSCAN算法

全部评论

推荐最新楼层

03-13 00:48

美团_到店_前端工程师

美团内推美团内推美团内推美团内推美团内推美团内推美团内推

美团内推码：SBH55RV 内推链接: https://zhaopin.meituan.com/web/position?staffSsoId=20507416 美团，激发你的潜能！我们致力于打造一个开放、包容、创新的工作环境，让你展现才华，实现自我突破！ 以下是面经分享： 第一轮技术面 自我介绍 强缓存与协商缓存机制实现原理 HTTP/1、HTTP/2、HTTP/3的核心区别 Set与WeakSet的区别及弱引用特性 闭包与V8垃圾回收机制 React Hooks的设计动机及函数组件与类组件的差异 React Fiber架构解决的问题及实现思路 手写发布订阅模式 实现Promise.re...

点赞评论收藏

03-11 13:47

大连医科大学嵌入式软件开发

大疆 - 嵌入式工程师（上海）- 面经（123）

❗❗如果本文对您有帮助，请不要吝啬您的评论、点赞、收藏与小花，这对我非常重要！谢谢！❗❗ 部分内容为牛客其他同学分享，单击小标题即可跳转至对应链接 如果侵犯了您的权益，请与我取得联系，我将立刻删除对应部分 -1、背景 岗位：嵌入式工程师（上海） 工作职责： 你将深入最底层的技术，从芯片第一条指令到整个复杂智能系统，整个软硬件系统都将为你敞开； 你将探索各类应用场景，设计实现安全、易用、智能的功能，为全球用户带来全新的体验； 多通道发展路线，纯粹的工程师文化，期待才华横溢、充满热情的你加入大疆！ 深入理解产品，参与到产品开发的整个生命周期中，包括需求定义、方案设计、实现、测试、生产、售后等...

嵌入式软件名企笔/面试真... 软件开发笔面经

点赞评论收藏

02-18 11:11

四川大学 Java

谁说大专找不到Java

我命由我不由天只要努力就一定可以八股不知道咋记，不知道重点，可以看看我的神品八股专栏，介绍如下https://www.nowcoder.com/discuss/718273556131377152?sourceSSR=users

醉蟀：上链接

点赞评论收藏

02-28 17:01

门头沟学院 C++

24届现在找工作是不是炸了

没有实习，全是项目。简历还不知道怎么优化#简历中的项目经历要怎么写#

俊朗的铁猫希望被捞：兄弟如果只想搞钱的话，你这个简历最适合的其实是辅导机构

做dai写啥的真的特别赚

简历中的项目经历要怎么写

点赞评论收藏

03-11 10:46

合肥工业大学游戏前端

多益客户端一面面经

2025.3.101. 自我介绍2. 之前的实习，离职原因等3. 拷打项目： 有什么技术难点； AI怎么实现的；4. 做过什么框架，具体实现的细节；5. 校园经历 为什么办游戏开发社 怎么实现社团管理 办过什么活动6. Unity生命周期-start/enable什么区别-Awake/Start-两个物体互相拿组件7. 拷打项目 怎么做的性能优化； 如果是背包中很多图片如何处理优化； 合批，DrawCall，静态/动态合批；8. 碰撞如何实现，快速物体穿过，没有发生碰撞怎么解决；9. 动画系统，如何实现边移动边干其他的事情；10. 深度测试；11. 锯齿是怎么形成的；12. 栈和队列的区别；1...

查看22道真题和解析面试常问题系列

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 如果能重来，就业or读研你选哪个？ #

108696次浏览 1389人参与

# 我的省钱小妙招 #

6933次浏览 222人参与

第十讲 聚类模型

K-mens聚类

K-means聚类算法流程：

K-mean++算法

操作： 分类 - > 聚类

所有变量通过spss进行标准化 消去量纲 可能结果会跟原来不一样

系统/层次聚类

指标与指标之间的距离

例子

类与类之间的距离用重心法来定义的

方法

最短距离法

最长距离定义法

组间平均连接法

组内平均连接法

重心法

系统聚类流程图

最短距离系统聚类法

计算每两个学生的距离 （样品间的距离矩阵 欧氏距离）

将每一个样品看做是一个类

聚类结果

聚类分析注意问题

流程

spss的操作

标准化 需要知道怎么还原

肘部法则

DBSCAN算法

全站热榜

创作者周榜

第十讲聚类模型

操作：分类 - > 聚类

所有变量通过spss进行标准化消去量纲可能结果会跟原来不一样

计算每两个学生的距离（样品间的距离矩阵欧氏距离）

标准化需要知道怎么还原