2019-11-29 10:36 已编辑门头沟学院 Java

关注

第十讲聚类模型

K-mens聚类

将样本划分为由类似的对象组成的多个类的过程。聚类后，我们可以更加准确的在每个类中单独使用统计模型进行评估、分析或者预测；也可以探究不同类之间的相关性和主要差异。
分类是已知类别的，聚类未知。

K-means聚类算法流程：

指定需要划分的簇的个数K值（类的个数）
随机地选择k个数据对下个作为初始的聚类中心
计算其余的各个数据对象到这k个初始聚类中心的距离，把数据对象划分为距离它最近的那个中心所在的簇类中
调整新类并且重新计算出新类的中心；
循环步骤三、四，看中心是否收敛不变，如果收敛或达到迭代次数则停止循环
结束

流程图

k-means算法的评价
优点：

算法简单，快速
对处理大数据集，该算法是相对高效率的
缺点：
要求用户必须事先给出要生成的簇的数目k
对初值敏感
对于孤立点数据敏感

K-mean++算法

k-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能远。
流程：

随机选取一个样本作为第一个聚类中心
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个数越大，表示被选取作为聚类中心的概率越大；最后，用轮盘法（依据概率大小来选取抽选）选出下一个聚类中心
重复第二步，直到选择k个聚类中心，选出初始点后，就继续使用标准的k-means算法。

操作：分类 - > 聚类

所有变量通过spss进行标准化消去量纲可能结果会跟原来不一样

图片说明

系统/层次聚类

系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到将所有数据点合为一类，并生成聚类谱系图。
课程分类或者成绩分类

指标与指标之间的距离

例子

类与类之间的距离用重心法来定义的

方法

最短距离法

最长距离定义法

组间平均连接法

组内平均连接法

图片说明

重心法

图片说明

系统聚类流程图

最短距离系统聚类法

根据五个学生的六门课的成绩，对这五个学生进行分类

计算每两个学生的距离（样品间的距离矩阵欧氏距离）

将每一个样品看做是一个类

即G1 G2 G3 G4 G5 观察D(G1,G5) = 15.8 最小，故将G1与G5聚为一类，记为G6 ，计算新类与其余各类之间的距离，得到新的距离矩阵D1

聚类结果

聚类分析注意问题

对于一个实际问题要根据分类的目的来选取指标，指标选取不同分类结果一般也不同
样品间距离定义方式不同，聚类结果也一般不同
聚类方式的不同，聚类结果一般也不同（尤其是样品特别多的时候）。最好能够通过各种方法找出其中的共性
要注意指标的量纲，量纲差别太大会导致聚类结果不合理
聚类分析的结果可能不令人满意，因为我们所做的事一个数学的处理，对于结果我们要找到一个合理的解释。

流程

将每个对象看作一类，计算两两之间的最小距离
将距离最小的两个类合并为一个新类
重新计算新类与所有类之间的距离
重复二三两步，直到所有的类最后合并成一类
结束
spss的操作

标准化需要知道怎么还原

肘部法则

DBSCAN算法

全部评论

推荐最新楼层

11-19 11:46

饿了么_后端研发工程师(准入职员工)

春秋航空内推，春秋航空内推码

春秋✈️ 综合管理类培训生 初试面经搜遍全网没有面经，趁着下午刚面完出一波攒攒秋招人品，希望对uu们有帮助在上海线下面的，半小时左右一波人，是群面哦～记得打印两份简历带上流程：1、自我介绍2、对春秋航空成本管控方面的理解（同组uu答的都好全面，完全没有什么补充hhhh）3、有关财务方面的实习经历介绍，谈谈自己参与的工作、对岗位的理解、对工作提效的想法之类的4、什么渠道投递的简历5、自己的实习投递的渠道是什么6、横向多岗位实习较垂直实习的优劣势（本人实习岗位比较杂hhh）7、对未来的规划，是否想好要做财务方面8、例行反问总体而言，面试官们都非常好，超级温柔～春秋航空2026届秋招启动~ 【我们是...

点赞评论收藏

11-22 15:46

门头沟学院 Java

给大家一些选offer的建议

楼主23年毕业，Java技术栈。当时拿了五六个offer，后来为了躺平选择了一个最稳定的本地国企，这是背景。进来后由于经济不景气工资一降再降，两年来工资是越发越少，日常工作内容基本就是天天表格，写点文档，基本没啥技术工作。为了划拉更多w，所以现在打算跳出来了。应届身份十分重要。企业对应届生的要求挺低的，当时我面的一些银行，甚至有的就问了一个问题就发offer了。现在想回去连面试机会都不给了。从高往低走简单，从低往高走就难了。建议选择手里offer工资最高，或者平台最大的那个。现在没啥好工作，只能建议把自己多卖点钱。从大企业往小企业跳槽简单，反过来就难了啊。不是所有人都有躺平的资格。如果你家底不...

总结:offer选择，我...

点赞评论收藏

不愿透露姓名的神秘牛友

10-04 05:12

为啥0面试啊

kalistar：简历留六个字，北京大学(本科)，黑体加粗，看看哪个hr不长眼敢碰瓷我们北大✌

点赞评论收藏

10-21 15:45

慧策（掌上先机）_后端开发工程师

说好的金9银10呢？

26届学院鼠鼠燃尽了。实习发现没有学到什么东西，现在想继续秋招。发现快要过时间了，但是现在在公司有有点抗不下去了。大佬们，拷打一下我，我现在该怎么办。算法+八股+项目在实习的适合就没怎么刷了，以为公司还不错，现在越来越呆不下去了。不是鼠鼠我嘴馋，但是中秋没有礼品是不是太抽象了一点，唉。学院鼠鼠打法太难了吧。大佬们，求求辣！！！😭😭😭

面试拷打成m：学院本像野狗一样被一脚踹死了

想实习转正，又想准备秋招...

点赞评论收藏

11-19 10:51

魔门塔（苏州）科技有限公司_感知算法工程师(准入职员工)

momenta内推momenta内推

momenta自动驾驶C++日常实习一面面经流程时间线：3.25HR联系约一面3.25晚7点一面3.26早上通知一面通过约二面3.26下午5点二面3.27早上HR沟通入职时间，已OC。一面流程：无手撕50min1.自我介绍2.面试官介绍部门职责(不涉及算法开发，是否能接受)3.简历浅挖（面试官大概率不是规控方向的，对项目可能了解不多,后续了解到是电气背景的）(1)hybird启发项如何设计(2)介绍latticeplanner流程(3)项目中涉及哪些传感器，如何获取heading angle。4.一系列C++,Linux,ROS八股（只列出部分还记得的）1.听说过rvo嘛2.知道raii嘛，原...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 没有合适的工作，你会先找个干着，还是考公考研 #

142384次浏览 1216人参与

# 荣耀求职进展汇总 #

1040659次浏览 5392人参与

第十讲 聚类模型

K-mens聚类

K-means聚类算法流程：

K-mean++算法

操作： 分类 - > 聚类

所有变量通过spss进行标准化 消去量纲 可能结果会跟原来不一样

系统/层次聚类

指标与指标之间的距离

例子

类与类之间的距离用重心法来定义的

方法

最短距离法

最长距离定义法

组间平均连接法

组内平均连接法

重心法

系统聚类流程图

最短距离系统聚类法

计算每两个学生的距离 （样品间的距离矩阵 欧氏距离）

将每一个样品看做是一个类

聚类结果

聚类分析注意问题

流程

spss的操作

标准化 需要知道怎么还原

肘部法则

DBSCAN算法

全站热榜

创作者周榜

第十讲聚类模型

操作：分类 - > 聚类

所有变量通过spss进行标准化消去量纲可能结果会跟原来不一样

计算每两个学生的距离（样品间的距离矩阵欧氏距离）

标准化需要知道怎么还原