2023-05-07 18:32 腾讯_微信_算法

关注

《机器学习高频面试题详解》2.2：聚类算法-KMeans

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第2.2节：聚类算法-KMeans聚类。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

本文大纲
一、原理	1. KMeans算法流程
一、原理	2. 聚类质量评价方法
二、面试真题	1. KMeans聚类的优缺点？
	2. KMeans聚类需要数据预处理吗？
	3. KMeans聚类的初始值k怎么选取？
	4. 对于非凸的数据分布，KMeans聚类应该如何改进？
	5. 介绍一下KMeans++算法？
	6. 介绍一下ISODATA算法？

一、原理

1. KMeans算法流程

Kmeans聚类算法是一种基于距离的无监督学习算法，其目标是将n个样本分为k个不同的聚类，其步骤如下：

1）随机初始化k个聚类中心。

2）对于每个样本，计算其到各个聚类中心的距离，并将其归到距离最近的聚类中心所属的聚类中。（此过程为分类过程）

3）对于每个聚类，计算其中所有样本的均值作为该聚类当前的中心。

4）计算所有样本与其所属聚类中心的距离的总和，即平方误差SSE（Sum of Squared Errors）。

5）判断聚类中心是否发生改变，若未改变则输出聚类结果；若改变则将聚类中心更新为步骤3计算出的均值，并返回步骤2。

6）聚类结果为k个聚类中心以及每个样本所属的聚类。

需要注意的是，Kmeans聚类算法对于初始聚类中心的选择会产生影响，可能导致收敛到局部最优解。因此，常用的做法是随机初始化多组聚类中心，然后选择聚类结果中SSE最小的一组作为最终结果。

KMeans最核心的部分就是先固定中心点，调整每个样本所属的类别来减少损失函数SSE；再固定每个样本的类别，调整中心点继续减小SSE。两个过程交替循环，SSE单调递减直到最（极）小值，中心点和样本划分的类别同时收敛。

2. 聚类质量评价方法

聚类质量评价是对聚类算法效果的度量，可以帮助我们衡量聚类结果的好坏。以下是常见的聚类质量评价方法：

1）SSE（Sum of Squared Errors，误差平方和）：SSE是指聚类中各个点到所属类中心点距离的平方和，该值越小表示聚类效果越好。

2）轮廓系数（Silhouette Coefficient）：该系数综合考虑了聚类内部的样本之间距离和聚类之间的样本距离。系数的值在-1到1之间，越接近1表示样本聚类效果越好。

3）GAP统计量（Gap Statistic）：该统计量通过比较实际数据和随机数据之间的差异来评价聚类质量。当实际数据的聚类结果比随机数据的结果更好时，GAP统计量的值越大。

4）DB指数（Davies-Bouldin Index）：该指数考虑了聚类内部的样本分散和聚类之间样本的分散情况。该指数的值越小表示聚类效果越好。

5）CH指数（Calinski-Harabasz Index）：该指数通过聚类之间的类别间差异和聚类内部的类别差异进行衡量，越大表示聚类效果越好。

不同的聚类算法和任务特性可能对应着不同的评价指标，因此需要针对具体问题和算法选择合适的评价指标。

二、面试真题

1. KMeans聚类的优缺点？

1）优点：

对于大数据集，算法高效可伸缩，计算复杂度为 $O(NKt)$ 接近于线性，其中N是数据量，K是聚类簇数，t是迭代轮数
虽然算法以局部最优结束，但一般情况达到的局部最优已经可以满足实际需求
可解释性强

2）缺点：

受初始值和异常点影响，聚类结果可能不是全局最优而是局部最优
算法结果受初始聚类中心点的影响，可能会收到

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

抹茶红豆小熊饼

大连民族大学前端工程师

性能优化怎么样？

点赞回复分享

发布于 2023-05-08 09:30 辽宁

发发的小豆糕

西南科技大学前端工程师

这个主要应用在什么方面？

点赞回复分享

发布于 2023-05-08 09:39 重庆

11-20 11:02

门头沟学院 Java

日常实习选择

牛友们，决赛圈，日常实习，蔚来的测开，经纬恒润的Java开发，怎么选呀，求求给点建议

投递蔚来等公司10个岗位 >

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-19 12:30

已编辑

双非本的大学秋招之路

1. Bg岗位：网工学校专业：普本（双一流） 网络空间安全技术栈：HCIE-Dacom 、HCIE-Security、HCIE-DCN（传统网络部分）、RHCE、RHCA（DO374、RH442）、Docker、Git2. 大学学习经历：大一刚到大学，受到高中的影响，打算保研，所以一直跟着学校的课程学习，忙着校内的事情。但是经过大一上学期下来，努力学习的高数80分，英语及格（本人英语一直很菜，高考英语没及格），遂保研梦碎了这个学期给我的感受是，忙碌、疲倦、累........无穷无尽。哎~，终究自己太菜于是开始打算直接就业，于是开始自学，可能我比较愚笨，加上以前确实没有经历过，第一个...

简历被挂麻了，求建议牛客创作赏金赛

点赞评论收藏

分享

11-04 20:14

中北大学结构工程师

自暴自弃了，谁能把我捡走

这是我的垃圾简历 #简历被挂麻了，求建议#

信科杜兰特：中北大学毁了我的大厂梦

简历被挂麻了，求建议

点赞评论收藏

分享

10-16 11:10

西安电子科技大学测试工程师

人生第一次拒绝offer

其实手上也没有别的…😭大胆一次吧😡😡😡

刘小帅_：什么东西，还签满了就不签了

点赞评论收藏

分享

11-22 11:14

华南师范大学 Web前端

11.21卓望数码一面

大约50mins，一个看起来好像接近40的面试官，早上面完，下午hr就说通过了约二面。自我介绍对vue更熟还是react更熟。说一下你有什么vue项目经历。你在做vue项目的过程中有做到什么性能优化吗。问我刚刚提到的利用到了浏览器的请求并发处理来解决性能优化问题，具体措施是什么（简单扯了一下通过升级http协议实现，，）在项目中还实现了哪些性能优化。问为什么带 hash 值的文件就设置为协商缓存，而不带 hash 值的文件就设置为强制缓存（这个当时忘了，说反了，应该是带 hash 值文件设置为强制缓存，不带 hash 值的文件设置协商缓存）。说一下强制缓存和协商缓存的区别，它们的具体实现分别是...

查看26道真题和解析

点赞评论收藏

分享

5 3 评论

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

全站热榜

正在热议

# 25届秋招总结 #

301621次浏览 2672人参与

# 如果不工作真的会快乐吗 #

59366次浏览 517人参与

# 百度开奖 #

163023次浏览 977人参与

# 地方国企笔面经互助 #

3840次浏览 10人参与

# 美团求职进展汇总 #

1327584次浏览 12450人参与

# 选完offer后，你后悔学本专业吗 #

20051次浏览 144人参与

# 阿里云管培生offer #

17567次浏览 295人参与

# 正在实习的你，几点下班 #

52029次浏览 389人参与

# 国央企薪资爆料 #

8448次浏览 68人参与

# 如何一边实习一边秋招 #

992254次浏览 12638人参与

# 提前批简历挂麻了怎么办 #

146502次浏览 1948人参与

# 学历or实习经历，哪个更重要 #

51142次浏览 402人参与

# 海康威视求职进展汇总 #

398898次浏览 3406人参与

# 米哈游求职进展汇总 #

175965次浏览 1458人参与

# 求职遇到的搞笑事件 #

70849次浏览 577人参与

# 投递实习岗位前的准备 #

1179450次浏览 18397人参与

# 面试体验感最好的是哪家？ #

85102次浏览 846人参与

# 实习生应该准时下班吗 #

167449次浏览 1159人参与

# 得物求职进展汇总 #

66288次浏览 682人参与

# 网申一定要掌握的小技巧 #

5338次浏览 53人参与

# 招聘要求与实际实习内容不符怎么办 #

10289次浏览 273人参与

# 0offer是寒冬太冷还是我太菜 #

898506次浏览 8013人参与

牛客网
牛客企业服务