2023-05-04 22:13 腾讯_微信_算法

关注

《机器学习高频面试题详解》2.1：聚类算法-层次聚类

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第2章无监督学习里的第1节：聚类算法-层次聚类。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

本文大纲
一、原理	1. 聚类问题
	2. 层次聚类
二、面试真题	1. 层次聚类算法的优缺点？
	2. 层次聚类的方法有哪些？
	3. 层次聚类的局限性和改进方法？
	4. 如何处理大规模数据下的层次聚类问题？

一、原理

1. 聚类问题

聚类问题，通常是指对一个未被标记的数据集进行分类，使得相似的数据点被分组到同一个簇中，而不同的簇中的数据点应该尽可能地不相似。聚类问题的优化目标是最大化簇内的相似度和最小化簇间的相似度，常用的度量方式包括欧几里得距离、曼哈顿距离、闵可夫斯基距离等。

聚类问题根据簇的数量以及输入数据的标注信息，可以细分为软聚类和硬聚类。软聚类指的是对于一个数据点，它可以被划分至不同的簇中，并给出其属于每个簇的概率。常见的软聚类算法包括 Fuzzy C-Means 算法、模糊聚类、混合高斯模型等。相反，硬聚类则是将每个数据点划分为唯一的一个簇。常见的硬聚类算法包括 k-Means、层次聚类、DBSCAN 等。

聚类问题在数据挖掘、机器学习、图像处理等领域广泛应用。例如，在图像处理中，可以利用聚类算法对图像中的像素进行分组，从而实现图像分割、边缘检测等操作。在机器学习中，聚类算法可以作为特征提取的预处理步骤，从而提高模型的性能。

1.1 样本点距离

在聚类算法中选择合适的样本点距离（即相似度）计算方式是十分重要的，因为相似度的不同计算方式会对聚类结果产生不同的影响。以下是选择相似度计算方式时需要考虑的几个因素：

1）数据类型：不同类型的数据使用不同的相似度计算方法。比如，文本数据可以使用余弦相似度进行度量，而数值型数据可以使用欧氏距离或曼哈顿距离进行度量。

2）特征数量：不同的相似度计算方法对特征数量的敏感程度有所不同。比如，当特征数量很大时，余弦相似度比欧氏距离更加适用。

3）噪声数据：某些相似度计算方法对噪声数据更加敏感，而有些则可以很好的过滤噪声数据。因此在存在噪声数据的情况下需要根据实际情况选择相应的相似度计算方法。

4）数据分布：某些相似度计算方法对数据分布的敏感程度不同。比如，当数据分布比较密集时，欧氏距离比曼哈顿距离更适用。

总之，需要根据具体情况选择最合适的相似度计算方法。在实际应用中，一般需要尝试不同的相似度计算方法，比较它们的聚类效果和效率，从而选出最优的相似度计算方法。

1.2 类间距离

据点划分到同一个簇中，不相似的数据点划分到不同的簇中，所以类间距离通常被用来度量聚类的效果。

常见的类间距离度量方法包括以下几种：

1）最短距离法（单链接法）：将两个簇中距离最近的两个数据点之间的距离作为两个簇之间的距离。

2）最长距离法（完全链接法）：将两个簇中距离最远的两个数据点之间的距离作为两个簇之间的距离。

3）类平均法：将两个簇的所有数据点之间距离的平均值作为两个簇之间的距离。

4）中心法：将两个簇的中心点之间的距离作为两个簇之间的距离。

其中，最短距离法和最长距离法是最常用的两种类间距离度量方式。不同的类间距离度量方法适用于不同类型的数据及聚类算法，正确选择合适的类间距离度量方法可以得到更加准确的聚类结果。

2. 层次聚类

这篇文章主要讲解基于连接的聚类方法：层次聚类（Hierarchical Clustering），如下图所示：

层次聚类是一种将数据对象按照相似度进行层次化结构表示的聚类方法，最终构建出一颗嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-04 12:02

25应届校招大厂，一个月已跑路

我知道现在就业形势有多糟糕我也知道文科找到一份工作更何况还是大厂有多难这司真的很牛x，但我真的不适合你们卷吧我不卷了我跑了，你们随便

点赞评论收藏

分享

07-01 16:50

江南大学 Java

找不到实习人生会完蛋吗

26届还没找到实习感觉自己快完蛋了 现在七月感觉找实习更难了，，一直找不到，，晚上焦虑得睡不着，有些秋招提前批都开了，可我还没实习已经能预感到到时候秋招又是艰难的日子了

脑袋锈住了：211本硕我感觉应该还有机会进面试，进面试之后应该就是各凭本领了

点赞评论收藏

分享

07-03 13:32

门头沟学院产品经理

这简历居然拿了wxg

突然看到一年半前的简历，当时的我做梦都不敢想自己会拿到wxg offer吧，虽然因为职业规划不符拒了，但还是很开心被认可。

投递腾讯等公司8个岗位

点赞评论收藏

分享

06-20 20:38

重庆邮电大学前端工程师

找不到实习暑假只能回家了

沟通了一百多家了，只面了一场，还是kpi，觉得自己好失败，一直感觉毕业要失业了，焦虑的要死，现在要放暑假了，一想到没实习经历秋招就不知道该怎么办。😭😭😭

GoLeeX：不是，你这才投了多少？

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-01 11:35

pdd暑期实习

pdd服务端研发暑期实习，面试流程推进还是挺快的，难度适中，hr面后过了2周不到信息确认，然后oc。打算去了，多多投的比较晚，之前面别的公司好几家都是一面挂，人已经麻了。多多是目前手里最好的offer了。感谢收留！bg 上游211本+中游985 两段实习

点赞评论收藏

分享

评论

4

4

招聘动态

现代汽车前瞻技术研发中心

京东TET

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得实习能学到东西吗 #

30975次浏览 632人参与

# 机械人集合！你是什么工程师？ #

15340次浏览 88人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

25985次浏览 211人参与

# 秋招什么时候开投比较合适？ #

19085次浏览 275人参与

# 发工资后，你做的第一件事是什么 #

67570次浏览 229人参与

# 如何准备秋招 #

18123次浏览 350人参与

# 百度工作体验 #

219264次浏览 1957人参与

# 机械人与华为的爱恨情仇 #

116214次浏览 942人参与

# 工作中哪个瞬间让你想离职 #

25456次浏览 177人参与

# 硬件应届生薪资是否普遍偏低？ #

73603次浏览 514人参与

# 不考虑转正，实习多久合适 #

31588次浏览 145人参与

# 影石Insta360求职进展汇总 #

123141次浏览 1069人参与

# 通信和硬件还有转码的必要吗 #

57255次浏览 526人参与

# 24届的你们都什么时候入职？ #

59968次浏览 424人参与

# 面试被问期望薪资时该如何回答 #

255995次浏览 1479人参与

# 实习，不懂就问 #

41946次浏览 643人参与

# 你们公司几号发工资 #

20536次浏览 139人参与

# 软开人，秋招你打算投哪些公司呢 #

102438次浏览 958人参与

# 每个月的工资都是怎么分配的？ #

25144次浏览 408人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

28985次浏览 460人参与

# 你觉得现在还能进互联网吗？ #

7504次浏览 130人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务