鲸鲸🐳说数据分析

昨天 22:25 字节跳动_风控策略分析师

发布于上海

关注

【聚类专题】面对大规模数据聚类，别再用传统K-Means啦！

Mini Batch K-Means

Mini Batch K-Means 更适合处理大规模数据集，特别是在计算资源有限的情况下，而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。

时效方面

Mini Batch K-Means仅使用数据集的一个小批量（mini-batch）来更新质心，而K-Means由于使用全部数据，收敛速度可能较慢，尤其在大数据集上。

聚类效果方面

惯性（Inertia）是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标，用来衡量数据点到其最近簇中心的距离之和。惯性值越小，表示数据点越接近其簇中心，聚类效果越好。

具体步骤&对比

Python代码实战

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.datasets import make_blobs

# Generate synthetic data
X, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)

# Set the number of clusters
n_clusters = 3

# K-Means clustering
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
start_time = time.time()
kmeans.fit(X)
kmeans_time = time.time() - start_time
kmeans_inertia = kmeans.inertia_

# Mini Batch K-Means clustering
minibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)
start_time = time.time()
minibatch_kmeans.fit(X)
minibatch_kmeans_time = time.time() - start_time
minibatch_kmeans_inertia = minibatch_kmeans.inertia_

# Print results comparison
print(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")
print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")

# Visualize the clustering results
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

# Left plot: K-Means
ax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')
ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")

# Middle plot: Mini Batch K-Means
ax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')
ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")

# Right plot: Difference
# Highlight points assigned to different clusters by the two methods
diff_labels = kmeans.labels_ != minibatch_kmeans.labels_
ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)
ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)
ax[2].set_title("Difference")

plt.tight_layout()
plt.show()

总结

MiniBatch K-means 是 K-means 的一种加速算法，适合处理大规模数据集，核心要点如下：

小批量数据更新：不像标准 K-means 需要处理整个数据集，MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新，每次迭代只使用小批量样本来更新簇中心。
更快的收敛：小批量更新显著减少了计算量，使算法在大数据集上更快收敛，适合流数据或大规模数据场景。
降低内存需求：只需存储小批量数据，不需要将整个数据集加载到内存中，降低了内存消耗。
相对准确的聚类效果：虽然惯性可能略高于标准 K-means，但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
易于扩展：适合分布式和在线学习，可以结合多次小批量更新逐渐改进聚类效果。

#机器学习##数据人的面试交流地##算法##数据人offer决赛圈怎么选##25届秋招总结#

机器学习干货分享文章被收录于专栏

专注分享DA/DS求职关于机器学习算法模型的干货帖子！

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

昨天 21:36

酷狗音乐工作体验分享

同事们都很热情，有时候，午休时大家会一起分享最近听到的好歌，气氛轻松。工作之余，偶尔也会有一些小活动，比如音乐分享会，大家一起讨论新歌和老歌。不过，工作节奏还是挺快的，尤其是在新歌上线的时候，大家都得加班加点，确保一切顺利。 有时候压力也会有，但可以接受这种强度

腾讯音乐娱乐集团公司氛围 32人发布

点赞评论收藏

分享

11-07 12:31

门头沟学院市场

感谢信10｜LVMH美妆

办公室管培项目没有相关实习经历感觉简历挂也无可厚非至少给了明确回复了比其他挂了默拒的公司好很多#你都收到了哪些公司的感谢信？#

你都收到了哪些公司的感谢信？

点赞评论收藏

分享

不愿透露姓名的神秘牛友

昨天 21:52

说一下在歌尔工作的真实感受

我当时从外地过去的，路费可以报销，补贴了200块。住宿方面，完全免费，水电空调都不用担心，会给你全新的被褥。吃饭也很划算，6到8块一顿，荤素汤都有，吃得很饱的。福利上，有补贴，最高能拿到1100块。优点嘛，工资高、工作轻松、住宿和吃饭都便宜，个人成本低。但缺点也很明显，晋升空间不大

点赞评论收藏

分享

11-08 15:39

已编辑

门头沟学院汽车电子工程师

家门口央企销售岗

这是我面试的第十家公司了，别人是集邮大佬儿，我是集面试。1.自我介绍2. 你对销售有什么看法3.你觉得你是一个什么样的人4.爱好5.你家哪儿的6.女朋友哪儿的，家在哪儿总之来说，这是我面试的最简单的一场，面试官也比较随意那种，就跟唠家常一样。下周四之前给结果。 #面试被问期望薪资时该如何回答#  #面试被问第一学历差时该怎么回答#  #牛客创作赏金赛#

查看6道真题和解析面试被问期望薪资时该如何回答面试被问第一学历差时该怎么回答

点赞评论收藏

分享

不愿透露姓名的神秘牛友

昨天 21:34

百度工作体验

首先，办公环境很好，开放式办公区，宽敞明亮，工位设计得很合理，坐着也不觉得累。办公室里还有不少绿植，休闲区有沙发，累了可以去那休息。团队氛围上，同事们都很优秀，背景各异，大家相处得特别融洽，没有办公室政治。遇到问题时，大家都会一起讨论，互相帮助。新入职时还有导师一对一指导。团队活动也不少，户外拓展、聚餐，氛围很好。工作内容方面，百度的业务范围广，每天都能接触到新技术和项目。领导们也很支持创新，鼓励我们提出新想法。有时候为了项目上线，大家一起加班，虽然辛苦，但看到成果，成就感还是很足的。福利待遇也很不错，薪资有竞争力，五险一金，还有补充商业保险，生活保障很到位。年假和病假都很充足，想请假时也没有...

百度公司福利 523人发布

点赞评论收藏

分享

评论

1

1

招聘动态

阿里云管培生

2025届校园招聘

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 25届秋招总结 #

434048次浏览 4401人参与

# 实习，投递多份简历没人回复怎么办 #

2450780次浏览 34819人参与

# 北方华创开奖 #

106649次浏览 590人参与

# 地方国企笔面经互助 #

7747次浏览 18人参与

# ai智能作图 #

39669次浏览 481人参与

# 虾皮求职进展汇总 #

105301次浏览 839人参与

# 阿里云管培生offer #

117833次浏览 2069人参与

# 机械人春招想让哪家公司来捞你？ #

157470次浏览 2267人参与

# 发工资后，你做的第一件事是什么 #

11921次浏览 59人参与

# 工作中，努力重要还是选择重要？ #

34858次浏览 381人参与

# 实习想申请秋招offer，能不能argue薪资 #

38867次浏览 314人参与

# 你投递的公司有几家约面了？ #

33030次浏览 188人参与

# 参加完秋招的机械人，还参加春招吗？ #

19914次浏览 239人参与

# 机械求职避坑tips #

24511次浏览 254人参与

# 双非本科求职如何逆袭 #

660731次浏览 7382人参与

# 我的实习求职记录 #

6151091次浏览 84156人参与

# 华为工作体验 #

113385次浏览 877人参与

# 工作两年想退休了 #

56657次浏览 729人参与

# 25届机械人为了秋招做了哪些准备？ #

27054次浏览 368人参与

# 实习必须要去大厂吗？ #

55231次浏览 956人参与

# 软件开发投递记录 #

1485943次浏览 23976人参与

# 机械人怎么评价今年的华为 #

158728次浏览 1354人参与

牛客网
牛客企业服务