【聚类专题】面对大规模数据聚类，别再用传统K-Means啦！_牛客网

鲸鲸🐳说数据分析

字节跳动_风控策略分析师

发布于上海

关注

#双非有机会进大厂吗##找工作，你会甘心进小厂还是猛冲大厂##双非本科求职如何逆袭#

MiniBatch K-means 是 K-means 的一种加速算法，适合处理大规模数据集，核心要点如下：

（1）小批量数据更新：不像标准 K-means 需要处理整个数据集，MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新，每次迭代只使用小批量样本来更新簇中心。
（2）更快的收敛：小批量更新显著减少了计算量，使算法在大数据集上更快收敛，适合流数据或大规模数据场景。
（3）降低内存需求：只需存储小批量数据，不需要将整个数据集加载到内存中，降低了内存消耗。
相对准确的聚类效果：虽然惯性可能略高于标准 K-means，但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
（4）易于扩展：适合分布式和在线学习，可以结合多次小批量更新逐渐改进聚类效果。

@鲸鲸🐳说数据分析：【聚类专题】面对大规模数据聚类，别再用传统K-Means啦！

Mini Batch K-Means时效方面聚类效果方面具体步骤&对比Python代码实战总结Mini Batch K-Means 更适合处理大规模数据集，特别是在计算资源有限的情况下，而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。时效方面Mini Batch K-Means仅使用数据集的一个小批量（mini-batch）来更新质心，而K-Means由于使用全部数据，收敛速度可能较慢，尤其在大数据集上。聚类效果方面惯性（Inertia）是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标，用来衡量数据点到其最近簇中心的距离之和。惯性值越小，表示数据点越接近其簇中心，聚类效果越好。具体步骤&对比Python代码实战import timeimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeans, MiniBatchKMeansfrom sklearn.datasets import make_blobs# Generate synthetic dataX, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)# Set the number of clustersn_clusters = 3# K-Means clusteringkmeans = KMeans(n_clusters=n_clusters, random_state=42)start_time = time.time()kmeans.fit(X)kmeans_time = time.time() - start_timekmeans_inertia = kmeans.inertia_# Mini Batch K-Means clusteringminibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)start_time = time.time()minibatch_kmeans.fit(X)minibatch_kmeans_time = time.time() - start_timeminibatch_kmeans_inertia = minibatch_kmeans.inertia_# Print results comparisonprint(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")# Visualize the clustering resultsfig, ax = plt.subplots(1, 3, figsize=(15, 5))# Left plot: K-Meansax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")# Middle plot: Mini Batch K-Meansax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")# Right plot: Difference# Highlight points assigned to different clusters by the two methodsdiff_labels = kmeans.labels_ != minibatch_kmeans.labels_ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)ax[2].set_title("Difference")plt.tight_layout()plt.show()总结MiniBatch K-means 是 K-means 的一种加速算法，适合处理大规模数据集，核心要点如下：小批量数据更新：不像标准 K-means 需要处理整个数据集，MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新，每次迭代只使用小批量样本来更新簇中心。更快的收敛：小批量更新显著减少了计算量，使算法在大数据集上更快收敛，适合流数据或大规模数据场景。降低内存需求：只需存储小批量数据，不需要将整个数据集加载到内存中，降低了内存消耗。相对准确的聚类效果：虽然惯性可能略高于标准 K-means，但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。易于扩展：适合分布式和在线学习，可以结合多次小批量更新逐渐改进聚类效果。

点赞 1

评论 0

双非有机会进大厂吗找工作，你会甘心进小厂还是猛冲大厂双非本科求职如何逆袭数据分析学习交流

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

11-27 10:46

海康威视感谢信

做完笔试一直在简历评估，评估了一个多月，还是给挂了

投递海康威视等公司10个岗位 > 你都收到了哪些公司的感谢信？

点赞评论收藏

分享

11-10 22:06

上海震旦职业学院前端工程师

导员貌似在催三方

😭😭😭我的秋招一塌糊涂啊

jack_miller：我给我们导员说我不在这里转正，可能没三方签了。导员说没事学校催的时候帮我想办法应付一下

点赞评论收藏

分享

10-30 23:23

已编辑

中山大学 Web前端

奇怪的字节hr

红温了，啥意思，要挂就给个感谢信吧，不明不白的…

去B座二楼砸水泥地：这无论是个人素质还是专业素质都👇拉满了吧

点赞评论收藏

分享

11-27 10:51

东南大学单片机

听学长的没错

拿到了2个offer，分别是携程的后端和阿里云的管培生，本来比较犹豫，跟就业办的老师聊了之后豁然开朗，他说阿里云管培生是非常难得的校招生培养项目，算是技术复合型人才的黄埔军校是非常适合技术复合型人才的职业发展第一站，不仅可以带薪培训1年，系统学习云计算产品与技术知识，还能接触到阿里云顶级的行业资源，接触业务和商业知识，挺适合我这种对技术商业化更感兴趣的人，而且有同专业的学长也在这个项目里，说不定还能有个饭搭子跟着前辈学，经验成长肯定快！就不纠结了，直接接了这个阿里云管培生offer，希望未来发展顺利！早日成为大佬哈哈

赏个offer求你了：就业办老师还有这水平？

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

阿里云管培生

2025届校园招聘

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 25届秋招总结 #

433572次浏览 4397人参与

# 实习，投递多份简历没人回复怎么办 #

2450591次浏览 34818人参与

# 北方华创开奖 #

106617次浏览 588人参与

# 地方国企笔面经互助 #

7732次浏览 18人参与

# ai智能作图 #

39493次浏览 480人参与

# 虾皮求职进展汇总 #

105023次浏览 837人参与

# 阿里云管培生offer #

117632次浏览 2068人参与

# 机械人春招想让哪家公司来捞你？ #

157469次浏览 2267人参与

# 发工资后，你做的第一件事是什么 #

11871次浏览 59人参与

# 工作中，努力重要还是选择重要？ #

34796次浏览 381人参与

# 实习想申请秋招offer，能不能argue薪资 #

38837次浏览 314人参与

# 你投递的公司有几家约面了？ #

33013次浏览 188人参与

# 参加完秋招的机械人，还参加春招吗？ #

19903次浏览 239人参与

# 机械求职避坑tips #

24503次浏览 253人参与

# 双非本科求职如何逆袭 #

660659次浏览 7382人参与

# 我的实习求职记录 #

6150810次浏览 84150人参与

# 华为工作体验 #

113349次浏览 877人参与

# 工作两年想退休了 #

56633次浏览 729人参与

# 25届机械人为了秋招做了哪些准备？ #

27045次浏览 367人参与

# 实习必须要去大厂吗？ #

55224次浏览 956人参与

# 软件开发投递记录 #

1485913次浏览 23976人参与

# 机械人怎么评价今年的华为 #

158720次浏览 1354人参与

牛客网
牛客企业服务