【聚类专题】面对大规模数据聚类,别再用传统K-Means啦!

Mini Batch K-Means

Mini Batch K-Means 更适合处理大规模数据集,特别是在计算资源有限的情况下,而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。

时效方面

Mini Batch K-Means仅使用数据集的一个小批量(mini-batch)来更新质心,而K-Means由于使用全部数据,收敛速度可能较慢,尤其在大数据集上。

聚类效果方面

惯性(Inertia)是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标,用来衡量数据点到其最近簇中心的距离之和。惯性值越小,表示数据点越接近其簇中心,聚类效果越好。

具体步骤&对比

Python代码实战

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.datasets import make_blobs

# Generate synthetic data
X, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)

# Set the number of clusters
n_clusters = 3

# K-Means clustering
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
start_time = time.time()
kmeans.fit(X)
kmeans_time = time.time() - start_time
kmeans_inertia = kmeans.inertia_

# Mini Batch K-Means clustering
minibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)
start_time = time.time()
minibatch_kmeans.fit(X)
minibatch_kmeans_time = time.time() - start_time
minibatch_kmeans_inertia = minibatch_kmeans.inertia_

# Print results comparison
print(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")
print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")

# Visualize the clustering results
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

# Left plot: K-Means
ax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')
ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")

# Middle plot: Mini Batch K-Means
ax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')
ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")

# Right plot: Difference
# Highlight points assigned to different clusters by the two methods
diff_labels = kmeans.labels_ != minibatch_kmeans.labels_
ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)
ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)
ax[2].set_title("Difference")

plt.tight_layout()
plt.show()

总结

MiniBatch K-means 是 K-means 的一种加速算法,适合处理大规模数据集,核心要点如下:

  1. 小批量数据更新:不像标准 K-means 需要处理整个数据集,MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新,每次迭代只使用小批量样本来更新簇中心。
  2. 更快的收敛:小批量更新显著减少了计算量,使算法在大数据集上更快收敛,适合流数据或大规模数据场景。
  3. 降低内存需求:只需存储小批量数据,不需要将整个数据集加载到内存中,降低了内存消耗。
  4. 相对准确的聚类效果:虽然惯性可能略高于标准 K-means,但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
  5. 易于扩展:适合分布式和在线学习,可以结合多次小批量更新逐渐改进聚类效果。
#机器学习##数据人的面试交流地##算法##数据人offer决赛圈怎么选##25届秋招总结#
机器学习干货分享 文章被收录于专栏

专注分享DA/DS求职关于机器学习算法模型的干货帖子!

全部评论

相关推荐

不愿透露姓名的神秘牛友
07-03 18:22
投了几百份简历,专业和方向完全对口,都已读不回。尝试改了一下学校,果然有奇效。
steelhead:这不是很正常嘛,BOSS好的是即便是你学院本可能都会和聊几句,牛客上学院本机会很少了
点赞 评论 收藏
分享
避坑恶心到我了大家好,今天我想跟大家聊聊我在成都千子成智能科技有限公司(以下简称千子成)的求职经历,希望能给大家一些参考。千子成的母公司是“同创主悦”,主要经营各种产品,比如菜刀、POS机、电话卡等等。听起来是不是有点像地推销售公司?没错,就是那种类型的公司。我当时刚毕业,急需一份临时工作,所以在BOSS上看到了千子成的招聘信息。他们承诺无责底薪5000元,还包住宿,这吸引了我。面试的时候,HR也说了同样的话,感觉挺靠谱的。于是,我满怀期待地等待结果。结果出来后,我通过了面试,第二天就收到了试岗通知。试岗的内容就是地推销售,公司划定一个区域,然后你就得见人就问,问店铺、问路人,一直问到他们有意向为止。如果他们有兴趣,你就得摇同事帮忙推动,促进成交。说说一天的工作安排吧。工作时间是从早上8:30到晚上18:30。早上7点有人叫你起床,收拾后去公司,然后唱歌跳舞(销售公司都这样),7:55早课(类似宣誓),8:05同事间联系销售话术,8:15分享销售技巧,8:30经理训话。9:20左右从公司下市场,公交、地铁、自行车自费。到了市场大概10点左右,开始地推工作。中午吃饭时间大约是12:00,公司附近的路边盖饭面馆店自费AA,吃饭时间大约40分钟左右。吃完饭后继续地推工作,没有所谓的固定中午午休时间。下午6点下班后返回公司,不能直接下班,需要与同事交流话术,经理讲话洗脑。正常情况下9点下班。整个上班的一天中,早上到公司就是站着的,到晚上下班前都是站着。每天步数2万步以上。公司员工没有自己的工位,百来号人挤在一个20平方米的空间里听经理洗脑。白天就在市场上奔波,公司的投入成本几乎只有租金和工资,没有中央空调。早上2小时,晚上加班2小时,纯蒸桑拿。没有任何福利,节假日也没有3倍工资之类的。偶尔会有冲的酸梅汤和西瓜什么的。公司的晋升路径也很有意思:新人—组长—领队—主管—副经理—经理。要求是业绩和团队人数,类似传销模式,把人留下来。新人不能加微信、不能吐槽公司、不能有负面情绪、不能谈恋爱、不能说累。在公司没有任何坐的地方,不能依墙而坐。早上吃早饭在公司外面的安全通道,未到上班时间还会让你吃快些不能磨蹭。总之就是想榨干你。复试的时候,带你的师傅会给你营造一个钱多事少离家近的工作氛围,吹嘘工资有多高、还能吹自己毕业于好大学。然后让你早点来公司、无偿加班、抓住你可能不会走的心思进一步压榨你。总之,大家在找工作的时候一定要擦亮眼睛,避免踩坑!———来自网友
qq乃乃好喝到咩噗茶:不要做没有专业门槛的工作
点赞 评论 收藏
分享
真烦好烦真烦:牛友太有实力了
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务