【聚类专题】面对大规模数据聚类,别再用传统K-Means啦!

Mini Batch K-Means

Mini Batch K-Means 更适合处理大规模数据集,特别是在计算资源有限的情况下,而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。

时效方面

Mini Batch K-Means仅使用数据集的一个小批量(mini-batch)来更新质心,而K-Means由于使用全部数据,收敛速度可能较慢,尤其在大数据集上。

聚类效果方面

惯性(Inertia)是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标,用来衡量数据点到其最近簇中心的距离之和。惯性值越小,表示数据点越接近其簇中心,聚类效果越好。

具体步骤&对比

Python代码实战

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.datasets import make_blobs

# Generate synthetic data
X, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)

# Set the number of clusters
n_clusters = 3

# K-Means clustering
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
start_time = time.time()
kmeans.fit(X)
kmeans_time = time.time() - start_time
kmeans_inertia = kmeans.inertia_

# Mini Batch K-Means clustering
minibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)
start_time = time.time()
minibatch_kmeans.fit(X)
minibatch_kmeans_time = time.time() - start_time
minibatch_kmeans_inertia = minibatch_kmeans.inertia_

# Print results comparison
print(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")
print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")

# Visualize the clustering results
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

# Left plot: K-Means
ax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')
ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")

# Middle plot: Mini Batch K-Means
ax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')
ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")

# Right plot: Difference
# Highlight points assigned to different clusters by the two methods
diff_labels = kmeans.labels_ != minibatch_kmeans.labels_
ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)
ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)
ax[2].set_title("Difference")

plt.tight_layout()
plt.show()

总结

MiniBatch K-means 是 K-means 的一种加速算法,适合处理大规模数据集,核心要点如下:

  1. 小批量数据更新:不像标准 K-means 需要处理整个数据集,MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新,每次迭代只使用小批量样本来更新簇中心。
  2. 更快的收敛:小批量更新显著减少了计算量,使算法在大数据集上更快收敛,适合流数据或大规模数据场景。
  3. 降低内存需求:只需存储小批量数据,不需要将整个数据集加载到内存中,降低了内存消耗。
  4. 相对准确的聚类效果:虽然惯性可能略高于标准 K-means,但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
  5. 易于扩展:适合分布式和在线学习,可以结合多次小批量更新逐渐改进聚类效果。
#机器学习##数据人的面试交流地##算法##数据人offer决赛圈怎么选##25届秋招总结#
机器学习干货分享 文章被收录于专栏

专注分享DA/DS求职关于机器学习算法模型的干货帖子!

全部评论

相关推荐

评论
1
1
分享
牛客网
牛客企业服务