数据分析常用的聚类算法: K-means聚类 一个好的的聚类是类内的差异最小化。其中,我们通常使用平方欧式距离(Squared Euclidean distance)的相关公式:略 K-Means算法 1.随机选k个中心点(人为设定k) 2.对非中心点的其他点,找到离它最近的中心点,归为该类。 3.在每一个类之内重新选取每一类的中心点,使得该中心点到该类其他点的欧式平方距离和最小。 4.重复2,3,直至收敛。 Kmeans++的优化(是sklearn应用的版本) 优化点:第一部初始化的时候,离之前选取的中心点远的点有更高的概率被选为中心点。(不再是随机选取)