kmeans算法是什么?怎么选k

kmeans是一种聚类算法,是先选择k个聚类中心然后不断加数据调整簇心直到簇心变化小于一定阈值则停止。
算法有优点也有缺点,优点是快,消耗内存小。缺点是初始簇心不好确定,算法效果对初始簇心的设置敏感,并且kmeans无法聚类环形类。(DB-SCAN可以)

追问一句,k怎么选择?
有两个种评价聚类好坏的指标,第一个不太知名,叫肘部法,仅计算簇心到簇内其他点的距离和,这个和突然下降的时候就是适合的k值。
第二个是通用的,叫轮廓系数法:s = avg(si),既考虑了内聚度也考虑了分离度,s在0~1范围内,越靠近1越好。
si = (bi-ai)/max(bi,ai),其中bi代表簇心到簇内各个点的平均距离,而ai代表簇心到其他簇心的最小平均距离。
全部评论
DB-SCAN解决环形聚类的方式是:先确定一个邻居数量minPts和半径阈值r,如果某个点包含至少minPts个邻居(距离<=r才算邻居)那就可以当做一个簇心聚类,并且递归地对它的邻居继续使用这个算法拓展边界。
点赞 回复 分享
发布于 2023-10-10 17:06 湖南

相关推荐

10-07 23:57
已编辑
电子科技大学 Java
八街九陌:博士?客户端?开发?啊?
点赞 评论 收藏
分享
shtdbb_:还不错,没有让你做了笔试再挂你
点赞 评论 收藏
分享
3 6 评论
分享
牛客网
牛客企业服务