kmeans算法是什么?怎么选k

kmeans是一种聚类算法,是先选择k个聚类中心然后不断加数据调整簇心直到簇心变化小于一定阈值则停止。
算法有优点也有缺点,优点是快,消耗内存小。缺点是初始簇心不好确定,算法效果对初始簇心的设置敏感,并且kmeans无法聚类环形类。(DB-SCAN可以)

追问一句,k怎么选择?
有两个种评价聚类好坏的指标,第一个不太知名,叫肘部法,仅计算簇心到簇内其他点的距离和,这个和突然下降的时候就是适合的k值。
第二个是通用的,叫轮廓系数法:s = avg(si),既考虑了内聚度也考虑了分离度,s在0~1范围内,越靠近1越好。
si = (bi-ai)/max(bi,ai),其中bi代表簇心到簇内各个点的平均距离,而ai代表簇心到其他簇心的最小平均距离。
全部评论
DB-SCAN解决环形聚类的方式是:先确定一个邻居数量minPts和半径阈值r,如果某个点包含至少minPts个邻居(距离<=r才算邻居)那就可以当做一个簇心聚类,并且递归地对它的邻居继续使用这个算法拓展边界。
点赞 回复 分享
发布于 2023-10-10 17:06 湖南

相关推荐

03-15 14:55
已编辑
门头沟学院 golang
bg:双非学院本&nbsp;ACM银&nbsp;go选手timeline:3.1号开始暑期投递3.7号第二家公司离职顽岩科技&nbsp;ai服务中台方向&nbsp;笔试➕两轮面试,二面挂(钱真的好多😭)厦门纳克希科技&nbsp;搞AI的,一面OC猎豹移动&nbsp;搞AIGC方向&nbsp;一面OC北京七牛云&nbsp;搞AI接口方向&nbsp;一面OC上海古德猫宁&nbsp;搞AIGC方向&nbsp;二面OC上海简文&nbsp;面试撞了直接拒深圳图灵&nbsp;搞AIGC方向一面后无消息懒得问了,面试官当场反馈不错其他小厂没记,通过率80%,小厂杀手😂北京字节&nbsp;具体业务不方便透露也是AIGC后端方向2.28约面&nbsp;(不知道怎么捞的我,我也没在别的地方投过字节简历哇)3.6一面&nbsp;一小时&nbsp;半小时拷打简历(主要是AIGC部分)剩余半小时两个看代码猜结果(经典go问题)➕合并二叉树(秒a,但是造case造了10分钟哈哈)一天后约二面3.12&nbsp;二面,让我挑简历上两个亮点说,主要说的docker容器生命周期管理和raft协议使用二分法优化新任leader上任后与follower同步时间。跟面试官有共鸣,面试官还问我docker底层cpu隔离原理和是否知道虚拟显存。之后一道easy算法,(o1空间解决&nbsp;给定字符串含有{和}是否合法)秒a,之后进阶版如何用10台机加快构建,想五分钟后a出来。面试官以为45分钟面试时间,留了18分钟让我跟他随便聊,后面考了linux&nbsp;top和free的部分数据说什么意思(专业对口了只能说,但是当时没答很好)。因为当时手里有7牛云offer,跟面试官说能否快点面试,马上另外一家时间到了。10分钟后约hr面3.13,上午hr面,下午走完流程offer到手3.14腾讯技术运营约面,想直接拒😂感受:&nbsp;因为有AIGC经验所以特别受AI初创公司青睐,AIGC后端感觉竞争很小(指今年),全是简历拷打,基本没有人问我八股(八股吟唱被打断.jpeg),学的东西比较广的同时也能纵向深挖学习,也运气比较好了哈哈可能出于性格原因,没有走主流Java路线,也没有去主动跟着课写项目,项目都是自己研究和写的哈哈
烤点老白薯:你根本不是典型学院本的那种人,贵了你这能力
查看7道真题和解析
点赞 评论 收藏
分享
评论
3
6
分享

创作者周榜

更多
牛客网
牛客企业服务