闲敲code落灯花

2020-11-25 10:41 已编辑上海交通大学算法工程师

关注

K-Means聚类用于数值和类别混合数据

问题

我的数据集包含许多数字属性和一个类别属性。

比方说，NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr，

其中CategoricalAttr取三个可能值之一：CategoricalAttrValue1，CategoricalAttrValue2或CategoricalAttrValue3。
所以我的问题是：将分类属性CategoricalAttr拆分为三个数字(二进制)变量(如IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3)是否正确？

解答

由于各种原因，标准k-means算法不能直接应用于类别数据。类别数据的样本空间是离散的，并且没有自然来源。在这样的空间上的欧几里德距离函数并不是真正有意义的。正如有人所说的那样，“The fact a snake possesses neither wheels nor legs allows us to say nothing about the relative value of wheels and legs。” (来自here)

k-means的变种称为k-modes，由Zhexue Huang在this paper 中引入，适用于分类(类别)数据。请注意，这个解决方案对初始条件很敏感，例如，如here(PDF) 所述。

Huang的论文(上面链接)也有一个关于"k-prototypes"的部分，它适用于具有分类和数字特征的数据。它使用混合距离度量：分类特征的汉明距离和数字特征的欧几里德距离。

谷歌搜索“k-means混合分类数据”最近发表了很多关于k-means-like聚类的各种算法的论文，其中混合了类别和数值数据。 (我还没看过，所以我不能评论他们的优缺点：）

相关知识点

距离函数都有哪些？

欧氏距离、余弦相似度、汉明距离、编辑距离
https://zhuanlan.zhihu.com/p/71610113

全部评论

推荐最新楼层

07-09 11:42

江西农业大学 C++

26届秋招提前批一开一个不吱声

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-09 12:02

活久见，遇见真boss了

ssob上原来真有BOSS啊

硫蛋蛋：这种也是打工的，只不是是给写字楼房东打工

点赞评论收藏

分享

07-01 23:23

郑州大学 Java

大一小登勇闯开源之夏

否极泰来来来来：牛客迟早有高三的

点赞评论收藏

分享

06-07 12:20

新余学院 Java

25学院本0实习还有救吗

前两年太放荡没怎么冲绩点，还搞得数学挂科找不到实习，我这样还有救吗

代码飞升：你还是没明白就业需要干什么

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-10 11:31

三天速通京东暑期

timeline：7.3电话约当晚一面 面完1h约二面7.4中午二面1h后约下午加面 当天通知周一hr面7.7下午hr面 两小时内oc7.8下午发offer邮件流程特别特别快，被hr的效率狠狠感动了

Ring01：这个时候有hc的，大概是原来人跑了

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

53994次浏览 404人参与

# 说说你知道的学历厂 #

38752次浏览 233人参与

# 你认为小厂实习有用吗？ #

20519次浏览 248人参与

# 计算机有哪些岗位值得去？ #

16901次浏览 158人参与

# 应届生，你找到工作了吗 #

21141次浏览 152人参与

# 哪一瞬间觉得自己长大了 #

9893次浏览 220人参与

# 面试尴尬现场 #

32023次浏览 216人参与

# 你找工作的时候用AI吗？ #

18660次浏览 231人参与

# 下班后的时间你怎么安排 #

10220次浏览 140人参与

# 烟草笔面经互助 #

17840次浏览 184人参与

# 社会教会你的第一课 #

36306次浏览 458人参与

# 电网笔面经互助 #

36891次浏览 357人参与

# 秋招最大的收获是什么？ #

36104次浏览 309人参与

# 三一重工求职进展汇总 #

13371次浏览 60人参与

# lastday知无不言 #

58270次浏览 475人参与

# 材料人，你们签了哪个公司 #

7473次浏览 17人参与

# 你的领导最像哪种动物，为什么? #

14332次浏览 106人参与

# 学历贬值真的很严重吗？ #

22395次浏览 163人参与

# 你上一次加班是什么时候？ #

87618次浏览 572人参与

# 考研人，我有话说 #

138936次浏览 1155人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务