2020-09-22 20:28 已编辑门头沟学院产品经理

关注

【机器学习笔记day13】3.1. 分类算法之k-近邻

文章目录

3.1. 分类算法之k-近邻
分类算法之k-近邻

3.1. 分类算法之k-近邻

分类算法之k-近邻

k-近邻算法采用测量不同特征值之间的距离来进行分类

优点：精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

使用数据范围：数值型和标称型

一个例子弄懂k-近邻

电影可以按照题材分类，每个题材又是如何定义的呢？那么假如两种类型的电影，动作片和爱情片。动作片有哪些公共的特征？那么爱情片又存在哪些明显的差别呢？我们发现动作片中打斗镜头的次数较多，而爱情片中接吻镜头相对更多。当然动作片中也有一些接吻镜头，爱情片中也会有一些打斗镜头。所以不能单纯通过是否存在打斗镜头或者接吻镜头来判断影片的类别。那么现在我们有6部影片已经明确了类别，也有打斗镜头和接吻镜头的次数，还有一部电影类型未知。

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He’s not Really into dues	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
?	18	90	未知

那么我们使用K-近邻算法来分类爱情片和动作片：存在一个样本数据集合，也叫训练样本集，样本个数M个，知道每一个数据特征与类别对应关系，然后存在未知类型数据集合1个，那么我们要选择一个测试样本数据中与训练样本中M个的距离，排序过后选出最近的K个，这个取值一般不大于20个。选择K个最相近数据中次数最多的分类。那么我们根据这个原则去判断未知电影的分类

电影名称	与未知电影的距离
California Man	20.5
He’s not Really into dues	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

我们假设K为3，那么排名前三个电影的类型都是爱情片，所以我们判定这个未知电影也是一个爱情片。那么计算距离是怎样计算的呢？

欧氏距离 那么对于两个向量点a_{1}a1和a_{2}a2之间的距离,可以通过该公式表示：

\sqrt{\left({x_{1}-x_{2}}\right)^{{2}+\left({y_{1}-y_{2}}\right)}{2}}√(x1−x2)2+(y1−y2)2

如果说输入变量有四个特征，例如（1，3，5，2）和（7，6，9，4）之间的距离计算为：

\sqrt{\left({1-7}\right)^{{2}+\left({3-6}\right)}{2}+\left({5-9}\right)^{{2}+\left({2-4}\right)}{2}}√(1−7)2+(3−6)2+(5−9)2+(2−4)2

sklearn.neighbors

sklearn.neighbors提供监督的基于邻居的学习方法的功能，sklearn.neighbors.KNeighborsClassifier是一个最近邻居分类器。那么KNeighborsClassifier是一个类，我们看一下实例化时候的参数

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=1, **kwargs)**
  """ :param n_neighbors：int，可选（默认= 5），k_neighbors查询默认使用的邻居数 :param algorithm：{'auto'，'ball_tree'，'kd_tree'，'brute'}，可选用于计算最近邻居的算法：'ball_tree'将会使用 BallTree，'kd_tree'将使用 KDTree，“野兽”将使用强力搜索。'auto'将尝试根据传递给fit方法的值来决定最合适的算法。 :param n_jobs：int，可选（默认= 1),用于邻居搜索的并行作业数。如果-1，则将作业数设置为CPU内核数。不影响fit方法。 """
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

neigh = KNeighborsClassifier(n_neighbors=3)

Method

fit(X, y)

使用X作为训练数据拟合模型，y作为X的类别值。X，y为数组或者矩阵

X = np.array([[1,1],[1,1.1],[0,0],[0,0.1]])
y = np.array([1,1,0,0])
neigh.fit(X,y)

kneighbors(X=None, n_neighbors=None, return_distance=True)

找到指定点集X的n_neighbors个邻居，return_distance为False的话，不返回距离

neigh.kneighbors(np.array([[1.1,1.1]]),return_distance= False)

neigh.kneighbors(np.array([[1.1,1.1]]),return_distance= False,an_neighbors=2)

predict(X)

预测提供的数据的类标签

neigh.predict(np.array([[0.1,0.1],[1.1,1.1]]))

predict_proba(X)

返回测试数据X属于某一类别的概率估计

neigh.predict_proba(np.array([[1.1,1.1]]))

全部评论

推荐最新楼层

11-28 14:49

门头沟学院 Java

秋招圆满结束！！

这一路真的是太不容易了，都说参加完秋招做什么都会成功的，我很认同，因为我们要秋招，就要经历以下几个坎，也会收获对应的能力：忍耐力：耐心的等结果，谁也不知道啥时候有下一步进展，除了等就只有等。宽容力：这一路上啥人都可能遇到，不是每个面试官和hr都尊重人，如果不宽容，那就得气死了。技术力：技术是第一生产力，笔试面试哪个不需要八股、算法、项目，随时随地都得会吟唱。判断力：笔试面试撞车经常出现，我们需要精准的判断走位，是参加哪一场还是如何2小时内参加完2场，还是如何如何。清醒力：拿到offer都不算完，需要清楚的知道自己要什么，然后哪个适配。经历了秋招，我现在强的可怕，这不已经拿到了3个offer了，...

迷人的大卫在秋招：集齐五大洪荒之力，召唤神龙

点赞评论收藏

不愿透露姓名的神秘牛友

11-29 22:44

联通工作小记

首先，联通的福利不错，五险一金，每个月还有生活福利，比如牛奶、酸奶和米油。还有高温福利、节假日的小礼品、年休假、满两年的疗养假等等，人文关怀做得挺到位的。上班时间也比较灵活，除了团队活动需要配合，其他时间基本上可以自己安排。不过，如果你没有资源或者家庭背景，单靠自己做业绩压力还是蛮大的。每个月的薪水基本上只能维持生活开销，想要发展还得靠时间的积累。

中国联通工作强度 78人发布

点赞评论收藏

10-18 18:48

美团_到家_前端(准入职员工)

美团真开了？还是fake news

比去年还低？

斑驳不同：还为啥暴躁假的不骂你骂谁啊

点赞评论收藏

昨天 16:12

蚌埠坦克学院后端

释放🌸hc

对接人说定级14，但是base在上海，考虑一下还是不去了，继续留在成都吧

A1istair3Zz：你这个hr蛮不错的开门见山。不像别的话术算尽

点赞评论收藏

12-02 16:26

牛客运营

我好像悟了面试官到底喜欢什么样的应届生

首先，准备充分是关键。面试官希望看到你对职位有深入了解，并且对公司文化、行业动态有所研究。这不仅能体现你的专业性，也能展示你对该工作的热情。其次，清晰表达自己非常重要。能够逻辑清晰地回答问题，准确传达自己的想法和经历，会让面试官觉得你沟通能力强，容易合作。同时，简洁明了的回答也显示出你的思维条理性和高效性。再者，积极的态度也是加分项。展现出愿意学习、勇于接受挑战的精神面貌，让面试官相信你能快速适应职场环境并不断成长。此外，面对困难时保持乐观和解决问题的能力同样受到青睐。最后，真诚与自信的平衡也不可忽视。既不要过分自夸，也不要过于谦虚，真实地展现自己的优点和不足，给面试官留下一个踏实可靠的印象。...

点赞评论收藏

全站热榜

正在热议

# 25届秋招总结 #

465618次浏览 4773人参与

# 晒一晒我的offer #

10032942次浏览 106380人参与

# 现在还是0offer，延毕还是备考 #

# 如果公司给你放一天假，你会怎么度过？ #

5124次浏览 65人参与