KNN与Kmeans
KNN
有监督。如果一个样本在特征空间中的 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
L1范数距离与L2范数距离
K值选择
1)选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂(指的是数值发生一点点改变,分类结果就不相同了,模型的泛化性不佳),容易发生过拟合;
2)选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
3)K=N(N为训练样本个数),则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。
K means
无监督。更新中心点直到中心点停止移动。Kmeans一定会收敛,但是不一定是最优解,因此中心点的初始化很重要。
K means++:对中心点的初始化进行了改进,离已选中心点越远的实例越有可能被选为新增的中心点。
关于K值的选择:以轮廓系数来衡量每个K值得聚类效果