【有书共读】机器学习与优化读书笔记 06

第11 统计学习理论和支持向量机

统计学习理论（SLT）声明了能成功从实例中进行学习的条件；也就是说，对于相同底层概率分布产生的新实例，训练数据的积极成果能转换成有效的泛化。分布的稳定性是至关重要的：好的老师绝不会用一些例子来教育学生，却又用完全不同的另一些例子来考试。换句话说，实例必须代表问题。可学习性的条件意味着假设空间（我们用于学习的“可调参数的灵活机器”）必须足够强大，使其在训练实例上有不错的表现（经验风险小），但又不能过于强大，以至于只记住了实例，却没有提取问题的深层结构。这一灵活性是由VC维度量化的。

SLT展示了从数据中学习的天堂是存在的，但是对于大多数实际的问题，它并不显示进入天堂大门的实际步骤，通过直觉和交叉验证选择适当的核和参数才是成功的关键。

深度学习和MLP的最新成果带来了新的希望，“特征工程”和内核选择步骤可以完全自动化。这一领域的研究尚未形成定论，仍有新技术的突破空间，以及创造力引领下的特立独行、野蛮生长的精神。、

第12章最小二乘法和健壮内核机器

最小二乘支持向量机采用等式而非不等式进行分类（通常将正例映射到+1，负例映射到-1)，这样，对于误差的二次罚分经过偏导并令梯度为0后，将得到一个线性方程组。

非常大的偏差会导致二次罚分快速增长，因此很少的离群值就能导致模型失灵。使用稳健统计的方法，将离群值对收益函数的影响降到最低，可以消除其对模型过度干扰，即通过给那些非常大的误差赋予很小的权重，得到健壮加权最小二乘SVM。

二次表达式中稀疏性的缺失可以通过剪枝的方法恢复，那些几乎无意义的数据点将被移除，LS一SVM在剩余的数据集上重新计算。传统的最小二乘法最小化残差的均方和，仍然能给予一些新型方法（比如SVM）强有力的支持，所以当与新型方法比较的时候，绝对不要低估优秀的传统方法和线性代数方法。

第13章机器学习中的***

拥有一些不同但是准确率相近的机器学习模型，使得我们能够提升性能，从而超越单个系统（如机器学习中的集成方法、团体方法、***方法）。
在堆叠和融合方法中，各种系统通过在单个模型的输出的顶端加入另一层而结合起来。

有多种不同方法可以在战略层面创造多样性。在装袋法（自助汇合）中，对同一组实例进行带放回的采样。提升法与加性模型相关，我们训练一系列模型，以确保当前系统中最难处理的实例会在最新添加的部分中获得较大的权重。使用不同的特征子集或者不同的随机数生成器也可能创造多样性。纠错输出码使用一组冗余的模型为各种输出位编码，以增强针对个别错误的健壮性。

加性logistic回归是一种优美的方式，它通过加性模型和牛顿式的优化方案来解释提升法。优化提升我们对提升法的理解。机器学习中的集成方法就像爵士乐：整体大于部分之和。爵士乐手或模型在一起工作，互帮互助，依靠集体的力量比仅靠自己能创造更多。

第14章递归神经网络与储备池计算

带有反馈回路的递归神经网络，可以使得“数学函数”（前馈网络）过渡到随时间进化并带有内部存储器的全面动力系统。递归神经网络的机器学习是很难的，尤其是基于导数的方法。它所涉及的循环很多，可能会导致梯度爆炸或者消失。最近提出的储备池计算（RC）和 超限学习机（ELM）都采用一种激进的方法：与深度学习相反，它们生成大量的随机构造块（随机特征），并将模型的学习限制在一个最终的线性组合层中。具体来说，就是从储备池中挖掘有用的构造块，并将其适当组合起来，得到最终的学习结果。鉴于生物神经元中的噪声影响，深度学习的导数方法难以实现，“随机构建辅以最终调参”的蛮力法的成功给予了我们解释大脑部件如何运行的希望，并使我们能够设计出更快且更灵活的机器学习算法。我们很高兴生活在这样一个研究成果迸发的时期，各式各样疯狂的想法通过令人惊奇的情节转折和范式变化，推进机器学习和神经网络的前沿发展。

第15章自顶向下的聚类：K均值

无监督学习仅用输入数据建立模型似的实例分在同一组，不考虑分类标签。具体来说，聚类的目的是把相不同的实例分在不同的组。开始时聚类的信息可以由点之间的关系（外部表示）给定，或者由描述各个点的向量（内部表示）给定。第二种情况下，平均向量可以用作聚类成员的原型。
聚类的目标是：通过抽象化来压缩信息（考虑群体而不是个体成员），确定实验点（通常不是随机分布在输入空间，而是在某些区域“聚集”）的整体结构，并通过使用原型来降低认知超负荷。不存在所谓“最好”的聚类准则。

结果是否有趣，依赖于测量相似性的方式和用于后续步骤的分组的相关性。人们尤其需要对两个目标进行权衡：同一个类中的成员相似性高，不同类的成员的相异性高。自顶向下的聚类中，首先选择所需要的类的数量，然后对实例进行细分。K均值聚类一开始先设置k个原型，将实例分配到最近的原型，之后用分配的实例的平均值来重新计算原型……
聚类提供了一个新的角度来看待你的狗，托比。狗是一类活的生物体，有4只爪子，会吠叫，开心的时候会摇尾巴。而托比是你最喜欢的小宠物的所有相关经验和情感的聚类。

第16章自底向上（凝聚）聚类

凝聚聚类生成一棵包含数据点的树（层次结构）。如果你不熟悉树结构，可以想想用来整理文档的文件夹，无论实际中的还是计算机中的（与某项目相关的文档放在一起，然后与不同项目相关的文件夹合并成一个“工作进行中”文件夹等）。
想象一下，你没有秘书，也没有时间手动完成：自底向上的聚类方法可以为你完成工作，只要你找到一个合适的方法来测量单个数据点之间的相似性，以及己经合并的数据点集之间的相似性。这种方法被称为自底向上，是因为它从单个数据点开始，合并最相似的那些点，然后
合并最相似的集合，直到获得单一的集合。开始时没有指定聚类的数目，而是用不同的相似性水平来切割这棵树（也称为树状图），尝试了若干种不同的切法之后，可以找到一个合适的聚类数目。通过凝聚聚类，圣诞老人可以把所有的圣诞礼物放在一只很大的红色盒子里。人们
打开它后，又发现了一组盒子，再打开，还是盒子……直到打开真正放着礼物的“叶子”盒子。

第17章自组织映射

自组织映射有两个目标：将一组原型放在接近数据点的聚类旁；让原型以二维网格形级尽组织，从而让邻近的原型在网格中能经常被映射到类似的数据点。

背后动机部分是生物的（我们的神经皮质大致是由神经细胞的二维和三维结构组织起来的），而另一部分与可视化有关。一种二维网格可以在屏幕上可视化，并且原型的特征不是随机分散的，而是慢慢改变，因为邻居关系会带来更易于理解的可视化效果。
如果将数据点想象成大海里的鱼群，那么SOM就是有弹性的渔网，目标是捕捉到最多数量的鱼，又保证网不会破。

第18章通过线性变换降维（投影）

可视化（抽象数据的可视化表示）辅助人们的无监督学习能力，以从数据中获取知识。由于可视化是为我们的视觉系统设计的，它们受限于我们视网膜上的两个维度（如果是立体视觉，就是三个维度）。
一个将数据转换成二维景象的简单方法是通过投影。（实际上，如果是由一台计算机来使用投影点，投影可以多于两个或三个维度。）正交投影可以直观地解释为从不同距离来观察数据。

由于有数不清的方法来投影数据，优化就派上用场了，通过明确的目标来选择其中一些方法。特别是主成分分析（PCA）确定一个正交投影，它使得投影的点在投影平面上尽可能分散。尽管PcA很受欢迎，但它可能无法给出相关的见解：具有较大方差并不总是意味着具有最多的信息内容，或最好的分割。除了原始坐标之外，如果相互关系也是已知的（例如，知道某些点在相同或不同类）,它们可以用于修改PCA，以获得更加有意义的投影。当类标签都是己知的，费希尔判别进行数据投影，使得不同类别的投影均值的差与类内散度的比值最大化。

第19章通过非线性映射可视化图与网络

图形分布技术可用于可视化实体之间的关系。
如果相异性是己知的，在二维空间里绘制实体，使得类似的项彼此接近，对于识别组（聚类）和组间的关系是重要的。应力最小化诉诸某种物理模型。每个相异性值为二维实体之间造了一根弹簧。目标是通过挤压将网络“夹入”到一个平面上，同时最小化各弹簧的伸长或缩短程度。顺便说一下，如果弹簧被刚性杆取代，挤压就会变得不可能：一般来说，不存在点映射到平面且保持所有相异性值不变的精确解。如果你将每个点想象成参加聚会的人，那么每个人都在地板上移动，远离讨厌的人，靠近喜欢的人。每个人同时都在移动，可能会让聚会（可视化）变得非常紧张（次优）。

对于聚类，没有绝对最优的图（或网络）分布。通过优化定义目标（'’最优分布”的定量含义）的一个函数，然后确定最大化它们的最可能的映射。在确定合适的可视化方案之前，人们经常尝试多种可能性。

社交网络分析被用来研究相互作用的人之间的网络。在企业中，员工之间的相似性可以通过他们相互收发信息的数量来确定。如果你用这个指标来设计员工网络的分布，你很容易就能识别在一起工作的同事的聚类：不同群体之间的连接可能会稀疏一些，而有些看似不合群的人，也许非常专注，也许更喜欢打电话，也许……对工作不太上心吧。