线性回归
最小二乘法线性回归模型
模型
<nobr> yi≈w0+∑j=1dxijwj </nobr>
模型学习
平方误差损失
<nobr> wLS=argminw∑i=1n(yi−f(xi;w))=argminwL </nobr>
最小二乘法解(矩阵版本)
对w求导
<nobr> ∇wL=2XTXw−2XTy=0⇒wLS=(XTX)−1XTy </nobr>
潜在问题
计算 <nobr> wLS=(XTX)−1XTy </nobr>架设了 <nobr> (XTX)−1 </nobr>存在
什么时候 <nobr> (XTX)−1 </nobr>不存在?
当 <nobr> (XTX)−1 </nobr>不是满纸矩阵的时候。
什么时候 <nobr> (XTX)−1 </nobr>是满秩的?
当 <nobr> n×(d+1) </nobr>矩阵 <nobr> X </nobr>有至少 <nobr> d+1 </nobr>线性无关的行时。这说明任意一个样本都能通过 <nobr> X </nobr>中的 <nobr> d+1 </nobr>行的线性组合得到。
显然,当 <nobr> n<d+1 </nobr>时,不能使用最小二乘法。如果 <nobr> (XTX)−1 </nobr>不存在,会存在无穷多解。
结论:希望 <nobr> n>>d </nobr>,(i.e. X 矩阵高且瘦)
几何解释
<nobr> y−XwLS </nobr>为一个正交于 <nobr> y^ </nobr>的误差向量。
线性回归的任务就是在d+1维子空间上找到一个预测向量 <nobr> y^ </nobr>使得目标向量 <nobr> y </nobr>和预测向量 <nobr> y^ </nobr>的差向量的模的平方最小。
根据几何知识可知,当预测向量 <nobr> y^ </nobr>为原始向量 <nobr> y </nobr>在子空间上的正交投影时,差向量的模最小。
概率解释
假设线性回归的噪音 <nobr> ϵi=yi−xTiw </nobr>
互相独立且满足高斯分布
也就是说