逻辑斯谛(Logistic)回归
Logistic回归模型
logistic分布
逻辑斯谛分布
设X是连续随机变量,X具有下列分布函数和密度函数
<nobr> F(x)=P(X≤x)=11+e−(x−μ)/γ </nobr>
<nobr> f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2 </nobr>
密度函数和分布函数如图所示
![]()
分布函数图形是一条S形曲线。该曲线以点 <nobr> (μ,12) </nobr>位中心对称,即满足
<nobr> F(−x+μ)−12=F(x+μ)+12 </nobr>
曲线在中心附近增长速度较快,两端较慢。
形状参数 <nobr> γ </nobr>的值越小,曲线在中心附近增长越快。
二项逻辑回归模型
二项逻辑回归模型是如下的条件概率分布
一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率就是 <nobr> p1−p </nobr> ,该事件发生的对数几率(log odds)或logit函数是
<nobr> logit(p)=logp1−p </nobr>
对逻辑斯谛回归而言,由式(6.5)与式(6.6)得
<nobr> logP(Y=1|x)1−P(Y=1|x)=w⋅x </nobr>
逻辑回归模型中,输出Y=1的对数几率是输入x的线性函数。
模型参数估计
极大似然估计
设 <nobr> P(Y=1|x)=π(x),P(Y=0|x)=1−π(x) </nobr>
似然函数为
<nobr> ∏i=1N[π(xi)]yi[1−π(xi)]1−yi </nobr>
对数似然函数为
对L(w)求极大值,得到w的估计值。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。
通常采用 梯度下降(这里是上升,最大化对数似然函数)法及拟牛顿法。
梯度下降法
<nobr> ∂L(w)∂w=∑i=1Nxi(yi−π(x)) </nobr>,其中 <nobr> π(x)=exp(w⋅x)1+exp(w⋅x) </nobr>
设学习率为 <nobr> α </nobr>,则梯度上升法的更新公式为
<nobr> wj=wj+α∑i=1Nxi(yi−π(x)) </nobr>
多项逻辑斯谛回归
假设离散型随机变量Y的取值集合是 <nobr> 1,2,...,K </nobr>,那么多项逻辑斯谛回归模型是
sigmoid函数的推导
根据对数几率回归推导
根据最大熵模型推导
http://blog.csdn.net/u012151283/article/details/77619799#t2
最大熵原理告诉我们,当在某些约束条件下选择统计模型时,需要尽可能选择满足这些条件的模型中不确定性最大的那个。
采用熵作为统计不确定性的度量,这个问题变为一个条件约束的问题。
在最大熵准则下,
<nobr> fi(x) </nobr> 为一组特征函数,而优化中约束的意义是这一组特征函数在某型 <nobr> p(x) </nobr> 下的均值等于其数上的均值。
使用拉格朗日方法可以得出一项重要结论,求其最大熵解等价于求一个对应指数形式分布的最大似解。
令 <nobr> π(x)u=P(Y=u|X) </nobr>
根据最大熵模型,有
指数族分布
指数分布族是指可以表示为指数形式的分布。
<nobr> p(y;η)=b(y)exp(ηTT(y)−α(η)) </nobr>
其中, <nobr> η </nobr>为自然参数, <nobr> T(y) </nobr>为充分统计量。 <nobr> α(η) </nobr>为归一化系数。当参数 <nobr> b,α,T </nobr>都固定时,就定义了一个以 <nobr> η </nobr>为参数的函数族。
逻辑回归假设 <nobr> y </nobr>服从伯努利分布,
令 <nobr> η=log(ϕ1−ϕ) </nobr> ,得到 <nobr> ϕ=11+e−η </nobr> 。这就是逻辑回归的激活函数。
逻辑回归建模预测 <nobr> y|x </nobr>,并假设 <nobr> y|x </nobr>服从伯努利分布,所以只需知道 <nobr> p(y|x) </nobr>。
其次需要一个线性模型,即 <nobr> p(y|x)=f(wx) </nobr>。
然后通过最大熵原则推出f,就是sigmoid函数。
为什么用对数损失函数
如果用平方损失函数,平方损失函数关于参数是非凸的。
对数损失函数是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解。
逻辑回归优点
1、它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题。
2、它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用。
3、对率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。
参考资料
《统计学习方法》第6章
《计算广告》第10章
指数分布族(The Exponential Family)与广义线性回归(Generalized Linear Model GLM)
逻辑回归的目标函数(损失函数)是凸函数吗?有没有最优解?