逻辑斯谛(Logistic)回归

Logistic回归模型

logistic分布

逻辑斯谛分布

设X是连续随机变量,X具有下列分布函数和密度函数
<nobr> F(x)=P(Xx)=11+e(xμ)/γ </nobr>
<nobr> f(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2 </nobr>
密度函数和分布函数如图所示

分布函数图形是一条S形曲线。该曲线以点 <nobr> (μ,12) </nobr>位中心对称,即满足
<nobr> F(x+μ)12=F(x+μ)+12 </nobr>
曲线在中心附近增长速度较快,两端较慢。
形状参数 <nobr> γ </nobr>的值越小,曲线在中心附近增长越快。

二项逻辑回归模型

二项逻辑回归模型是如下的条件概率分布

<nobr> P(Y=1|x)P(Y=0|x)=exp(wx)+b1+exp(wx+b)(6.5)=11+exp(wx+b)(6.6) </nobr>

一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率就是 <nobr> p1p </nobr> ,该事件发生的对数几率(log odds)或logit函数是
<nobr> logit(p)=logp1p </nobr>
对逻辑斯谛回归而言,由式(6.5)与式(6.6)得
<nobr> logP(Y=1|x)1P(Y=1|x)=wx </nobr>
逻辑回归模型中,输出Y=1的对数几率是输入x的线性函数。

模型参数估计

极大似然估计
<nobr> P(Y=1|x)=π(x),P(Y=0|x)=1π(x) </nobr>
似然函数为
<nobr> i=1N[π(xi)]yi[1π(xi)]1yi </nobr>
对数似然函数为

<nobr> L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))] </nobr>

对L(w)求极大值,得到w的估计值。
这样,问题就变成了以对数似然函数为目标函数的最优化问题。
通常采用 梯度下降(这里是上升,最大化对数似然函数)法及拟牛顿法

梯度下降法

<nobr> L(w)w=i=1Nxi(yiπ(x)) </nobr>,其中 <nobr> π(x)=exp(wx)1+exp(wx) </nobr>
设学习率为 <nobr> α </nobr>,则梯度上升法的更新公式为
<nobr> wj=wj+αi=1Nxi(yiπ(x)) </nobr>

多项逻辑斯谛回归

假设离散型随机变量Y的取值集合是 <nobr> 1,2,...,K </nobr>,那么多项逻辑斯谛回归模型是

<nobr> P(Y=k|x)=exp(wkx)1+k=1K1exp(wkx),k=1,...,K1P(Y=K|x)=11+k=1K1exp(wkx) </nobr>

sigmoid函数的推导

根据对数几率回归推导

根据最大熵模型推导

http://blog.csdn.net/u012151283/article/details/77619799#t2
最大熵原理告诉我们,当在某些约束条件下选择统计模型时,需要尽可能选择满足这些条件的模型中不确定性最大的那个。
采用熵作为统计不确定性的度量,这个问题变为一个条件约束的问题。
在最大熵准则下,

<nobr> p(x)=argp(x)maxH(x)s.t.Ep[fd(x)]=Ep˜[fd(x)],d=1,...,D </nobr>

<nobr> fi(x) </nobr> 为一组特征函数,而优化中约束的意义是这一组特征函数在某型 <nobr> p(x) </nobr> 下的均值等于其数上的均值。

使用拉格朗日方法可以得出一项重要结论,求其最大熵解等价于求一个对应指数形式分布的最大似解。

<nobr> π(x)u=P(Y=u|X) </nobr>
根据最大熵模型,有

<nobr> π(x)v0v=1kπ(x)v=1i=1nx(i)jπ(x(i))u=i=1nf(u,y(i))x(i)j(for all u,j) </nobr>

指数族分布

指数分布族是指可以表示为指数形式的分布。
<nobr> p(y;η)=b(y)exp(ηTT(y)α(η)) </nobr>
其中, <nobr> η </nobr>为自然参数, <nobr> T(y) </nobr>为充分统计量。 <nobr> α(η) </nobr>为归一化系数。当参数 <nobr> b,α,T </nobr>都固定时,就定义了一个以 <nobr> η </nobr>为参数的函数族。

逻辑回归假设 <nobr> y </nobr>服从伯努利分布,

<nobr> p(y;ϕ)=ϕy(1ϕ)1y=exp(ylogϕ+(1y)log(1ϕ))=exp(log(ϕ1ϕ)y+log(1ϕ)) </nobr>

<nobr> η=log(ϕ1ϕ) </nobr> ,得到 <nobr> ϕ=11+eη </nobr> 。这就是逻辑回归的激活函数。

逻辑回归建模预测 <nobr> y|x </nobr>,并假设 <nobr> y|x </nobr>服从伯努利分布,所以只需知道 <nobr> p(y|x) </nobr>
其次需要一个线性模型,即 <nobr> p(y|x)=f(wx) </nobr>
然后通过最大熵原则推出f,就是sigmoid函数。

为什么用对数损失函数

如果用平方损失函数,平方损失函数关于参数是非凸的。
对数损失函数是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解。

逻辑回归优点

1、它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题。

2、它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用。

3、对率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

参考资料

《统计学习方法》第6章
《计算广告》第10章
指数分布族(The Exponential Family)与广义线性回归(Generalized Linear Model GLM)
逻辑回归的目标函数(损失函数)是凸函数吗?有没有最优解?

全部评论

相关推荐

Dream_coding:你是不是只投大厂了
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务