Softmax 函数数值稳定性
Softmax 函数数值稳定性
我们在使用计算机数***算时需要使用有限的比特位来表达实数,这会导致近似误差的产生。近似误差可以在多步数值运算中传递、积累,从而导致理论上成功的算法失败。 几种常见的误差产生就是上溢出和下溢出。
下面具体看softmax的稳定性:
tips:以下大写表示向量
上式①中是 softmax(X) 函数,根据式子易得:当x趋于负无穷时exp(x)下溢出;x趋于正无穷时,exp(x)上溢出。
改变过的式子见②,max(X)中中的X是一个向量,整个是指向量中最大的数值,简单的一个小技巧见式子②,改变过的式子 当X的分量较小时, Z的分量至少有一个为零,从而导致softmax(Z)的分母至少有一项为 1,从而解决了下溢出的问题;当X的分量较大时, softmax(Z)相当于分子分母同时除以一个非常大的数 exp(max(X)),从而解决了上溢出。
在多数情况下不需要去考虑这些东西,你只需要去使用相关的底层依赖,一般来说都解决了这些问题,但是当自己的算法需要实现的时候我们就需要去考虑数值稳定性的问题,否则可能会出现很严重的后果。