MSE + sigmoid、交叉熵 + sigmoid配套。后者计算少1个sigmoid的导数项,梯度等于预测值和真实值差值乘以x,计算更方便,而且差值越大代表梯度越大,更新越快,符合物理意义;前者sigmoid导数取值范围为[0,1],计算复杂,而且可能出现梯度消失
3 1

相关推荐

牛客网
牛客企业服务