交叉熵为什么可以作为分类的损失函数?

MSE和交叉熵为什么选择交叉熵作为分类的损失函数?
面试中遇到好多次了,来个大佬让我背一遍答案,谢谢!!!
#面试题目#
全部评论
MSE + sigmoid、交叉熵 + sigmoid配套。后者计算少1个sigmoid的导数项,梯度等于预测值和真实值差值乘以x,计算更方便,而且差值越大代表梯度越大,更新越快,符合物理意义;前者sigmoid导数取值范围为[0,1],计算复杂,而且可能出现梯度消失
3
送花
回复 分享
发布于 2020-08-22 16:51
交叉熵实际上是对输入数据的概率按照 p_i ^ y_i 的形式做了一个极大似然估计,取个log就是交叉熵的形式了。 而 mse 是假定误差服从高斯分布,简单来说是对 exp(|y - y'|**2) 进行极大似然估计,取个log得到平方损失的形式。
3
送花
回复 分享
发布于 2020-08-22 17:18
秋招专场
校招火热招聘中
官网直投
理论上。实际上
点赞
送花
回复 分享
发布于 2020-08-22 16:39
mse是假设误差服从高斯分布。。
点赞
送花
回复 分享
发布于 2020-08-22 16:40
从梯度来理解
点赞
送花
回复 分享
发布于 2020-08-22 16:42
其中一点是:你使用mse对分类任务时,梯度更新的时候是会涉及到sigmoid的计算,而你用交叉熵的话求梯度更新只涉及到真实值,预测值和x,计算就会实现简单方便
点赞
送花
回复 分享
发布于 2020-08-22 16:43
他们对于y的假设分布都不一样吧。。 交叉熵损失不是-loglikelyhood么,二分类问题的假设不是y服从伯努利分布么,那求极大似然不就可以推导出来CE了么。
点赞
送花
回复 分享
发布于 2020-08-22 20:28

相关推荐

4 20 评论
分享
牛客网
牛客企业服务