他们对于y的假设分布都不一样吧。。 交叉熵损失不是-loglikelyhood么,二分类问题的假设不是y服从伯努利分布么,那求极大似然不就可以推导出来CE了么。
点赞 评论

相关推荐

牛客网
牛客企业服务