有情有义真puppy:没关系的,对公司来说不过是再招一个人,对你来说可能会影响你的人生轨迹
0 点赞 评论 收藏
分享
小马过_河:明天来网易云音乐报道
投递微博等公司10个岗位 >
0 点赞 评论 收藏
分享
Queequeg:残差网络可以缓解梯度消失,在论文中解释的很清楚啊。可以用如下公式解释: xl+1 = xl + F(xl, Wl) xl+2 = xl+1 + F(xl+1, Wl+1) 依次类推,可以得到第L层的输入为: 设损失函数为则: 从上式可以看出,从第L层到它之前的任意l层有两条传播路径,第一条传播路径不经过任何中间层,这对梯度消失起到了缓解作用。另外,在一个mini-batch中,一般来说,对于所有的样本都是-1的可能性不大。这就意味着即使所有的weights都取很小的值,梯度也不会消失。 至于为什么既然relu的梯度只有0和1,为什么还会梯度消失,可以举一个简单的例子。 假如f(x) = 0.1x,g(x)是relu函数。 x1 = g(f(x0)) x2 = g(f(x1)) 那么: x2 = g(f(g(f(x0)))) 假设这个复合函数中relu全部都在正半轴区域,即梯度为1的区域。我们会得到: 神经网络中不只relu这一种变换,其他的变换同样可以影响梯度值。故relu只是相对于其他激活函数可以缓解梯度消失,并不能消除。
投递商汤科技等公司10个岗位 >
0 点赞 评论 收藏
分享
投递蘑菇街等公司10个岗位 >
0 点赞 评论 收藏
分享
投递快手等公司10个岗位 >
0 点赞 评论 收藏
分享
鸡排饭加两个蛋:第一次用markdown,好像有的地方不太对,将就着看吧,今天上午刚去面试的,新鲜热腾的面经~
投递腾讯等公司10个岗位 >
0 点赞 评论 收藏
分享
关注他的用户也关注了: