牛客552516607号:BN的作用 1 )改善流过网络的坡度 2 )允许更大的学习率,大幅提高训练速度: 可以选择比较大的初始学习率来加快训练速度。 以前,需要逐渐调整学习率。 甚至在网络培训减半的时候,我也需要考虑选择多少学习率更低的比例是合适的。 现在,可以采用初期的大学习率。 而且,学习率的衰减速度也变大。 因为这个算法收敛很快。 当然这个算法比以前的收敛速度快,即使你选择了小的学习率。 要说为什么,那是因为它具有快速训练收敛的特性; 3 )减少对初始化的强烈依赖 4 )改进正则化策略:作为正则化的一种形式,稍微减少了对dropout的需求
0 点赞 评论 收藏
分享
2021-04-20 00:37
五邑大学 C++ 0 点赞 评论 收藏
分享
荞麦皮97:本文对BGD的解释和其他技术博客不一致,BGD似乎不是只计算一个batch的梯度,而是针对整个数据集。GD是一种方法论,BGD SGD MBGD 都是GD的实例
0 点赞 评论 收藏
分享
201904211510660:真棒!果断订阅了
0 点赞 评论 收藏
分享
蒋豆芽:从今天开始对该专栏内容重新整理,丰富其面试题。
0 点赞 评论 收藏
分享
创作者周榜
更多
关注他的用户也关注了: