为什么 大规模深度CTR预估中Adam与Adagrad怎么选择,为什么对稀疏离散特征使用Adagrad, 而对连续特征(Dense)使用Adam?楼主有答案吗
点赞 评论

相关推荐

牛客网
牛客企业服务