为什么BERT中输入数据的[mask]标记为什么不能直接留空或者直接输入原始数据,在self-attention的Q K V计算中,不与待预测的单词做Q K V交互计算? 这个说法和相应的解释并没有看懂啊,能多讲讲吗?感谢楼主。
点赞 1

相关推荐

贺兰星辰:不要漏个人信息,除了简历模板不太好以外你这个个人简介是不是太夸大了...
点赞 评论 收藏
分享
三年之期已到我的offer快到碗里来:9硕都比不上9本
点赞 评论 收藏
分享
牛客网
牛客企业服务