1. 未登录词会通过词根词缀分割之后再转成embedding吧,在论文embedding部分有引用一个前人的工作 2. 残差网络是在transformer的(add&;layer norm)层吧,把经过attention前后的embedding做加法
点赞 评论

相关推荐

11-08 13:58
门头沟学院 Java
程序员小白条:竟然是蓝桥杯人才doge,还要花钱申领的offer,这么好的公司哪里去找
点赞 评论 收藏
分享
牛客网
牛客企业服务