我也在做差不多的东西 BERT提取的特征是矩阵形式, 768 * 自己设的句子长度(包括CLS和SEP), 如果用transformer解码就用整个矩阵做decoder的输入(K和V),如果用GRU解码就用CLS对应的向量做GRU的hidden state 有好的想法可以交流一下
点赞 7

相关推荐

不愿透露姓名的神秘牛友
10-05 10:13
已编辑
HHHHaos:让这些老登来现在秋招一下,简历都过不去
点赞 评论 收藏
分享
牛客网
牛客企业服务