eternityer - 个人主页动态

2023-11-03 10:15

飞尘暮光：非要找个理由的话：decoder-only采用的是因果注意力机制，causal attention mask保证了attention score一定是满秩的，而bi-direction attention mask，也就是encoder里所用的不能保证满秩。显而易见，参数矩阵的秩和它的学习能力是相关的。所以decoder-only架构潜力更大，因此也需要更多的数据才训练，模型做大的时候，它的capability是随着尺寸变大有着一个稳定增长。实际情况：海量数据+更强的训练工程。

0 点赞评论收藏

2023-11-02 09:52

门头沟学院 Java

极氪面试

吉利极氪算法工程师岗(智能互联网中心)一面面啥? 突然收到明天面试通知，是不是kpi面?😅

投递吉利汽车分公司等公司10个岗位

0 点赞评论收藏

关注他的用户也关注了：