字节算法实习二面

 拷打项目
1. 除了MHA 还有其他种类的Self attention吗
2. 为什么要除根号d_k
3. 知道哪些位置编码?
4. Infernce 和Training 的时候 在GPU中都要保存哪些值和变量?有什么区别?
Code:
5. 手写mha
6. 最长无重复子串
全部评论
老哥是什么岗位
点赞 回复 分享
发布于 07-16 18:48 安徽
老哥我马上面这个,能不能给兄弟指点指点
点赞 回复 分享
发布于 08-18 19:59 上海
途虎
校招火热招聘中
官网直投

相关推荐

点赞 评论 收藏
分享
7 15 评论
分享
牛客网
牛客企业服务