字节跳动算法工程师一面(个人第7面)
2024/11/08
1.自我介绍
2.围绕项目提问
手撕题:
3.如何使用rand5来实现rand7
4.实现一个多头注意力机制。
大模型八股:
5.注意力计算时,为什么需要除以缩放系数?
6.具体到多头注意力的计算中,掩码是如何加入的?(加性掩码,负无穷表示masked,0表示不masked)
7.全参数微调和lora的区别
8.LSTM和transformer的区别,transformer的优势?
9.deepspeed的zero1,zero2和zero3都是什么?
10. deepspeed和Megatron之间的差异是什么?
11.为什么大量使用decoder而不是encoder?
已过,已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了?#
1.自我介绍
2.围绕项目提问
手撕题:
3.如何使用rand5来实现rand7
4.实现一个多头注意力机制。
大模型八股:
5.注意力计算时,为什么需要除以缩放系数?
6.具体到多头注意力的计算中,掩码是如何加入的?(加性掩码,负无穷表示masked,0表示不masked)
7.全参数微调和lora的区别
8.LSTM和transformer的区别,transformer的优势?
9.deepspeed的zero1,zero2和zero3都是什么?
10. deepspeed和Megatron之间的差异是什么?
11.为什么大量使用decoder而不是encoder?
已过,已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了?#
全部评论
传奇耐面王
实习吗,感觉比较基础
相关推荐
11-12 09:52
杭州电子科技大学 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享