字节跳动算法工程师一面(个人第7面)

2024/11/08

1.自我介绍
2.围绕项目提问

手撕题:
3.如何使用rand5来实现rand7
4.实现一个多头注意力机制。

大模型八股:
5.注意力计算时,为什么需要除以缩放系数?
6.具体到多头注意力的计算中,掩码是如何加入的?(加性掩码,负无穷表示masked,0表示不masked)
7.全参数微调和lora的区别
8.LSTM和transformer的区别,transformer的优势?
9.deepspeed的zero1,zero2和zero3都是什么?
10. deepspeed和Megatron之间的差异是什么?
11.为什么大量使用decoder而不是encoder?

已过,已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了?#
全部评论
传奇耐面王
点赞 回复 分享
发布于 11-15 13:33 广东
同学,华为考虑吗?
点赞 回复 分享
发布于 11-15 17:15 上海
实习吗,感觉比较基础
点赞 回复 分享
发布于 11-15 17:24 陕西

相关推荐

6 10 评论
分享
牛客网
牛客企业服务