2024/11/081.自我介绍2.围绕项目提问手撕题:3.如何使用rand5来实现rand74.实现一个多头注意力机制。大模型八股:5.注意力计算时,为什么需要除以缩放系数?6.具体到多头注意力的计算中,掩码是如何加入的?(加性掩码,负无穷表示masked,0表示不masked)7.全参数微调和lora的区别8.LSTM和transformer的区别,transformer的优势?9.deepspeed的zero1,zero2和zero3都是什么?10. deepspeed和Megatron之间的差异是什么?11.为什么大量使用decoder而不是encoder?已过,已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了?#