闲鱼技术中心,感觉就是被拉来凑数的,面完秒挂时间:9.191. 自我介绍2. 直接开始做题,最长不重复字符串3. 介绍大模型实习4. 数据集构建过程,效果如何评估5. 常见的长文本扩展方案6. post-norm和pre-norm优缺点7. attention的时间复杂度8. DeepSpeed的zero策略9. dp mp pp10. SFT过程中有哪些参数比较重要,为什么需要warm-up11. 大模型推理过程中有哪些参数12. top-p和top_k同时存在时如何处理13. 长度惩罚具体是干了些什么14. LoRA参数有哪些,lora_alpha的作用15. 先0...