不得不说字节效率真高一面拷打论文transformer和llama的LN有什么区别,手写RMSNormFFN有什么不同,写Relu和SwiGLU数据清洗流程质量过滤用什么模型PPL公式是什么BERT的预训练任务、embedding讲讲位置编码你认为好的prompt的范式是什么开放性问题:端到端的大模型和多个小模型,各自的优缺点是什么手撕:两道easy当天约面二面拷打论文介绍模型数据清洗流程采用什么样的策略、什么样的数据才会便于模型学习数据配比能说下思路吗主流LLM模型结构设计有什么特点如何评估LLM训LLM最大的困难是什么前沿LLM有了解哪些工具调用怎么实现国内LLM有了解哪些LLM推理能力的天花板现在是什么程度无手撕面我1h,口干舌燥当天约面三面问硬件、硬件利用率讲讲deepspeed几个阶段,分别分片什么、代价是什么模型训练时间如何估计DP和DDP的区别最多用过多少张卡训练过程如何做模型监控数据配比怎么量化才是一个好的方案讲一下预训练数据处理预训练和SFT如何评估encoder-decoder、encoder、decoder区别讲一下文本输入大模型到输出的过程decoding策略大模型结构有哪些变化拷打论文手撕:cross-attention部门就不开盒了,仅供参考另外,秋招真是太耽误打游戏了不说了,猿神,启动!