整个过程主要围绕技术问题展开,没有涉及太多项目、实习或论文的内容,整体感觉比较标准化。RLHF(Reinforcement Learning from Human Feedback)的流程是什么?请描述InstructionGPT的流程。文档切分是如何进行的?普通模型的query fine tuning和SFT有什么区别?请解释Transformer模型的结构。你用过哪些文本特征提取器?介绍一下CLIP。VIT的patches是如何制作和编码的?请写出softmax的公式。Self attention的公式是什么,为什么要除以sqrt(dk)?Transformer的mask是如何操作的?大模...