职场成长过程就是ChatGPT的进化过程！！

如果说当前深度学习领域最火的模型有哪些，ChatGPT一定排在前列。从流畅对话到“无所不知”的问答；从学术到商业，无不充斥这ChatGPT的身影。在OpenAI公布相关的API后，其火爆程度更上一层楼，纷纷讨论其带来的影响。

这么爆火的ChatGPT，我们作为技术人员，能够知其应用场景，也应该知其背后训练过程。OpenAI没有公布ChatGPT的训练细节，只有一个官方博客，目前网上讲解ChatGPT的训练，均以InstrctGPT为例进行讲解。这本身没有问题，从官方公布的博客看，也仅是数据和使用的base模型存在一点差异，其他的训练过程是完全类似的。

在学习了训练过程后，感觉应届生进入公司的成长历程，就是ChatGPT的训练过程。从应届生进入公司成长看ChatGPT训练过程。

本文不涉及任何公式推导，只从定性的角度进行类比，旨在理解其大概的想法，细节上不做太多讲解。

每一个毕业生，都是在学校预训练好的“大模型”，见证了许许多多的数据。在本文中，假定有三个毕业生A、B和C。

从官方公布博客看，InstrctGPT和ChatGPT大概经历了三个步骤：1、**微调：**收集一定问题后，人工对齐进行标注书写期望的输出，对GPT3模型微调，得到SFT模型2、**模仿：**基于GPT模型，进行问题和模型输出的收集，人工对输出数据标注顺序，通过监督学习得到RM模型3、**反馈：**以SFT初始化GPT，利用PPO策略对模型进行迭代更新，最终得到终态模型

微调

在刚进入公司的时候，会有各类的文档：编码规范、上线流程、立项说明等等，经过学习入手文档（微调）后，可以应对基础的工作知识了，实现第一步进化（微调）。

相比学校学习的海量知识（数据），在上手工作的时候，接触的文档要少的多；微调，或者说从学校到职场的转变，是必须的过程。在这个过程中，不是从头学习编程能力、沟通能力，仅仅是调整相应的方式以适配工作而已。在ChatGPT或者InstrctGPT的训练过程中，微调也是其训练流程的第一步，不过其输入的带标签数据，是人工生成的。

模仿

在完成初步的学习后，A、B、C对于基本的工作都能够应对：对于老板给定的问题，能够给出反馈。

但B不甘心如此，对于每次老板的问题，给出多个反馈，然后根据老板的反馈，去模仿老板：学习老板的偏好（喜好）——更喜欢简洁的还是长篇大论的答案？还是数据形式还是图文并茂形式？等等喜好。

B通过对老板的反馈进行模仿学习，实现了第二次进化（模仿）——在下次老板给定问题的时候，A和C给出的方案，B能够模仿老板对A和C的方案进行评论（打分—）。

B通过向优秀的人（老板）学习，掌握了新的技能：评判问题方案的好坏，这个能力让B脱颖而出。在ChatGPT和InstrctGPT中，第二步是利用已有的模型，结合人工打分，训练一个RM（Reward Model），专注打分的模型

反馈

C在工作中勤勤恳恳，被老板看在眼里，于是，在B完成第二步进化后，老板说了：B来指导C，提升下C的能力吧。

于是C在第一轮进化的基础上，通过不断的与B交互（将方案给B，B对方案进行评价反馈给C），C的能力不断提升，最终直接实现了究极进化：成了独当一面的人了。

C在与B的交互（C->产出方案->B->给出反馈->C）中，不断提升自己的能力，实现自己的成长。ChatGPT和InstrctGPT的训练过程要更复杂点，有A（SFT模型）约束C（PPO模型），以及考虑了预训练，基本思路是相同的。

经过上面三个步骤，C最终弯道超车，脱颖而出，C位（ChatGPT）出道啦！希望所有的职场打工人，能够像ChatGPT一样，通过学习（训练）最终脱颖而出！

职场成长过程就是ChatGPT的进化过程！！

微调

模仿

反馈

全站热榜