职场成长过程就是ChatGPT的进化过程!!

如果说当前深度学习领域最火的模型有哪些,ChatGPT一定排在前列。从流畅对话到“无所不知”的问答;从学术到商业,无不充斥这ChatGPT的身影。在OpenAI公布相关的API后,其火爆程度更上一层楼,纷纷讨论其带来的影响。

这么爆火的ChatGPT,我们作为技术人员,能够知其应用场景,也应该知其背后训练过程。OpenAI没有公布ChatGPT的训练细节,只有一个官方博客,目前网上讲解ChatGPT的训练,均以InstrctGPT为例进行讲解。这本身没有问题,从官方公布的博客看,也仅是数据和使用的base模型存在一点差异,其他的训练过程是完全类似的。

在学习了训练过程后,感觉应届生进入公司的成长历程,就是ChatGPT的训练过程。从应届生进入公司成长看ChatGPT训练过程。

本文不涉及任何公式推导,只从定性的角度进行类比,旨在理解其大概的想法,细节上不做太多讲解。

每一个毕业生,都是在学校预训练好的“大模型”,见证了许许多多的数据。在本文中,假定有三个毕业生A、B和C。

从官方公布博客看,InstrctGPT和ChatGPT大概经历了三个步骤:1、**微调:**收集一定问题后,人工对齐进行标注书写期望的输出,对GPT3模型微调,得到SFT模型2、**模仿:**基于GPT模型,进行问题和模型输出的收集,人工对输出数据标注顺序,通过监督学习得到RM模型3、**反馈:**以SFT初始化GPT,利用PPO策略对模型进行迭代更新,最终得到终态模型

微调

在刚进入公司的时候,会有各类的文档:编码规范、上线流程、立项说明等等,经过学习入手文档(微调)后,可以应对基础的工作知识了,实现第一步进化(微调)。

相比学校学习的海量知识(数据),在上手工作的时候,接触的文档要少的多;微调,或者说从学校到职场的转变,是必须的过程。在这个过程中,不是从头学习编程能力、沟通能力,仅仅是调整相应的方式以适配工作而已。在ChatGPT或者InstrctGPT的训练过程中,微调也是其训练流程的第一步,不过其输入的带标签数据,是人工生成的。

模仿

在完成初步的学习后,A、B、C对于基本的工作都能够应对:对于老板给定的问题,能够给出反馈。

但B不甘心如此,对于每次老板的问题,给出多个反馈,然后根据老板的反馈,去模仿老板:学习老板的偏好(喜好)——更喜欢简洁的还是长篇大论的答案?还是数据形式还是图文并茂形式?等等喜好。

B通过对老板的反馈进行模仿学习,实现了第二次进化(模仿)——在下次老板给定问题的时候,A和C给出的方案,B能够模仿老板对A和C的方案进行评论(打分—)。

B通过向优秀的人(老板)学习,掌握了新的技能:评判问题方案的好坏,这个能力让B脱颖而出。在ChatGPT和InstrctGPT中,第二步是利用已有的模型,结合人工打分,训练一个RM(Reward Model),专注打分的模型

反馈

C在工作中勤勤恳恳,被老板看在眼里,于是,在B完成第二步进化后,老板说了:B来指导C,提升下C的能力吧。

于是C在第一轮进化的基础上,通过不断的与B交互(将方案给B,B对方案进行评价反馈给C),C的能力不断提升,最终直接实现了究极进化:成了独当一面的人了。

C在与B的交互(C->产出方案->B->给出反馈->C)中,不断提升自己的能力,实现自己的成长。ChatGPT和InstrctGPT的训练过程要更复杂点,有A(SFT模型)约束C(PPO模型),以及考虑了预训练,基本思路是相同的。

经过上面三个步骤,C最终弯道超车,脱颖而出,C位(ChatGPT)出道啦!希望所有的职场打工人,能够像ChatGPT一样,通过学习(训练)最终脱颖而出!

#牛客创作充电计划##职场成长##应届生初入职场,求建议##我的求职思考##职场#
全部评论
哈哈哈哈,这个比喻很形象
点赞 回复 分享
发布于 2023-03-07 13:42 山东
所以女朋友吵架了怎么办?急,在线等回复
点赞 回复 分享
发布于 2023-03-07 13:57 江苏
讲道理来说,讲道理真的可以吗
点赞 回复 分享
发布于 2023-03-07 14:17 北京
职场就是一个学习进化的过程
点赞 回复 分享
发布于 2023-03-08 09:15 陕西
小白成长过程
点赞 回复 分享
发布于 2023-03-08 09:20 湖南

相关推荐

11-02 09:49
已编辑
货拉拉_测试(实习员工)
热爱生活的仰泳鲈鱼求你们别卷了:没事楼主,有反转查看图片
点赞 评论 收藏
分享
8 收藏 评论
分享
牛客网
牛客企业服务