职场成长过程就是ChatGPT的进化过程!!

如果说当前深度学习领域最火的模型有哪些,ChatGPT一定排在前列。从流畅对话到“无所不知”的问答;从学术到商业,无不充斥这ChatGPT的身影。在OpenAI公布相关的API后,其火爆程度更上一层楼,纷纷讨论其带来的影响。

这么爆火的ChatGPT,我们作为技术人员,能够知其应用场景,也应该知其背后训练过程。OpenAI没有公布ChatGPT的训练细节,只有一个官方博客,目前网上讲解ChatGPT的训练,均以InstrctGPT为例进行讲解。这本身没有问题,从官方公布的博客看,也仅是数据和使用的base模型存在一点差异,其他的训练过程是完全类似的。

在学习了训练过程后,感觉应届生进入公司的成长历程,就是ChatGPT的训练过程。从应届生进入公司成长看ChatGPT训练过程。

本文不涉及任何公式推导,只从定性的角度进行类比,旨在理解其大概的想法,细节上不做太多讲解。

每一个毕业生,都是在学校预训练好的“大模型”,见证了许许多多的数据。在本文中,假定有三个毕业生A、B和C。

从官方公布博客看,InstrctGPT和ChatGPT大概经历了三个步骤:1、**微调:**收集一定问题后,人工对齐进行标注书写期望的输出,对GPT3模型微调,得到SFT模型2、**模仿:**基于GPT模型,进行问题和模型输出的收集,人工对输出数据标注顺序,通过监督学习得到RM模型3、**反馈:**以SFT初始化GPT,利用PPO策略对模型进行迭代更新,最终得到终态模型

微调

在刚进入公司的时候,会有各类的文档:编码规范、上线流程、立项说明等等,经过学习入手文档(微调)后,可以应对基础的工作知识了,实现第一步进化(微调)。

相比学校学习的海量知识(数据),在上手工作的时候,接触的文档要少的多;微调,或者说从学校到职场的转变,是必须的过程。在这个过程中,不是从头学习编程能力、沟通能力,仅仅是调整相应的方式以适配工作而已。在ChatGPT或者InstrctGPT的训练过程中,微调也是其训练流程的第一步,不过其输入的带标签数据,是人工生成的。

模仿

在完成初步的学习后,A、B、C对于基本的工作都能够应对:对于老板给定的问题,能够给出反馈。

但B不甘心如此,对于每次老板的问题,给出多个反馈,然后根据老板的反馈,去模仿老板:学习老板的偏好(喜好)——更喜欢简洁的还是长篇大论的答案?还是数据形式还是图文并茂形式?等等喜好。

B通过对老板的反馈进行模仿学习,实现了第二次进化(模仿)——在下次老板给定问题的时候,A和C给出的方案,B能够模仿老板对A和C的方案进行评论(打分—)。

B通过向优秀的人(老板)学习,掌握了新的技能:评判问题方案的好坏,这个能力让B脱颖而出。在ChatGPT和InstrctGPT中,第二步是利用已有的模型,结合人工打分,训练一个RM(Reward Model),专注打分的模型

反馈

C在工作中勤勤恳恳,被老板看在眼里,于是,在B完成第二步进化后,老板说了:B来指导C,提升下C的能力吧。

于是C在第一轮进化的基础上,通过不断的与B交互(将方案给B,B对方案进行评价反馈给C),C的能力不断提升,最终直接实现了究极进化:成了独当一面的人了。

C在与B的交互(C->产出方案->B->给出反馈->C)中,不断提升自己的能力,实现自己的成长。ChatGPT和InstrctGPT的训练过程要更复杂点,有A(SFT模型)约束C(PPO模型),以及考虑了预训练,基本思路是相同的。

经过上面三个步骤,C最终弯道超车,脱颖而出,C位(ChatGPT)出道啦!希望所有的职场打工人,能够像ChatGPT一样,通过学习(训练)最终脱颖而出!

#牛客创作充电计划##职场成长##应届生初入职场,求建议##我的求职思考##职场#
全部评论
哈哈哈哈,这个比喻很形象
点赞 回复 分享
发布于 2023-03-07 13:42 山东
所以女朋友吵架了怎么办?急,在线等回复
点赞 回复 分享
发布于 2023-03-07 13:57 江苏
讲道理来说,讲道理真的可以吗
点赞 回复 分享
发布于 2023-03-07 14:17 北京
职场就是一个学习进化的过程
点赞 回复 分享
发布于 2023-03-08 09:15 陕西
小白成长过程
点赞 回复 分享
发布于 2023-03-08 09:20 湖南

相关推荐

ProMonkey2024:5个oc?厉害! 但是有一个小问题:谁问你了?😡我的意思是,谁在意?我告诉你,根本没人问你,在我们之中0人问了你,我把所有问你的人都请来 party 了,到场人数是0个人,誰问你了?WHO ASKED?谁问汝矣?誰があなたに聞きましたか?누가 물어봤어?我爬上了珠穆朗玛峰也没找到谁问你了,我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒,在找到谁问你之前我连癌症的解药都发明了出来,我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了(别的帖子偷来的,现学现卖😋)
点赞 评论 收藏
分享
过往烟沉:我说什么来着,java就业面就是广!
点赞 评论 收藏
分享
8 收藏 评论
分享
牛客网
牛客企业服务