万字长文倡导:无脑拥抱大模型

在这篇文章中,我尝试从趋势分析、企业选择、能力转型等几个角度,将关于大模型的所见所思呈现出来,希望对大家有帮助。

第一部分:趋势分析

前几周跟一个老朋友聚会,边吃边聊,我们一起YY出了很多的AI小秘书,在生活中帮助我们:

我们应聘时,它监听面试官的问题,把答案显示在屏幕上。

警察审案件时,它监听嫌疑人的声音、语气、生理数据,给出建议,并告诉警察如何进一步提问来挖出真相。

它可以把律师事务所、会计师事务所大量根据行业模板做基础工作的一线员工给替换掉。

结婚率进一步下降,因为春水堂的硅胶娃娃借助大模型的深厚思考,成了男性的真正伴侣,社会再没有了男女对抗,大家各玩各的。

中年男人失业之后的几个退路,滴滴司机、保安、保洁、外卖,应该都会大量减少,因为汽车、扫地、派送、硅胶娃娃这些物理各式各样的工具借助大模型拥有了真正的大脑。

我俩聊得很开心,根本停不下来,那场景特别像十几年前一起在大厂工作时,他是PD、我是技术团队TL,我俩泡在一起聊团队那款App的发展路线。

这些小秘书有的靠RAG就可以做掉,有的需要大量的行业案例库做微调、需要出训练自己的所谓“行业大模型”。

但不管是哪种,我们都知道,这些都是当下技术水平触手可及的。

即使有的场景下大模型的能力还差一些,但它的进步速度越来越快,一定会很快能满足。

因为我俩都相信:技术方向已经锚定,“中美”这两个世界最牛的国家也已经把大模型当成核心技术来比拼,这个领域会得到全世界最优秀的人才、最雄厚的资金

从2010年自动驾驶开始探索、2012年CV算法在人脸识别上产生突破,到整个社会被ChatGPT引爆,上个AI时代走了十几年。

而ChatGPT被关注到现在才过去三年时间,市场上所有成规模的公司都已经下场用大模型改造自己产品。

就在我俩吃饭的前两周,杭州市的一个镇长就在打电话请他帮忙引入AI公司落户当地,这是镇长的KPI。

这样火热的场景似曾相识。

在我俩一起经历过的移动互联网大爆发起点——2010年左右,中国所有的互联网公司都在考虑向移动互联网转型,大家YY出各种各样的App来满足需求。

技术基础能力达到某个阈值之后,市场上就会爆出五花八门的应用,并同时点燃就业市场。

今天大模型的发展状态像极了那时。

小时候我们都学过“生产力决定生产关系”,套用到IT领域:

底层技术和终端设备形态的进步会重构无数的应用场景,释放出大量的新兴就业机会。

30年前的Intel+Windows互相绑定,让世界被计算机技术重构了一次,有了程序员这个工种。

十几年前iPhone、Android前后脚发布,智能手机和移动App互相绑定,引爆了一个长达十几年的移动互联网大跃进时代,让程序员多了一个数量级。

而今天,大模型能力涌现,又一波强烈的风口来了。

正因为亲身经历过这些时代的起起伏伏,我俩才更清楚:

Scaling Law放缓、开源模型能力赶上了闭源、做AI应用开发的平台工具在快速成熟,AI应用即将爆发。

一个新的时代到来了,我们的想象力将跟不上未来五年世界的变化。

如果说对软件技术从业者只有一个建议,就是:无脑拥抱大模型。

以上,简单讲了无脑拥抱大模型的逻辑,那怎么拥抱,需要有切入点,最重要的问题就是:去哪些企业、做什么工作?

第二部分企业选择

大模型产业链上下游的企业主要分成算力提供商、终端设备厂商、基础大模型厂商、行业大模型厂商、AI应用开发商几类。

这里我们依次聊一聊。

一、算力提供商

大模型参数规模变大之后出现“能力涌现”,Transformer成为大模型的主流。

按照ScalingLaw,模型越大,训练、推理时所需要的成本就越高。

即使像DeepSeek这类新的技术路线降低训练、推理的成本,但随着应用场景大爆发,整个世界所需的算力必须是成数量级的飙升。

华为负责昇腾(GPU)芯片集成的计算平台产品线在2024的业绩超预期提前达成就是明证。

所以,GPU厂商、服务器厂商、云计算厂商这些算力提供商是最受益的玩家群体之一。

GPU厂商主要是Fabless。

除了国外的英伟达、AMD之外,国内也有很多玩家,比如:

寒武纪、摩尔线程(GPU)、昆仑芯(百度系GPU)、壁仞科技(GPU)、华为系的昇腾、湖南长沙的景嘉微等。

全球服务器厂商按出货规模排名的前四强长期被戴尔、浪潮、HPE、联想占据。

单就国内来说,浪潮、新华三、超聚变、宁畅、中兴等都是头部玩家。

GPU企业对软件技术人员的需求我之前单独写过文章分析(私信我发给大家),服务器厂商数量不多,这里都不再展开。

接下来重点聊聊云计算厂商。

因为GPU、服务器是没法直接商用的,还是要通过云计算厂商包装成应用开发商可直接调用的算力。

大模型对算力的消耗十分大,以头部公司的投入举例:

字节跳动2025年规划在大模型上的1600亿元投资中,900亿元做算力采购,700亿元组建IDC

阿里巴巴要在未来三年内投入 3,800 亿元搞AI基础设施,当这3800亿要落地的时候,我们发现2025年刚开始,就花了 390 亿元采购芯片。

OpenAI在2024年的主要成本结构中,模型训练成本30亿美元、模型推理成本20亿美元、员工薪酬成本7亿美元。

即使DeepSeek把成本打下来,算力成本仍然是最高的,相比之下软件研发人员的那点工资就是毛毛雨了。

国内市场上的头部云计算厂商主要有阿里云、华为云、腾讯云、百度云、电信的天翼云等等。

因为卖的是算力服务,所以对他们来说,最重要的不是谁的模型,而是这些算力是否跑在自己的云上。

2024年阿里在业界闯下了“大模型ETF”的称号,原因是它投资了市面上几乎所有知名的大模型创业公司。

拆解这些投资逻辑就会发现,阿里更像是拿“阿里云消费券”去投资的。

因为这些大模型创业公司拿来的钱除了招人组建团队之外,最大的开支是购买算力。

所以说,阿里不只是在投资,其实也是在拉客户,并不单纯追求某个创业公司是否做大,就像股票市场的ETF,只要大盘是增长的,他就可以赚钱。

另外大模型开源这事也值得聊一聊。

ChatGPT 3.5 发布出来之后,能力惊艳,但企业不可能把自己的数据都贡献出去给OpenAI搞数据训练。

所以我们会发现闭源通用大模型好像啥都行,但又啥都干不精,因为它拿不到沉淀在企业内的高质量领域数据。

阿里云为什么搞开源,一个上市公司当然不可能在这种事情上搞慈善。

因为模型开源之后“群众的力量是伟大的”。

免费 + 可以微调 + 百炼这三大工具齐发,就覆盖了开发、训练、微调、部署、评测等所有链路。

企业部署开源大模型之后,自己的数据有了价值,医药、生物、科研、游戏、玩具等等之前意想不到的场景都被激活了,市场真正百花齐放。

而这些被激活的、五颜六色的花,最终还是要长在云计算厂商的沃土上。

二、终端设备厂商

如果我们把软件技术的应用场景不严谨地分为toB、toC两大类。

toB讲究的是降本提效、toC讲究的是用不断翻新的终端能力和交互形式让大家愿意买它用它。

PC时代我们接触到的终端软件是电脑上的浏览器、桌面工具软件,智能手机时代是各种App。

大模型量化、剪裁、部署到终端设备之后,一定会带来终端形态、交互形式大变样。

所以企业都看清了这个趋势,所以一拥而上:

PC厂商联想要做AI PC。

手机厂商Oppo、VIVO、荣耀、小米要做AI手机。

电视机厂商TCL、长虹要做AI电视。

Rokid这样的创业公司要做AI眼镜。

高通这样的公司会搞出一体化的终端芯片解决方案。

大大小小的点读笔、音箱、玩具等终端设备厂商在拼命使用大模型终构出新的终端交互形态。

在大模型成为主流技术之后,小鹏、理想、蔚来、华为引望、大疆卓驭这些自动驾驶领域的头部玩家,纷纷把原来的规则式自动驾驶升级为端到端。

在2024这个“人形机器人元年”成立的海量的机器人创业公司,更是看到了大模型让机器人具备“大脑”之后的趋势,才一个个跳进了这个坑。

我们不知道AI设备未来最理想的形态是什么,但我们知道肯定不是补丁式的创新,更知道一定会有颠覆性的产品出现。

回到“屋顶的闪闪星光”这个IP的主题——软件技术人员职业发展、就业选择。

那些拥有手机、电脑、汽车、机器人等大量需要与消费者交互的终端产品的公司,也是可以吃到这波大模型发展红利的玩家群体。

这些设备拥有了自己的大脑,升级换代之际,会有大量的软件技术升级工作,当然会创造大量的就业机会。

之前我曾在多篇文章中讲过,Android/iOS/前端这些技术领域的应用层开发工程师的工作其实都是“铺图”。

超级App垄断消费者流量+低代码盛行之后,这些工程师在专业路径上继续发展的门槛很低,天花板也很低。

但新的智能终端交互形态下,他们又有了很多的用武之地了。

使用端侧小模型将终端App的交互方式完全重构,就有大量的工作岗位释放出来了。

三、基础大模型厂商

中国市场上做基础大模型的厂商主要有两类:

一类是背景五花八门的名星创业公司,如,阶越星辰、智谱、MiniMax、月之暗面、王小川的百川智能、李开复的零一万物等等,甚至还有“AI六小龙”的称号。

一类是各个领域的知名企业,在大模型上重金投入做业务升级的,如,阿里的通义、百度的文心、华为的盘古、腾讯的混元、字节的豆包、电信的TeleAI、移动的九天、联通的元景、DeepSeek等等。

第二类企业本身就有自己的核心主业,大模型上重金投入主要是把自己业务的护城河做宽做深,甚至还能去抢别人的生意。

第一类企业走的是融资烧钱模式,一边找投资人要钱、一边发展技术、一边探索商业模式。

可能有人奇怪,为什么要把DeepSeek归到第二类,因为他家的幻方量化私募基金有钱。

有了幻方的钱,就可以养一帮背景优秀的年轻人,让他们安心搞技术,而不用操心流量、App、商业模式、商务关系、客户、解决方案等等这些所有创业公司都需要面对的“柴米油盐”问题,更不用面对KPI、模式、打法、路径、节奏、DeadLine。

穷人每天都在忙着挣钱填肚子,富人才有时间精力追求理想

歪楼讲一句,为什么这些中国在各个领域不断点科技树?

那不是勒紧裤腰带艰苦奋斗出来的,而是房地产、外贸、制造业、互联网等行业的大发展积累了足够的资金、人才。

兜里有钱了,才空管精神文明,加上我们是一个有文明积累的国家,黑悟空、哪吒、DeekSeek这些需要打磨才能出来的东西自然会涌现出来。

如前面讲过的大模型成本结构分析,训练基础大模型所需的算力成本太高,让本就百死一生的创业更是难上加难。

因为同样是创业,同样都需要搞钱,基础大模型公司要搞的钱比做应用开发商要高一个数量级

通常创业公司搞钱的路径就这么几条:

1、保持技术先进性

像OpenAI过去几年那样,靠强悍的基础大模型能力让竞争对手或者所谓应用层创新都变成垃圾,吸引别人相信故事,跟着猛砸钱。

走这条路线的太少太少,就像“功夫”里的周星驰一样,得TND是个天才。

2、有生态支持

大厂的大模型部门和DeepSeek这样的公司都算这一类,研发的时候不愁没钱,技术干好了也不愁没地方挣钱。

自从2023年开始大模型toC产品的能力越来越强,我就卸掉了百度,之后陆续用过文心一言、通义千问、月之暗面、元宝、豆包、DeepSeek等等,最终还是停留在了元宝。

不是它的大模型能力最好,而是因为它有公众号这个平台为他提供丰富的文字内容,这种全网独一无二的稀缺性是众所周知的。

3、自己造血

像抖音、拼多多、小红书那样,自己创造出新的应用场景,快速变大,别人追不上、抄不来。

这就是传统的“创业成功”了,一般创业公司走到这个阶段的都很少。

因为绝大多数都只有两个结局:死了或者卖身,前者远多于后者。

回到“屋顶的闪闪星光”这个IP的主题——软件技术人员职业发展、就业选择。

1、入局基础大模型创业公司要谨慎

所谓“XXX几小龙”在面对公众传播时是个爆点,但在业内却像个魔咒,想想十年前CV领域的AI四小龙是什么结局。

资本是粘了毛比猴还精的群体,朱啸虎曾经搞了个专访跟投资人解释为什么对基础大模型创业公司不看好,大家可以去瞅瞅。

看看百川和零一万物现在都被卷得受不了,想要离开基础大模型领域,去琢磨更赚钱的行业大模型了。

2、不同阶段选择不同

如果是刚入行,核心逻辑是:

在有选择的情况下,尽量去大厂、去有业务壁垒、去有稳定现金流甚至盈利的公司。

眼下中美两个大国主要IT公司资金、人才都聚焦在这个领域。

行业处在你追我赶、快速迭代的阶段,人、钱、路线这三个要素,但凡有一样掉链子就会变成技术革命的炮灰

而如果已经毕业多年,简历也刷好了,正是想闯一闯的年龄,可以找个相对靠谱的创业公司。

不管是离开平台直面市场、拿股票期权、搞个发光的title,都可以算是有溢价,赌一把看能不能吃到红利。

如果没得选,也可以去六小龙这类基础大模型创业公司刷个简历。

他们还在风口没掉下来,知名度还可以。但要确认上一轮融资够烧到我们在那里待上两年而不被干掉。

四、行业大模型厂商

基础大模型有开源、闭源两条路线。

如果使用闭源模型,企业用户是不可能把自己的核心业务数据上传的

好在闭源模型引领方向之后,开源模型迅速跟上,两者差距越来越小。

这就让市场上大量有自己数据的中小企业也能基于开源模型微调属于自己的行业大模型。

行业大模型已经进入井喷阶段,比如:

北京大学团队开发的法律大语言模型——ChatLaw、华宇软件的万象法律大模型、阿里国际推出的Marco翻译大模型、东方财富的妙想金融大模型、京东健康的“京医千询”医疗大模型、作业帮的银河大模型、稚晖君的智元启元大模型等等。

去年10月中国科学院《互联网周刊》搞了个“2024医疗大模型Top30”榜单,单单一个医疗领域的行业大模型就这么多玩家。

这才几年时间,市场上各类大模型甚至到了“泛滥”的地步。

五、AI应用开发商

市场上的云计算厂商、基础大模型厂商都可以用手数得过来,但AI应用开发商却是多如牛毛。

我们虽然把AI应用开发商这个群体放到最后来讲,但这个群体在市场上其实是数量最多的,也是提供就业机会最多的。

技术最终还是要为人民服务的,大家愿意花钱,技术才能向前发展

像顺丰这种行业龙头企业,自身有数据和降本提效的诉求,用 Dify 加上开源大模型就能拼出自己的 AI Agent。

像米哈游创始人蔡浩宇搞的AI游戏,可以在跟玩家对话过程中推动情节发展,并影响主角Stella的命运。

顺丰用大模型把快递行业的单包裹成本整体再向下打一截、米哈游靠AI游戏让付费量再上一个层级,这些才是大模型最让人着迷的地方。

市场上的AI应用开发商分为卖解决方案、自身场景落地、做工具产品等几类玩家。

1、卖解决方案的

有大量的软件厂商为各行各业不具备软件研发能力的客户提供AI Agent解决方案,下至几万、上至几百上千万的项目都可以搞。

如果客户能接受公共云服务,那就在公共云上搭一个多租户的SaaS。

如果客户只接受私有云服务,那就拉一个开源基础大模型部署在客户那里。

把企业的数据清洗之后做微调,很多甚至不用微调,只把数据扔到向量数据库中,通过RAG,再集成上内部系统接口,就可以搞出来一个个的AI Agent。

2、做自身场景落地的

即使在字节、阿里、腾讯这样的中国一线互联网大厂中,做基础大模型研发的也是极少数的人。

大多数团队都是调用大模型能力,在自己的产品线上落地,最终还是要为业务服务,给公司挣钱。

市场上那些有研发团队的公司,都会拉开源大模型过来应用到自己的业务场景下,比如:

把原来的推荐场景改成大模型推荐。

把原来的输入框搜索改成AI助手搜索。

把原来的手动提取数据改成ChatBI。

原来极其智障的客服改成真正可以解决客户实际问题的智能客服。

原来用规则去做决策的可以改成大模型等等。

3、做工具的

把AI能力做成工具产品直接为客户服务,比如Manus、Cursor、Claude、可灵、元宝App这类产品。

AI应用开发商不会碰基础大模型,自身的技术也没有太高的壁垒。

甚至像Manus这样被泼天自媒体流量临幸的公司,火起来刚刚两天,就有人公布了开源实现。

但企业、消费者的需求千奇百怪、五花八门,少数几个大厂不可能搞出标准解决方案来满足所有人需求。

开源大模型把大厂和小企业的基础能力拉到了同一水位,通过比拼创意、占据细分领域,小企业也可以活得“小而美”。

这就是AI应用领域数量最大、创业就业机会最多,也最适合大多数人的核心逻辑。

回到“屋顶的闪闪星光”这个IP的主题——软件技术人员职业发展、就业选择。

当AI越来越厉害的时候,世界对软件工程师的需求是上升还是下降了?

我一个朋友被大厂裁员之后干独立开发者,他说,AI对工具就像个P5工程师。

大模型作为工具出现,通过Cursor、Claude给程序员提效,必定会干掉一批停留在初级水平的程序员。

不只软件技术领域是这样,其它行业也是一样的逻辑。

朋友公司很小,花一千块钱从会计事务所买了个做账服务,但这个服务由初级会计来完成,只给客服做报表汇总,并不会承担风险、也不会帮忙诊断企业经营情况。

今天这种做账服务大量存在,因为市场上有太多的小企业了。

但AI能力突飞猛进,金蝶、用友、浪潮早晚会进化到把这部分人给替换掉。

因此,如果一定要说失业的危险,在各行各业做固定规则式的输入、输出工作的初级白领才是最大的群体。

虽然这是趋势,但媒体为了获取流量而蹭热点、制造焦虑,把大模型打上“让人失业”的标签,然后在个性化推荐算法的加持之下,被内容平台传播到世界的每个角落。

如果AI技术的创新仅仅被理解成“降本提效”,就太狭隘了。

我几年前去一个物流行业客户的仓库里参观,仓库负责人告诉我们,中国存在大量像他们这样使用一张Excel表人工记账做管理的中小仓库。

但是采购一套排班管理系统的成本太高,只要人力成本低,让整体成本算下来比采购系统低,他们就不会采购系统。

浙江的电子政府系统在全国算是排头兵了,但我们登录到“浙里办”上办事时,还是会在各个地市厅局的系统中跳来跳去。

想让AI变聪明、真正可用,不管是预训练、微调、RAG,都得让它掌握足够的高质量数据才行。

以前那些没有被软件线上化、数字化的地方会被AI时代的滚滚大潮给挟裹着,变得线上化、数字化。

以前因为部门墙及背后的权力作怪而互相隔绝系统,也会被逐步打通。

这么一来,软件技术的边界扩张就会创造出来更多的就业机会。

此消彼长,最终结局是什么呢?

个人认为:对软件技术人员的需求总量会增长、需求结构会变化

市场对那些具备AI应用研发能力的前端、后端、测试、算法、数据等岗位的需求会继续缓慢增长,而Prompt、模型测评、AI训练师等新型岗位也会快速增长,并达到一定的占比。

第三部分能力转型

上面几次提到“无脑拥抱大模型”,但具体到个人如何拥抱?

我觉得首先是保持对最先进工具的跟进和应用,成为最会用AI工具的工程师。

基础技术还在快速迭代,每隔几个月可能都会出现新的工具,像Cursor、Claude这类大模型工具的能力也在快速增长。

对大部分软件技术人来说,最基本的拥抱方式是持续使用工具提效,熟悉与AI工具协作。

拿我周围人的实操经验来看,渡过开始的磨合期之后,使用AI工具会产生明显的效率提升。

我个人的看法,未来工程师会慢慢分化成几类:

1、使用AI工具解决复杂问题的精英工程师

干过复杂软件工程的人都知道,不管是前端、后端、质量、数据、算法、嵌入式,真正困难的并不是Coding。

而是分析需求、制定规划、设计架构并跟随需求不断迭代更新、方案调研与选择,以及判断风险并为上面的这些环节承担责任。

AI可以画一张架构图,但用还是不用、会产生什么效果,需要人来判断。

AI可以写一个技术方案,但如果它没有考虑异常链路,出了故障谁来负责?

AI可以写一堆代码,但谁来做CR,并做稳定性保障?

AI可以用代码写出一堆页面,但布局是否合理?

2、使用AI工具做简单开发的廉价工程师

在AI Coding之前,软件技术领域已经存在无数的低代码方案了。

它们的核心逻辑都一样:在技术上不断抽象公共组件、在经营上降本提效。

大量面向B(企业)、G(政府)做解决方案的软件厂商,在一线城市用不到一万的月薪、二线城市5、6千的月薪招一堆初级全栈工程师,低社保、零公积金,既干后端CRUD、也干前端拖拖拽拽。

我们也看到腾讯云智、华为OD、数字马力这样的公司在大量雇佣那些学校、学历、履历背景都一般的高性价比软件工程师来为大厂降本提效,实现成本结构的腾笼换鸟。

AI会让廉价工程师的制造成本变得更低。

未来这些公司能通过几个月的培训班来大量制造会用AI工具解决初级软件问题的工程师。

我们十几年教育卷出升天,最后找个中小企业干CRUD和全栈开发,这种日子估计快到头了。

3、非软件技术领域的业余工程师

我老婆公司的老板是计算机专业出身,从来没有干过软件技术但对软件技术又有热情,先是使用AI工具自己搭了公司的网站,最近又在写Python脚本抓取、分析外卖平台的数据,研究怎样给自己的餐饮店提升流量。

以前十几岁的高中生写出iOS App的时候,我还很惊讶,但现在有十几岁高中生写出情绪管理的小软件,我一点也不惊讶,因为我上小学的儿子已经可以在元宝的辅助之下,自己完成编程培训班的课后作业了。

技术平权的结果,就是非专业人士大幅替代低段位的专业人士,从各种匪夷所思的角度,创造出五花八门的产品,解决杂乱无章的问题,来为这个世界带来微小而美好的改变

但是,成为最会用AI工具的工程师其实只是基础,对专业人士来说,设定专业路线、掌握专业技能,在行业里持续混饭吃才是正题。

回到本文的重点,基础大模型领域的就业机会比较少,我们就聚焦在大模型应用开发这一层,这里可以容纳足够多的工程师就业。

毕竟,在就业市场招聘量最大的企业还是利用慢慢成熟的AI基础平台来开发应用,解决客户问题。

我们先对比下传统软件系统和嵌入了大模型的软件系统之间的区别。

传统软件技术的调用链路如下:

1、终端渲染页面,接受用户输入。

2、数据传递到后端,调用系统架构中不同职责的应用。

3、每个承担具体职责的应用程序通过对DB的CRUD来做数据读写。

4、结构化的数据拼装完成,回传到前端。

5、终端渲染页面,展现新结果。

而嵌入了大模型的软件系统调用链路如下:

1、终端渲染页面,接受用户输入。

2、意图识别,以及通过记忆、向量化等做预处理。

3、流程编排,调用大模型能力、内部系统服务、外部工具。

4、结构化的数据拼装完成,回传到前端。

5、终端渲染页面,展现新结果。

系统的核心环节已经从设计核心模型、拆分服务、调用链路、数据组装,变成了如何充分发挥大模型的能力,让大模型有更高质量的产出。

大模型成为最重要的生产力,系统所做的一切都开始以它为核心

系统的重心转移了,我们就需要新型的产品经理、架构师,以及Prompt、训练、微调、测评等工程师。

既然大模型软件系统的核心生产力是大模型,这里就必须要提到一个为大模型贡献智慧的新工种——AI训练师。

拿我们消费者最常见的客服场景举例:

模型上线前,需要给算法模型输入客服和用户的聊天记录,对模型做微调。

模型上线后,对模型输出结果进行评分,并将评分结果回流给模型,持续迭代、完善模型。

训练医疗、证券、交通、教育等不同行业的模型所需要的领域知识大不相同,这个岗位需要具备比较多的领域知识。

但我认为AI训练师的重点还是:通过被精心设计的流水线式操作,将训练师们脑子中的领域知识贡献给模型

尽管大模型会催生很多新工种,但在计算机硬件的结构、性能等基本属性没有质变之前,我们的软件系统架构并不会有本质变化,比如:

为了解决算力不足引发的并发问题而使用的线程池。

为了提升渲染效率而设计出各种树状UI结构。

为了适应内存读写快而价高、外存读写慢而便宜,我们需要区分缓存、数据库、文件存储。

为了解决单体机器稳定性和性能瓶颈而做分布式架构。

为了应对终端算力不足的问题而做页面启动时的分步加载。

为了解决网络、程序的不确定性而建立复杂的监控体系。

以上就是我预判市场对软件技术团队需求是“总量增长、结构变化”的核心逻辑。

因为,不是大模型淘汰我们现有的工程架构,以及附着其中的工程师,而是我们需要更新系统架构,在其中融入大模型这个特殊的服务

对市场上现存的绝大多数前端、后端、测试、客户端、数据、算法工程师来说:

1、了解大模型的基本原理、应用特点。

2、熟悉对模型的评估、调优、集成、评测能力。

3、知道什么场景下要用什么样的大模型工具。

4、学习榨干大模型的能力为业务服务。

5、掌握如何搭建一个基于大模型的应用软件系统。

这些才是迎接大模型时代个人转型的关键点。

基于大模型应用软件系统中新涌现出来的一些技术特点,我提取一部分展开讲讲,方便我们在技术转型时抓住重点。

1、模型选型

既然要使用大模型,那不同模型的适用场景不同,比如:

同样是千问,有7B、16B、72B等不同参数规模,适合场景不一样。

即使到了大模型时代,OCR、机器翻译、CV等也有自己适合的场景,成本更低、效率更高。

2、模型评估

大模型在实际应用场景中的性能、回复质量、异常兼容、可靠性、安全性,这些都需要验证。

当我们选择一款大模型时,需要一个合理的评估过程,也得有一个让上下游认可的评估标准。

不管是人工打分、外包出去,还是模型互评,要干大项目时,一个结构化的模型评估报告不可避免。

毕竟它是软件系统中的核心生产了,也是成本的大头。

3、模型微调

我们都知道,大模型要真正用好可能会经历:预训练、微调、强化学习、模型修剪与优化等。

但实际上需模型微调的场景并不太多,一个是成本问题,一个效果不确定,比较依赖算法工程师的经验。

那么,模型微调时所需数据、算力、收益如何评估就是个大问题,比如,准确性、响应速度、多样性等。

4、模型管理

模型的上下架、部署、版本迭代等如何管理?

5、资源成本

以往在系统遇到瓶颈时,我们可以通过堆CPU、内存来解决,但大模型软件系统中算力成本太高。

训练、微调甚至每一个token所需要的算力上涨,都可能让整体系统的成本爆涨。

玩多了英伟达的项目之后,突然适配一下昇腾都可能让项目延期。

这些都是资金、时间上的成本。

6、模型性能

用户发起服务请求之后,多久可以生成第一个Token?后续生成每个Token又需要多久?

多轮对话之后,会不会因为上下文过大而出现性能问题?

软件系统在线上持续运行本来就会出问题,大模型会不会出更多的意外?

IT行业发展这么多年,大型公司都有成熟的体系和方法论来保证系统稳定,但在大模型系统中,一个用户的特殊Prompt就可能就打我们一个措手不及。

7、Prompt工程

想让大模型乖乖干活,高质量的Prompt非常重要。

我们得在团队中建立Prompt规范,比如,定义模型的角色,约定回复问题时的参考知识、受到的限制、输出的格式,思维链的引导等等。

8、流程编排

用户的意图被澄清之后,会被转化成N个子任务,这些子任务可能是对大模型的二次调用,也可能是对外部系统API的调用,还可能是对知识库的调用。

对大型项目来说,必须得有编排系统。

可以参考LangChain的思路,使用DAG(有向无环图)对拆解后的多任务进行编排。

9、模型记忆

我们需要保存用户与模型交互过程中的会话内容,既可以作为后续多轮对话的输入,让大模型具备上下文关联的能力,也可以用于排查问题。

10、研发平台

模型能力在变强,围绕它的生态也在跟着快速变化。

市场上有大量Langchain、DB-GPT、RAGFlow、ChatBI之类的应用框架,以及字节HiAgent、阿里百炼、开源的Dify这类大模型应用开发平台。

运用好这些工具,很容易将大模型融入企业的场景,创造出一个个具备财报分析、数据分析、旅游规划等各种能力的AI Agent。

11、数据处理

大模型项目要干好,除了成本、合适的模型、有经验的工程师之外,最重要的就是数据的质和量了。

数据需要采集、清洗、标注、整理,建立起用于训练、测试的数据集。

如果数据不给力,数量太少、质量太差,可能会在模型训练、推理、RAG时出现准确率低、泛化性差等各种问题。

12、安全与隐私

传统软件系统中,我们通过大量规则叠加来保证用户输入、系统输出的安全性。

规则是确定性很强的东西,它让我们能很精确地掌控系统。

但在大模型软件系统中,严格来说,我们只能影响系统,并不能绝对地掌控系统。

因此,隐私数据处理、内容安全过滤等等都需要新的方法论,比如,模型编辑。

13、知识库

知识库是大模型软件系统中的核心模块之一,市场上很多中小企业的大模型应用就是通过RAG来实现的:

通过向量数据库构建出知识库,将用户的Query进行向量化,在向量数据库中进行知识检索,与Prompt一起交给大模型做内容生成。

在这个场景下,向量数据库的选择(如Pinecone、Milvus、Weaviate、Qdrant、Chroma),知识的采集、切片、向量化,以及知识库的更新、下架、分级等都是RAG的核心链路。

上面讲了很多大模型系统的特点,但AI不是万能的。

在系统设计时,大模型负责哪些、软件工程负责哪些,这些要切割清楚。

因此,我们需要再想清楚:AI能力的边界在哪里,并作为我们设计系统时的一个重要参考原则

我个人的看法如下:

1、准确性

大模型的能力是参数量级上升之后的能力涌现,严格来说是个黑盒,如果我们要求准确率达到100%这样的绝对掌控,就不适合使用大模型。

2、能力上限

在严肃场景下,AI只合适作为辅助工具,如,各种电商平台的客服,最终还是有人工兜底;医疗等涉及生命安全的领域,AI建议只能供参考。

需要人来扛的时候,AI就不能乱出主意,毕竟,AI不能替人受罚,甚至坐牢。

以上,从趋势分析、企业选择、能力转型几个部分论证了大模型时代我们的应对。

无论如何长篇大论,分析得头头是道,具体到个人总会有很多具体问题需要解决,欢迎私信我交流

#校招过来人的经验分享##牛客激励计划##聊聊我眼中的AI##牛客创作赏金赛#
建议收藏系列 文章被收录于专栏

该系列文章都是作者花费大量业余时间整理、分享出来的,建议软件技术方向的同学收藏、阅读。

全部评论
一开始还以为那么长是用ai生成来水浏览量的,结果确实是深度好文,支持
9 回复 分享
发布于 03-25 22:49 北京
mark大模型趋势
2 回复 分享
发布于 03-26 23:21 北京
mark了写得很全面
1 回复 分享
发布于 03-26 15:22 山东
mark大模型趋势
1 回复 分享
发布于 03-26 15:26 北京
mark大模型趋势
1 回复 分享
发布于 03-26 15:47 福建
顶 好文
1 回复 分享
发布于 03-26 16:45 辽宁
接好运
1 回复 分享
发布于 03-26 17:24 北京
沾沾喜气
1 回复 分享
发布于 03-26 17:42 湖南
mark大模型趋势
1 回复 分享
发布于 03-27 12:16 北京
作者分析很透彻
1 回复 分享
发布于 03-27 14:16 广东
mark大模型趋势
1 回复 分享
发布于 03-27 15:37 湖南
1 回复 分享
发布于 03-28 01:30 河北
mark大模型趋势
1 回复 分享
发布于 03-28 14:38 上海
接好运
1 回复 分享
发布于 03-28 16:40 新疆
作者分析很透彻
点赞 回复 分享
发布于 03-26 09:12 北京

相关推荐

腾讯NLP 1.跨模态对齐有哪些方式?为何逐渐不使用Q-Former?2. Baichuan2 - 7B模型架构是怎样的?其位置编码如何实现?与Qwen家的位置编码实现有何不同?3. 了解Qwen - VL吗?其架构如何?有何独特之处?4. Adapter、P - tuning和Lora之间的区别与联系是什么?5. 数据集如何构建与评测?6. 数据集评估过程中遇到哪些困难?如何解决?7. RAG检索内容是否相关?有无进行Rerank或其他操作?8. 对Agent有何看法?9. 了解强化学习DPO吗?与PPO有何区别?有什么好处?10. 谈一谈大模型完整训练过程及每一阶段的作用。混元大模型团队1.Qwen 和 DeepSeek 有什么区别?2.为何大家都开始探索 MoE 架构?MoE 相比 Dense 有什么好处?3.用 LoRA 微调过 Qwen,是否全量微调过?两者性能表现有何对比?4.用 DeepSpeed 微调过 Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三个模式的区别是什么?用 DeepSpeed ZeRO - 3 微调 Qwen2 - 72B 时,每一张卡占用显存大概是多少?为什么?5.除了 DeepSpeed,还用过哪些优化方法?6.知道 LoRA 的原理吗?A 和 B 两个矩阵怎么初始化?了解过其他初始化方法吗?7.讲一下大模型训练和推理的流程,SFT 和 RLHF 的作用分别是什么?8.在 RLHF 中,目前主流的强化学习算法有哪几个?写出损失函数的表达式。9.对 RLHF 了解多少?讲一下 RLHF 的流程。之前有用 RLHF 做过模型对齐吗?在做对齐时,为什么 SFT 之后还要做 RLHF?只用 SFT 可以吗?10.知道哪些强化学习算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进?11.微调 Qwen 时,数据是怎么构造的?有用到什么数据清洗方法?数据配比是怎么做的?CSIG腾讯地图1. 进行自我介绍,聊简历上和大模型相关的项目(约5分钟)。2. 讲一下LORA的基本原理。3. 了解主流的开源大模型吗?如Llama、Qwen、deepseek。4. 对Python的熟悉程度如何,能用pytorch写一下多头注意力机制吗?5. C++的代码能力情况(较随意聊) 。6. 手撕代码:反转链表和合并有序链表。7. 反问问题:    - 腾讯地图做的大模型应用是什么?    - 对Manus的看法是什么? 百度文心一言1. PPO 与 GRPO 的区别,分别介绍它们的优势与缺点。2.DPO 对齐训练的曲线是怎么样的,正例的概率会提升吗?参考这个知乎回答。3.Deepseek - R1 里面不仅推理能力很好,而且文采能力也很好,这是个开放问题,如何让模型的文采能力也很好呢?4.deepseed 介绍。5.deepspeed 的每一段的通信比较,zero3 分别是 0 和 2 的多少倍,1.5 倍。6.DPO 如何解决回答过长的问题,除了正则。7.开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning。8.对于一个 base model 如何增强大模型的 reasoning 能力。9.DPO 除了长度问题还有其他的问题吗?与问题 2 对应,reward hacking?都没有奖励模型了。10.说一下 simpo 的原理,它是怎么解决 dpo 微调序列过长的问题的。minimax1.大模型算法中模型参数量每个部分有多少?2.你了解哪些评估 minimax 大模型算法的手段?3.如何评估 minimax 大模型算法中多模态模型的输出质量?4.对于 minimax 大模型算法的数据集,如何提高质量?如何利用 gpt 辅助提升数据集质量?5.有哪些方法可以提升 minimax 大模型算法中预训练模型的质量?
点赞 评论 收藏
分享
评论
63
130
分享

创作者周榜

更多
牛客网
牛客企业服务