我是软件开发,想搞大模型
先抛个问题,像恒生、金蝶这类细分领域内的软件厂商龙头或者中小型的软件&互联网公司,他们想使用大模型时,要怎么办?
其实如果往深处挖一挖,这个问题就把大模型产业链中的各种角色都炸了出来,这篇文章整理梳理一遍,并聊一下软件技术人员在里面的就业机会。
整个大模型产业链中的参与者可以被分为4种角色,分别是:应用开发商、大模型厂商、云计算厂商、GPU厂商。
这4种角色呈现倒金字塔结构,即,从应用开发商到GPU厂商,离具体的应用场景和终端客户越来越远,越来越远离业务更像纯技术人员,入门的壁垒越来越高,就业岗位越来越少。
举个例子,恒生电子这种软件企业,如果想在他的产品中增加一个投资理财智能对话机器人,只需要向大模型厂商买一个私有化的产品解决方案,再把自己积累的投资理财领域数据导进去做微调,最后包装成一个微服务供对话机器人的开发工程师调用就可以了。
同样的例子还有很多,市场上绝大多数企业都是这个玩法,区别就在于某些特殊行业,金融、政府、能源、运营商等因为监管、数据安全的考虑,有自己的私有云,需要私有化部署,而大量中小企业使用公有云服务。
假如哪天我去创业,你们可能就会看到一个以我自己这个IP"屋顶的闪闪星光"命名的聊天机器人,向大家提供软件技术领域的职业发展和就业选择的服务,到时大家把自己的offer和个人情况发给它,它就会告诉大家它的建议和背后的逻辑。
上面这些都算是大模型的应用开发商。
当然了,大模型的微调是个很重的活,不是技术壁垒高,而是要做的事情很多很琐碎并且影响到最终的产品能力。
比如,首先要选择合适的数据,数据的采集、清洗、选择都需要做大量的工作,其次微调也需要成本虽然不大,再次模型需要不断迭代,因为有新的数据在不断产生。
随着大模型的应用越来越多,promotion工程师应该会成为企业的智能服务产品的标配,毕竟,想依靠用户端输入靠谱的promotion有点难。
想一想你是医生,给一个病人在看病时其实只有短短1、2分钟的时间在做决策,大部分时间其实是在跟病人交流"套话",而碰上一个逻辑清晰、沟通顺畅的病人,对医生来说就是最大的幸运了,绝对不是常态。
站在软件技术人员就业角度来看,在这类企业里面的人就是以应用为主,研究好在自己的业务场景下,用自己所在业务线的数据如何使用好大模型是最关键的,只要找好切入点,搞出来标杆应用场景,就能刷绩效、晋升了。
如果考虑到给自己简历增加些亮点方便跳槽、涨工资的话,网上找些入门级的教程来看,基本了解大模型是怎么运作,各个环节的工具如何使用,如何调用大模型服务就好了,去知名的大模型厂商那里开个账号充点钱,用它做几次微调就会有比较深刻的体会,找到一些感觉了,整体比较简单。
上半年面试时碰到一个互联网中厂的软件开发,他们团队投了一个实习生进去搞了2个月就在一个创新的业务场景下把基于微软大模型的对话给跑通了,整体的门槛也不高。
上周跟一个大厂的朋友聊,前段时间他在做晋升评委时就碰到一个毕业一年多的工程师,大厂内部发布大模型内测之后,这个人就借助大模型把自己的一部分工作改造了下,效果未知,但过程很顺利,成本不高。
说到底,毕竟这都是应用大模型。
学习方面,国外看Hugging Face,国内可以看下阿里云推出的魔搭社区,是"中国版的Hugging Face"。
跟应用开发商相比,大模型厂商才是重活,技术门槛、资金门槛都很高。
中国市场上的大模型厂商主要分成几类:
草根创业,清华系的智谱、MiniMax等
名星创业,王小川的百川智能、李开复的零一万物、王慧文的光年之外等
知名企业,昆仑万维、科大讯飞、VIVO等
科研机构,复旦大学的MOSS、清华大学的GLM等。
大厂自建,阿里云的千问、百度的文心一言、腾讯的混元、华为的盘古、字节的云雀等。
这里的玩家看起来挺多,其实相比其它风口上的创业都来说,真的极少了,派系也不算特别复杂,原因就是开发、训练大模型的成本太高了。
要么是王小川、李开复、王慧文这种大佬起步就自己先带着几亿入场,要么就是大厂自己重金投入的战略方向,要么就是复旦、清华这种有科研平台支持的。
而那些背后没有资本大佬支持的创业企业,都是ChatGPT这波爆发之前就在做的,像智谱AI这种真正的草根创业早在2020年就借助清华的技术成果搞大模型探索,而MiniMax的创始人作为商汤的技术副总,也是在21年预判到技术发展之后才进场。
因为如果是22年底ChatGPU爆发之后才进场的话,跟那些自带着光环入场的玩家相比,草根创业者绝对融不到钱、挖不到人、买不起GPU。
这类企业核心就做几件事:搞数据、挖市场上分布在各个领域的成熟算法人才、搞GPU、搞公有云或私有云的商业化。
从软件技术人员就业角度来说,如果你是做模型的,工程、算法,都可以无脑入,是个很好的积累,不管这个企业几年之后是不是GG,只要干过这条链路,以后就会是市场上抢手的人才。
因为从整个形势上判断,23年在卷模型,24年之后大概率就会进入应用爆发期了,企业只要有自己的数据,再买一些相对成熟的大模型服务,或者直接把开源的优秀模型部署起来,就能发布一个不错的产品。而不管是哪一种,对有大模型经验的人都是极度渴望的。
从软件技术人员就业角度来看,我最喜欢百花齐放、百家争鸣了,资金火热、大大小小公司扩张,你的履历只要跟大模型沾点边,薪资就能翻着跟头往上涨。
不过这里要小心一些套壳的公司,比如做微调、做工具的,他们不会自己做大模型,而是服务一些开发能力弱或者自己开发性价比低的应用开发商,市场上来说有存在价值,但这类企业都是以中小企业为主,属于典型的蹭风口创业公司。
企业本身没有好坏,只要市场有需求,就会有人做,从软件技术人员就业角度来说,选择适合自己的就OK了。
像这种套壳公司,如果大家是有几年工作经验的,可以根据自己实际情况判断一下,如果是应届生千万不要去。
有任何问题,欢迎私信我,互相交流。
不管是数据处理、模型训练,大模型开发商都需要大量的机器资源,这种事他们自己是干不了的,必须找云计算厂商。
前段时间阿里云的董事长蔡崇信说,全国80%的科技企业,以及超过50%的AI大模型是跑在阿里云上的,阿里云更是搞出了魔搭社区来配合。百度自己也说,千帆大模型平台有万家企业客户了。
大模型厂商与云计算厂商的关系是怎样的?
简单来说,云计算厂商提供算力(说人话就是把GPU、CPU虚化成可灵活调配的云计算资源服务)、生态能力(说人话就是做各种工具降低云计算资源服务的使用成本),而大模型厂商就是云计算资源服务的使用方。
当然了,因为国内几个真正有核心技术的云计算厂商自身都是搞软件产品服务成功之后,再把积累的技术开放出来成为云厂商的,所以不管是为了自己的业务服务,还是为了把大模型集成到自己的云计算平台上成为云服务对外售卖,他们都搞了大模型。
所以像阿里云、百度智能云、腾讯云、华为云这些玩家,既是大模型厂商又是云厂商。
当然了,云厂商这个生态本身比较复杂,除了上面这几个有核心技术的大厂之外,还有移动、联通、电信这几个电信运营商这种做市场、项目资源导入的玩家。
电信运营商虽然不像云厂商这种靠核心的产品、技术、服务起家慢慢打市场,但是央企的地位在那里摆着,叠加上在全国各省、市、区县庞大的销售网络和客户网络,趁着国家搞数字化这盘大棋,从政府、国企、事业单位手里接下了无数的数字化项目,营收涨个不停。
虽然这几个玩家搞不起大模型这种核心技术,但从项目入手,只要业务跑起来,核心技术也是可以慢慢构建的。话说回来,现在市场上哪家大厂不都是先有了业务的增长,带动了技术的投入,最后才变成真正有技术的大厂。
从软件技术人员就业来说,如果想去搞大模型这条产业链路上的技术,最好就去几家既有大模型核心技术又对外提供云服务的云厂商,可以看到真正产业链的全貌,其它云厂商也就做做配套。
当然了,大模型厂商和大模型应用开发商谁也不会绑死在一家云计算厂商,商业玩得就是一个脚踩多只船、互相博弈,不可能出现"兄弟我把后背交给你"的事,就像微软,除了支持OpenAI之外,也有自己的大模型。
所以没有大模型的云厂商给别人做做备胎、提供计算资源也是有很多机会的。
大模型越多,上层应用越多,云计算厂商的生意越好做,毕竟云计算的玩家就这么几个。
云计算厂商看起来是靠核心技术,其实商业角度上拼得是规模效应,所以争夺客户是个很重要的事,不但是营收问题,还是长期竞争力的问题。
我之前讲过一个逻辑,同样一个百人的研发团队,每年把容器调度效率提升1%,这个事情有没有价值?
如果放在阿里云、华为云这样的公司就有价值,因为他们的容器是百万级,后面是千万级,可如果放在青云、优刻得这样的中小云计算厂商呢?就会把他们公司给拖垮,因为盘子太小,没有规模效应,养不起这么贵的团队。
以上逻辑只适用于大型云计算厂商,可以撑住价格战PK,中小云计算厂商就比较危险了,比如,青云、优刻得等,持续亏损、市值几年间缩水了7、8成。
所以,从软件技术人员就业角度来说,一定要避坑,如果没有职位上的溢价,给再多待遇都不要去中小型的云厂商,
除了规模效应之外,那这些头部的云计算厂商之间还会PK什么呢?论数据,大家都是顶级业务,都不缺数据,论算法,理论是公开的、砸工程师就好了,除了技术积累、研发速度、组织能力这些我们外人看不清细节的变量之外,还有一个最大的变量是GPU。
当下,云计算厂商的算力依赖的GPU绝大多数都是美国的英伟达。
虽然中国很早就有厂商干GPU,从中美贸易战开始这个过程也加速了,但不管是设计、生产、客户、软件生态,都不是短短几年可以追平的。
对国内GPU厂商来说,不管是壁仞科技、摩尔线程、沐曦、寒武纪这些近几年看到AI和算力市场机会而成立的创业企业,还是实力派的景嘉微、华为昇腾、海光等,都需要长期抗战。
但从另外一个角度来看,这也是一个很大的机会,中美关系硬生生给中国开出一个"国产替代"的大市场。
放眼望去,车规芯片领域的地平线、黑芝麻,在一点点残食高通、Intel这类外企的市场,百度在前段时间买了一批华为的GPU,金融等敏感领域更是提出明确的国产CPU替换节奏。
从软件技术人员就业角度来讲,芯片公司除了设计芯片之外,更需要建生态,像英伟达的CUDA,就是核心竞争力,去芯片公司做工具链也是做BSP、嵌入式的一条路。
#我的求职思考##牛客在线求职答疑中心##牛客解忧铺##互联网没坑了,还能去哪里?##如果可以选,你最想从事什么工作#