大模型分化趋势:更垂直、更专业
文/侯煜
编辑/罗卿
从今年年初以来,大模型的市场百花齐放,对于大模型未来的发展方向和分化趋势,商界和学界众说纷纭。6月26日,在世界互联网大会数字文明尼山对话主论坛上,百度公司创始人李彦宏、阿里云智能集团董事长兼CEO张勇再次发表对大模型发展方向的表态。
而在前几日,腾讯大模型也姗姗来迟,在发布会上,腾讯集团云与智慧产业事业群CEO汤道生也表达了产业观点。
对于大模型的发展方向,大boss们目前达成了一些基本的产业共识:
- 与实体经济相结合是大模型未来的发展路径,云厂商正在尝试将大模型落地到垂直领域,打造出金融、医疗、电力等领域的专业大模型。
- 大模型都绝不是昙花一现的风口,而是影响人类发展的重大技术变革,是拉动全球经济增长的引擎,是绝对不能错过的重大战略机遇。
- 大模型是当下全球科技创新的焦点、全球人工智能竞赛的主战场,同时也带来了诸多治理挑战。
图:互联网大佬尼山聚首
以下是互联网大佬近期的部分演讲实录:
李彦宏:大模型将渗透进更多的领域,并以“周”迭代
大模型如何重塑数字世界?我想从技术和应用两个层面来谈谈。
技术层面,人工智能时代,IT技术栈发生了根本性改变,从原来的芯片、操作系统和应用三层架构,变成了芯片、框架、模型、应用四层架构:
底层是芯片层,主流芯片从CPU变成了GPU。芯片之上是框架层,主流框架包括百度飞桨,Meta的PyTorch,谷歌的TensorFlow。框架上面是模型层,ChatGPT和文心大模型就在模型层。大模型成为了人工智能时代的操作系统,所有应用都将基于大模型开发。模型之上是应用层,包括各种各样的AI原生应用。
可以预见,大模型将渗透到越来越多的领域,以大模型为关键驱动的数字经济,与实体经济深度融合,将做强做优做大实体经济,创造可观的增量价值,带来经济社会发展和产业的深刻变革。
图:百度公司创始人李彦宏
周鸿祎:公有大模型缺乏行业深度
“人工智能的发展要‘以人为本’,大模型不能引发大规模裁员,而是要帮助企业员工提升能力和效率,成为易用的工具。”360集团创始人周鸿祎首次提到现有公有大模型存在四方面不足之处:
第一,公有大模型虽然是通才,但它缺乏行业深度。“我们之前认为GPT什么都会,但如果你是一个行业专家,你会发现GPT在安全、金融这些垂直领域,知识深度是不够的。很多公司自己训练大模型都发现了这个特点,想让它能力很均衡,就会牺牲深度。”周鸿祎表示。
他认为,未来垂直大模型是重要的发展方向,通用模型和各领域专有的知识数据结合,让大模型从“万事通”变成政府通、行业通和企业通,这才是真正的价值,“最新资料表明,GPT4也是由8个垂直模型组成的,从侧面印证了这个观点。”
第二,公有大模型容易造成企业内部数据泄露。一方面,公有大模型不是本地部署,它与外部进行信息交流时必然存在数据泄露的风险;另一方面,公有大模型也无法实现组织内部权限的分级管理。因此,政府、企业使用公有大模型必然存在安全风险。
第三,对企业来讲,公有大模型无法保障内容真正可信。周鸿祎表示,大模型存在“幻觉”,也就是常说的“一本正经地胡说八道”,经常出现张冠李戴的问题,需要通过企业的内部搜索、内部知识库进行矫正。
第四,公有大模型无法实现成本可控。他举例称,许多企业其实只需要大模型写代码的能力,百亿级垂直大模型就能满足需求,如果使用千亿级大模型就是成本的浪费。在控制成本方面,垂直大模型将会有很大优势。在用公开数据训练的“通识”大模型基础上,训练专有大模型,就能做到“事半功倍”,为企业降本增效。
图: 360集团创始人周鸿祎
张勇:未来将打造更多企业专属模型
中国人工智能发展具备基础扎实、场景丰富、数实融合这三方面的优势,随着社会各界的高度重视和创新生态的发展壮大,这些优势正在不断巩固和加强。从数字化走向智能化,计算成为基础设施不可或缺的组成部分。2009年阿里云写下中国自研云计算操作系统的第一行代码,开启中国的云计算时代,经过14年的努力,中国已经形成全球第二的算力规模,算力产业年增长率近30%。阿里云的目标,是提供高质量、高性能的算力,“让算力更普惠,让AI更普及”。
今年4月,阿里云“通义千问”大模型开放对外测试,目前已有超过20万企业用户申请接入,几乎覆盖所有新兴和传统行业。与此同时,阿里云启动了“千问伙伴计划”,与行业伙伴携手共建创新生态,已经覆盖油气、电力、交通、金融、酒旅、企服、通信等行业,未来将打造更多企业专属模型,推动各行各业更快更好地分享智能化红利。
图:阿里云智能集团董事长兼CEO张勇
汤道生:大模型行业针对性与精准度不够,数据噪音过大
大家对通用大模型期待很高,但它不一定是满足行业场景需求的最优解。
目前,通用大模型一般都是基于广泛的公开文献与网络信息来训练的,网上的信息可能有错误、有谣言、有偏见,许多专业知识与行业数据积累不足,导致模型的行业针对性与精准度不够,数据“噪音”过大。但是,在很多产业场景中,用户对企业提供的专业服务要求高,容错性低。企业一旦提供了错误信息,可能引起巨大的法律责任或公关危机。因此,企业使用的大模型必须可控、可追溯、可修正,而且必须经过反复与充分测试才能上线。
我们认为,客户更需要有行业针对性的行业大模型,再加上企业自己的数据做训练或精调,才能打造出实用性高的智能服务。企业所需要的是在实际场景中真正解决了某个问题,而不是在100个场景中解决了70%-80%的问题。
另外,训练数据越多,模型越大,训练与推理的成本也越高。实际上,大部分的企业场景,可能也不需要万能的通用AI来满足需要。因此,如何在合理成本下,选择合适的模型,是企业客户所需要思考与决策的。
接下来谈谈数据。数据是大模型的原材料,针对具体场景,相关数据的覆盖与质量都至关重要,标注数据的管理也是模型迭代中的重要工作。
模型最终要在真实场景落地,要达到理想的服务效果,往往需要把企业自身的数据也用起来。在模型研发过程中,既要关注敏感数据的保护与安全合规,也需要管理好大量的数据与标签,不断测试与迭代模型。
接着讲讲应用。腾讯自身的企业级应用,已经率先应用了行业大模型,针对不同应用场景提供更智能的服务,为用户提高工作效率。
图:腾讯集团云与智慧产业事业群CEO汤道生
最后讲讲算力。算力是模型持续运转的基础,高性能、高弹性和高稳定的算力需要借助专业的云服务。
在大模型的训练和使用过程中,需要大量异构算力的支持,对网络速度与稳定性要求也很高,加上GPU服务器比一般服务器稳定性更低一些,服务器的运维、问题的排查更频繁,整体运维的难度与工作量会高很多。
回顾过去,人工智能的发展是结合开放数据的积累、算法的创新与算力的突破共同推动的;也是全球科技企业、高校与研究机构共同努力,通过代码的开源与研究成果的分享,开放共建的成果。