07-22 23:44 已编辑北京科技大学算法工程师发布于浙江

关注

通义千问Qwen登顶国际测评榜单，给我们带来的本质思考是什么

写在前面

【WeThinkIn出品】栏目专注于分享Rocky对AI领域的本质思考与经验总结，内容涵盖AI领域的各个维度。欢迎大家点赞在看关注一键三连💪

欢迎大家关注Rocky的公众号：WeThinkIn

欢迎大家关注Rocky的知乎：Rocky Ding

AIGC算法工程师面试面经秘籍分享：******************************************欢迎大家Star～

获取更多AI行业的前沿资讯与干货资源

WeThinkIn最新福利放送：大家只需关注WeThinkIn公众号，后台回复“简历资源”，即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源，希望能给大家在AIGC时代带来帮助。

大家好，我是Rocky。

阿里通义千问的开源版本Qwen2系列模型在发布后在十几项国际权威测评中，一举斩获多项世界冠军。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，均评分世界第一。 alt 同时在6月27日凌晨，全球著名开源平台huggingface的联合创始人兼首席执行官Clem在社交平台宣布，阿里最新开源的Qwen2-72B指令微调版本，成为开源模型排行榜第一名。 alt 记得ChatGPT在2022年横空出世时，当时国内悲观氛围严重，认为我们又错过了新一轮的科技革命。

Rocky认为其实我们不用慌。因为美国的金融资本是看不起美国的工业资本与科技资本的，美国金融资本长期以来一直在歼灭美国工业资本，并背叛出卖美国科技资本，来达到其在美国的主导地位。这就导致了就算ChatGPT问世，也没有足够的实际产业来支持其全面落地；同时从Sora的长期PPT化可以看出，OpenAI也爱做PPT。

从2022年至今，国产大模型进行了“百模大战”，虽然有浮躁情绪，但是经过激烈的厮杀与内卷，确实开始出现越来越多经得起考验的大模型了，Qwen系列模型就是其中的典型代表。

接下来，就让我们跟随着Rocky的脚步，挖掘思考哪些关键的特质让Qwen2在全球各个权威测评中登顶，有哪些本质的思考可以让我们在AIGC时代中进行借鉴与吸收。

关于作者

Rocky在校招期间拿到了北上广深杭等地的约10个算法offer，现在是一名算法研究员，目前专注于AIGC创新产品的落地应用以及AI算法解决方案的商用。

在研究生期间，Rocky曾在京东研究院，星环科技，联想研究院，北大方正信产集团研究院，百融云创，中科院软件所等公司做算法实习生，对不同性质公司的商业闭环逻辑比较了解。

Rocky多次获得CVPR，AAAI，Kaggle等顶级平台的算法竞赛冠军和Top成绩。

Rocky相信人工智能，数据科学，商业逻辑，金融工具，终身成长，以及顺应时代的潮流会赋予我们超能力。

Rocky是自媒体WeThinkIn的创始人，积极在业余时间进行创业实践与基本面扩展。

Rocky喜欢分享和交流，秉持着“也要学习也要酷”的生活态度，希望能和大家多多交流。AI算法，面试，简历，求职等问题都可直接和我交流～

So，enjoy：

正文开始

目录先行

从技术架构与技术创新角度给我们的思考
从产品生态角度给我们的思考
从应用场景角度给我们的思考
从AI行业思维与移动互联网思维给我们的思考
总结

1. 从技术架构与技术创新角度给我们的思考

Qwen系列是基于Transformer架构的文本对话大模型，官方认为Qwen系列模型不仅仅是一个语言大模型，而是一个致力于未来实现通用人工智能（AGI）的项目，目前为止已经拥有了多模态能力。

迭代至今，Qwen系列已经有Qwen1.x和Qwen2.x两个大版本，两个大版本的模型结构大致相同，Qwen2.x系列采用了更大量级的数据（7T Tokens以上的数据）进行模型训练。Qwen2.x系列目前有5个不同的版本，分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。

上述几种模型的区别主要是支持的最大上下文不同：

0.5B、1.5B模型支持最大上下文为32K；
57B-A14B使用了 MoE技术，支持最大上下文为64K；
7B、72B模型支持最大上下文为128K。

Qwen系列模型的训练流程使用了AIGC时代大模型主流的预训练和后训练两个部分。在预训练部分，与其他主流大语言模型GPT-3、Llama等类似，基于Transformer架构在大规模数据上通过预测下一个词的任务进行预训练。后训练部分主要由有监督微调（SFT）和强化学习人类反馈（RLHF）两个关键技术组成。同时为了简化和稳定性，Qwen官方没有为语言模型引入更多的任务，而是专注于模型规模的扩展和数据的扩展。

Qwen2.x的预训练数据是多语言的，所以Qwen系列模型本质上是一个多语言模型，而不是单一语言或双语模型，它不仅在处理英语和中文方面具有很强的能力，也能处理西班牙语、法语和日语等27种语言。

为了扩展Qwen的多语种能力，官方采用了能够编码不同语言信息的分词器，与其他分词器相比，这个分词器在多语言中展示了高压缩率。

预训练的另一个重点是扩展上下文长度。官方直接应用了更长上下文长度和更大基数值的RoPE（旋转位置编码）进行持续预训练，为Qwen系列模型打下良好的扩展基础。

后训练涉及的两种技术（SFT和RLHF）在AI行业一般称为“对齐”。目前的行业共识是可以通过相对轻量级的高质量微调数据获得一个优秀的文本对话模型。Qwen官方专注于提高SFT数据的多样性和复杂性，并通过人工检查和自动评估的方式严格控制数据质量。

在有了一个良好的SFT模型后，我们就可以进一步尝试RLHF技术的效果，特别是基于PPO（近端策略优化）的方法，但训练RLHF通常需要一个比较高的代价。主要是需要构建一个可靠的奖励模型，通过在大规模偏好数据上进行奖励模型预训练，以及在精心标记的高质量偏好数据上进行微调。

所以从整体上看，Qwen系列模型在技术架构的持续更新迭代是完全正确的。

Rocky认为吸收借鉴全球主流技术架构，同时在实际业务中根据真实需求持续优化算法解决方案，是最踏实和最有价值的技术迭代与创新路径。

同时，Rocky也认为在模型架构持续迭代的基础上，再加上持续的场景数据和庞大算力支持，才能保证AIGC时代AI产品的核心技术护城河与竞争力。

因为Qwen系列大模型背靠阿里，有海量的ToB/ToC场景数据，这些数据贴近应用、贴近实际，能很好的为Qwen系列模型的迭代提供源源不断的高质量数据，从而形成强有力的“数据飞轮”效应。在算力端，阿里也有足够的算力能够支持Qwen系列模型的快速迭代，从而让Qwen系列模型在AIGC时代的优化速度不逊于全球其他顶尖科技公司。

总的来说，AIGC时代的一大特征就是需要AI模型+场景数据+算力三者的默契配合，才可能形成技术架构与技术创新的潜力。

2. 从产品生态角度给我们的思考

在上一章节讲到在AI模型+海量场景数据+大规模算力三个关键核心组成的完整技术架构的优化训练下，目前Qwen系列模型已经有不错的基础文本问答能力。

在这些Qwen模型核心能力的基础上，不管是官方还是开源社区，都可以构建相应的产品生态与工作流生态。 alt 如上图所示，在Qwen系列模型的基础上，衍生出很多不同类型的优化模型，比如说用于数学的模型、用于编程的模型、用于多模态的模型等。

在海量的细分领域大模型发布后，我们就可以构建大模型社区，在社区里整合社区平台的PGC能力+用户的UGC能力+大模型的AIGC能力，再孜孜不倦的持续迭代，相信会出现AIGC时代的平台级产品。 alt 我们再继续拓展，以大模型为核心，结合传统深度学习时代的AI技术、AIGC时代的AIGC技术，还能够构建变化万千的AIGC Agent和AIGC算法工作流，满足ToB、ToC、ToD的多样需求。最后借助用户反馈，及时更新迭代，持续发展AI产品应用生态。

3. 从应用场景角度给我们的思考

不管是之前的传统深度学习时代，还是现在的AIGC时代，不管是PC时代，还是移动互联网时代，商业落地都只有ToB和ToC两条路可以走。

由于Qwen系列大模型背靠阿里，而阿里本身就具备广泛的ToB和ToC应用场景，这非常有助于Qwen系列模型的快速迭代与细分领域护城河的形成。

阿里巴巴在移动互联网时代和传统深度学习时代积累的大量的ToB和ToC产业落地经验，在AIGC时代到来后，完全可以借鉴之前的经验，以Qwen系列模型为核心，重构一遍之前的业务，将AIGC大模型融合到业务中，融合到场景里，从而达到赋能的作用。

比如说ToB和ToC业务中的智能电商场景、个性化推荐场景、智能客服场景、平台级社区场景、智能家居场景、智能办公场景、云计算场景、新零售场景、金融科技场景、智慧物流场景等等。

阿里巴巴通过将Qwen系列模型与其庞大的场景生态系统相结合，能够推动了多个业务的智能化发展，同时这些业务上的场景数据与用户反馈又能及时的用于Qwen系列模型的优化升级，从而让“数据飞轮”效应生效，形成很强的业务场景护城河，进一步增强用户体验与业务创新迭代。随着AI技术的不断发展，相信AI技术将在更多领域实现更深层次的应用，进一步推动各行各业的变革与发展。

Rocky认为，在AIGC时代，不管是ToB还是ToC，让“数据飞轮”生效将是构建AI产品和技术护城河的重中之重。

4. 从AI行业思维与移动互联网思维给我们的思考

在AI行业进入AIGC时代后，大模型为我们带来AI性能的大幅提升，让AI产品在ToB的基础上有了ToC的可能性，AIGC未来的发展不可限量。

在ToB方向上，我们可以参考传统深度时代的AI产品与解决方案落地模式，在AIGC时代重新走一遍，让大模型赋能各行各业。

同时在ToC方向上，我们可以参考移动互联网时代的产品思维，从移动互联网产品的构建中借鉴经验，下面是移动互联网产品构建的方法论：

用户中心思维：深度理解用户需求和个性化体验
快速迭代和敏捷开发：小步快跑，快速迭代和敏捷开发
数据驱动决策：全面数据采集和数据分析与洞察
社交和分享属性：社交化设计和社区建设
全渠道触达和推广：多渠道营销和精准投放

目前可以看到的是，包括通义千问在内的大模型开始大幅降价，形成大模型的“价格战”，这和当年外卖的“百团大战”抢商户和用户是同样的逻辑。

通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。 alt

通过大模型端来抢占市场与用户后，就可以进一步构建对应的AI超级APP或者通过API的方式与生态合作者一起构建细分领域的产品与应用。

5. 总结

总的来看，在AIGC时代的三大核心：模型架构+雄厚算力+海量场景数据中，除了算力还需要持续去投入解决卡脖子的问题，其余两个维度都已经具备全球第一梯队的实力了。接下来最关键的问题其实是大模型如何稳步落地，转化成盈利，在盈利中反馈技术更新，形成良性闭环，这是所有AIGC时代的AI从业者都要思考的问题。