2024-09-10 17:36 字节跳动_产品研发和工程架构部_端智能工程师

发布于浙江

关注

抄 Apple Intelligence 作业的思路

6 月的 WWDC 7 月刷，7 月的构思 8 月写，着实拖延了些时日，希望成稿之日观点尚能构成参考 (:з」∠)

字节跳动 Client AI 团队招聘中，业务年均百亿收益，SDK 日均万亿调用，诚邀推荐：

社招

算法工程师 @北京/杭州/上海

平台工程师 @北京/深圳

移动工程师 @北京/深圳

校招

算法工程师 @北京/杭州

实习

前端工程师 @深圳，限 26 届及以后

0x0 前言

本篇讨论 Apple Intelligence，如果还没有围观 WWDC 24，稍作了解有益代入：

节选 WWDC 24 与 Apple Intelligence 相关的 Sessions

WWDC 24 Keynote | YT (主会场，Apple Intelligence 压轴，1:04:00 才开始)

Apple Intelligence in 5 minutes (YT only)

Apple Intelligence | Privacy (YT only)

Platforms State of the Union | YT

Bring your app to Siri | YT

Bring your app’s core features to users with App Intents | YT

What’s new in App Intents | YT

Design App Intents for system experiences | YT

Bring expression to your app with Genmoji | YT

Get started with Writing Tools | YT

本篇将延用前作部分观点，探讨可回溯重新思考终端 LLMs 和 Agents，观点如下：

LLM 新增的核心能力是多模态理解和生成 内建知识 推理能力
终端场景的 LLM 应用可以没有终端模型，终端 Agent 可以采用云端模型

惯例求砖 & 免砖申明：

未深入剖析技术细节，力争让 RD、PM、DA 们都能看懂，希望能抛砖引玉，启发思考
个人并不从事 LLM 相关工作，算法/工程判断、场景/路径推演与实际不合处，恳请指正
文档基于 24 年中时个人的现状认知和思维推断，有效性和有效期未知，请自主判断

超级省流版：

以技术为基石的应用更要对技术诚实，LLM 幻觉和推理能力不足可以采用移交控制/验证和主动治理/约束策略

并不是所有 AI 都需要以 AGI 为目标，提升现有产品的核心体验/收益也可以作为投入目标

借助 LLM 实现跨 domain 交互在技术上可行，但不同 domain 有不同的商业模式考量

0x1 万象更新

虽然 Apple Intelligence 是本篇主题，但依然想先花点时间梳理 Apple Intelligence 诞生时代的技术背景，在这万象更新之余却又有点儿沉闷的时代。

0x10 Scale Up 与基建竞赛

from Jim Fan from Maxime Labonne

Scale Up 依然是 2024 年毋庸置疑的主旋律。闭源方向上，Anthropic Claude、Google Gemini 和 OpenAI GPT-4 的旗舰模型一再扩大，在 Benchmark 榜单上争抢头把交椅，却没谁坐得安稳；开源方向上，X 314b Grok-1 先吹响了号角，NVIDIA 迅速跟进 Nemotron 340b 狠狠秀了把肌肉，Meta 又凭借 405b 身躯的 Llama 3.1 挤开了一众豪杰，不甘寂寞的 Mistral 在 Llama 3.1 登场的第二天就放出了 123b 的 Large2 并略有针对地表示 "Large Enough"。

狂欢之余，还需要保持清醒。虽然新闻报道多只津津乐道模型参数规模再创新高，毕竟参数规模最易于公众理解和比较，但 Scaling Law 并不只提升参数规模 —— Llama 3.1 在论文中着重强调了data, scale, and managing complexity，数据、规模和复杂度。露出水面的参数规模之下是一整座冰山。

数据

数据的数量和质量对 pre-training 和 post-training 来说至关重要，以 Llama 为例， Llama 2 使用了 1.8T tokens，Llama 3 则在优化质量的同时，将数据量也提升到了 15T，而根据李沐老师的分享 #1，15T 大概已经是互联网上可以抓取文本数据的上限了，李沐老师的分享 #2 全篇都在聊 training data，感兴趣可以自取。

跟据透露，Llama 3 训练中大量使用了 Llama 2 生产的数据，也即合成数据，这是另一个有意思的命题。Nature 封面文章就质疑了左脚踩右脚螺旋升天的路数，认为放任大模型用自动生成的数据训练自己，在短短几代内 AI 就会陷入模型崩溃。或许 Llama 有应对合成数据的秘辛，但不论有无，似乎区隔数据的来源是一个有备无患的选择。

Join AI 为合成数据背书文章中的数据分类，和从full data到the final data u can get的图示，可以解释采用合成数据的原因以及数据采集工作背后的辛酸：

可见，可得，但不可用的数据的隐私数据
可遇不可求的 Corner Case
可见，可得，但是不免费的采标数据
可见、可得、免费但是数量少的可怜的开源数据

高质量数据是否会耗尽的学术争论还没有结束，不分赛道，工业应用的数据饕餮已然甚嚣尘上，比如媒体买买买的 OpenAI、重金求声的 Meta；也不乏有游走在合法与非法的边缘的事，比如惨遭多轮光顾的 YouTube，以及被大型唱片公司起诉 Udio & Suno。

不过，也不要以为爬虫数据是免费的午餐，例如 Google 就着过 Reddit 和 Quora 的道，在搜索「google cheese not sticking to pizza」的结果里赫然建议「adding 1/8 cup of Elmer's glue」。是 Google 先动的手，自然也只能砸碎钢牙肚里吞了 🐶🐶🐶

规模

Llama 3.1 405B + 15.6T tokens 预训练的开销是 3.8 × 10^25 次浮点运算，足足花了 54 天时间。作为比较，根据 NVIDIA H100 的规格描述，在稀疏运算的加持下，H100 SXM FP8 Tensor Core 也不过能达到 3.9 × 10^15 FLOPs。如果只有一张 H100，就算破天荒实现了 GPU 全周期满负载运行，也需要 300+ 年的时间。运算量与运算能力之间至少足足有 10 个数量级差距，能在时间维度节约多少开销，把迭代速度抬上去，就得看其他维度的堆料和优化了。

万卡集群就是这样成为标配的。相较于传统分布式集群，大模型训练集群对计算、存储、传输的性能压榨更极致，乃至需要专门的供电和散热保障，对拓展性、可靠性的要求也都更严苛，新的设计也随之诞生。字节的 MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs 也相应介绍了在算法设计、算子加速、计算调度、网络传输、容灾容错等方面的优化，按需了解吧。架构的迭代肯定不会止步于此，小扎说 Llama4 训练算力得再乘 10，而马斯克干脆已经备好了 10 万块 H100，十万卡集群 is coming。

Analysis of NVIDIA’s Latest Hardware: B100/B200/GH200/NVL72/SuperPod

集群架构之下，计算和存储硬件也在快速迭代。上图为 fibermall 统计的 NVIDIA GPU 单卡性能，以稠密 FP16 计算性能为标尺，从 2020 年的 A100 到 2024 年的 B200 性能提升约 7 倍，功耗提升约 2.5 倍，提升速度甚至还超越了两年翻一番的黄氏定律。饶是如此，依然有 ASIC 玩家想要分 NVIDIA 的蛋糕，先有 Groq Llama2 70B 刷出 300+ tokens/s 的闪电速度，引得 Yann LeCun 青眼；后有 Etched 梭哈 Transformer 8xSohu Llama 70b 上 500000 tokens/s，如果模型结构基本定型，推理加速硬件恐怕还得有一场血战。出于众所周知的原因，此处还得给昇腾的训练和推理鼓鼓劲。

运行于硬件上的训练和推理同样有大幅优化的空间。以推理为例，无问芯穹与清华、上交联合研究出品的大模型高效推理综述，就将大模型的高效推理划分成关注输入输出的数据层优化、关注模型结构和压缩的模型层优化、关注服务调度和推理引擎优化的系统层优化。

单就模型层中的 Transformer 替代架构，就又能延伸出许多研究 —— Mamba、RWKV、TTT 都试图挑战 Transformer，尝试以更低的计算复杂度，更好地 Scale Up 和泛化；而每一个细分模型结构在论文发布后，又往往会激发出更多的研究和探讨。

复杂性

Llama 3.1 在无 MoE 标准 Transformer 架构、后训练 SFT + 拒绝采样 + DPO 的简化配置下，在 54 天的训练过程中喜提了每 3 小时 1 次故障。小道消息说，其实 Meta 也尝试了 MoE，只是中道崩殂… 密集的故障多数由 GPU 引发，软件错误、网络故障、温度和电压都可能造成故障，Meta 甚至需要应对电力需求超出电网供给的问题。限制故障范围，及时从故障中恢复，非常考验团队的判断和快速应对能力。

关于电力供给问题，硅谷 101 在视频和播客节目中都有深入讨论，修缮电网、保障供应、维持电价无论如何都超出了正常商业公司的经营范畴，或许强大的 AI 背后，还得有强大的国家。

0x11 Scale Down 与价格竞赛

如此累屋重架的体系想必烧钱吧，然而价格竞赛的风却席卷了全球：

日期模型版本输入输出降幅

05.06	DeepSeek	DeepSeek - V2	0.001	0.002	N/A
05.11	智谱	GLM3 - Turbo	0.001	0.001	80%
05.15	豆包	通用模型 pro-32k	0.0008	0.0008	N/A
05.21	通义千问	Qwen - Max	0.04	0.12	67%/0%
05.21	通义千问	Qwen - Plus	0.004	0.002	80%/90%
05.21	通义千问	Qwen - Long	0.0005	0.002	N/A
05.21	文心一言	ERNIE - Speed	0	0	∞
05.21	文心一言	ERNIE - Lite	0	0	∞
05.22	讯飞星火	Spark - Lite	0	0	∞
05.22	讯飞星火	Spark3.5 - Max	0.021 ~ 0.03	0.021 ~ 0.03	?
05.22	腾讯混元	lite	0	0	∞
05.22	腾讯混元	standard	0.0045	0.005	55%/45%
05.22	腾讯混元	standard - 256k	0.015	0.06	87.5%/50%
05.22	腾讯混元	pro	0.03	0.1	70%/0%
08.02	谷歌	Gemini Flash	0.0025	0.0076	78.5%/71%

05.14 @OpenAIDevs vs GPT4 累计 ↘️ 80%

07.19 @OpenAIDevs vs GPT3.5 累计 ↘️ 88%

06.21 加量不加价 Sonnet vs Opus ↘️ 80%

表格统计输入输出计价单位为元每千 tokens，美元对人民币汇率采用 7.25。另外，其实普遍有一定免费额度。

从竞争角度出发，LLM 可能是这个世界贬值最快的资产之一了 —— 各家模型还没有拉开差距，于是模型几乎在训练登顶完成之日就开始倒计时被反超，而一旦被反超，模型的价值实际会快速归零。如果全无用户铺量应用，均摊模型成本，这成本就全得由企业承担了。于是，哪怕少赚一些，也得考虑逐步绑定用户的办法；甚至赔钱赚吆喝，长线钓大鱼也不是一定不能采用的战略。好了，现在你们觉得上面有赔钱赚吆喝的不？🐶

从成本角度出发，架构、硬件和算法上的优化，可以节约营运成本，新增结余可以投入迭代，也可以提升利润，还可以让利降价。各家旗舰模型普遍七成到八成的性价比提升，应该可以在一定程度上反应技术栈优化的程度；但中小杯模型直接免费肯定是不能简单套用成本逻辑的。

讨论中小杯模型之前的一个小问题，国产旗舰模型在输入输出 tokens 价格上比之国外如何呢？

提供商模型名称上下文长度输入价格输入价格输出价格输出价格

OpenAI	GPT-4o	128K	$5.00	¥36.25	$15.00	¥108.75
Anthropic	Claude-3-sonnet	200K	$3.00	¥21.75	$15.00	¥108.75
Google	Gemini 1.5 Pro	1M	$1.25	¥9.06	$3.75	¥27.19
百度文心	ERNIE 4.0	8K	$5.52	¥40.00	$16.55	¥120.00
通义千问	qwen-max-longcontext	30K	$5.52	¥40.00	$16.55	¥120.00
腾讯混元	Hunyuan-pro	32K	$4.14	¥30.00	$13.79	¥100.00
字节跳动	Doubao-pro-128k	128K	$0.69	¥5.00	$1.24	¥9.00
智谱AI	GLM-4-0520	128K	$13.79	¥100.00	$13.79	¥100.00
月之暗面	moonshot-v1-128k	128K	$8.28	¥60.00	$8.28	¥60.00
零一万物	YI-large	32K	$2.76	¥20.00	$2.76	¥20.00

👆 节选自 AIGC Rank，为 07.31 当日计价，美元对人民币汇率采用 7.25

仅就上表讨论的话，至少 BAT 御三家在价格上与 OpenAI 和 Anthropic 是没有显著差距的，而字节豆包、月之暗面和零一万物在账面上有更好的表现。

进击的中小杯

中小杯模型有模型较小、成本更低的优势，但无疑不会全无成本，之所以采用免费策略，应当还是希望中小杯引流，让用户在自家生态上迭代出 MVP 后，升级到更大杯的模型提升效果，再把小钱钱赚了的。那么，中小杯模型足够支撑场景应用么？

对中小杯模型的研究几乎自打 ChatGPT 出圈后就开始了，模型大型化和小型化并行的趋势越加明显。Llama 从二代开始就有 70b/13b/7b，三代则在拓展 405b 之余另置了 70b/8b；千问从初代开始就有 72b/14b/7b，二代之下则展开了 72b/57b/7b/1.5b/0.5b。中小杯模型一般都从大杯模型蒸馏而来，能力会在不同程度上弱于大杯，不同的杯号一般是为不同部署环境准备的 —— 30b ~ 100b 段的中杯模型一般仍在云端部署，作为大杯平替；10b ~ 30b 的小杯模型为资源相对富裕的部署环境准备，例如电脑和汽车；10b 以下的小杯模型一般会进一步压缩以部署到手机、AIoT 等资源拮据的设备上。

依然以 Llama 3.1 为例。70b 虽然全面落后 405b，但只在 MMLU-Pro、HumanEval、Math benchmark 上有 5 个点以上的差距，落后幅度并不算巨大，在要求不严格的场景可以平替使用；8b 与 70b 的差距则相当明显，但 8b 在 IFEval、GSM8K 等方面的表现还是可圈可点的，在要求相对宽松的合适场景中，也不是不可以成为选择。

实事上，混合使用多种杯号的模型也是常见的做法，省钱嘛，不寒碜。例如，知识抽取、风格转写等小杯模型也可以胜任的任务，就由小杯模型完成；而代码生成和数学运算等复杂任务，就由中杯以上的模型来实现；不过，如何高效调度任务本身也还缺少经过广泛验证的机制。或许假以时日，小杯模型可以胜任的任务可以逐步扩充，但在当下，依然有诸多研究报告质疑 Mistral 和 Phi 等小杯模型存在对 benchmark 数据集的过拟合。小杯是靠死记硬背，还是已经泛化掌握，应用之前还当推敲斟酌。

价格没说的事儿

既然中小杯模型有一战之力，是不是就可以安安心心地准备 PRD 了呢？恐怕还有准备未完成，除了测评阶段需要关注的模型能力和结果质量，场景面向批量任务时，还需关注 API 对 batching 的支持情况；场景面对普通用户时，需要保障 API 响应的速度，在标配流式输出下则主要关注 ****TTFT 和 TPS 两个关键指标，分别受推理 prefill 和 decode 优化的影响，代表着用户收到第一个 token 的时延和每秒能输出的 token 数量。小于 200ms 的 TTFT 和大于用户平均阅读速度的 TPS 则意味着较好的体验。

而 TTFT 和 TPS 似乎并没有出现在各家的 SLA 中，那么，实际表现如何呢？llm benchmark 提供了部分提供商的 TTFT 和 TPS 测评，测评有浮动，节选提笔之日的数据如下：

提供商模型名称 TTFT TPS Total Context

字节跳动	Doubao-lite-4k	683ms	14.14	2.17s	4K
字节跳动	Doubao-lite-32k	146ms	68.84	466ms	32K
字节跳动	Doubao-lite-128k	658ms	999.00	659ms	128K
百度文心	ernie-lite-8k	1.38s	53.82	2.19s	8K
百度文心	ernie_speed	937ms	32.07	1.87s	8K
腾讯混元	hunyuan-lite	636ms	49.02	1.00s	4K
腾讯混元	hunyuan-standard	1.26s	92.50	1.46s	32K
通义千问	qwen-long	444ms	19.33	1.69s	1M
通义千问	qwen-max	401ms	17.47	1.43s	8K
通义千问	qwen1.5-110b-chat	608ms	19.91	1.51s	32K
SiliconCloud	Qwen1.5-110B-Chat	357ms	29.75	962ms	32K

花边：还记得被光年之外收购的 OneFlow 吗？光年之外被美团收购之后，OneFlow 曾经的掌舵袁进辉再次创业成立了 SiliconFlow，也就是上表中的 SiliconCloud。SiliconFlow 在 OpenAI 停止中国区 API 服务后，宣告 Qwen2 7B/GLM4 9B/Yi1.5 9B 等开源大模型永久免费。

两个观察：

收费服务也不见得能提供理想的 TTFT 和 TPS
未见得模型在原产地的服务质量更有保障，同样的 qwen1.5-110b-chat 模型，SiliconCloud 表现优于阿里云，但这并不意味着技术一定有优劣之分，兴许只是 SiliconCloud 的集群更富裕，又或是测评时阿里云的负载更高

0x12 还少点什么

诚实地说，作为吃瓜群众，个人对 LLM 们在各色 benchmark 上节节攀升的成绩并没有感同身受，过去一年的震惊主要都来自 Sora、Suno/Udio 和 GPT4-o。如果你还没有看过 GPT + MJ/SD + Runway + Suno 产出的作品，强烈建议瞅瞅 MV 级的日本作品和欧美作品，大触们已经玩出花了！按照创新扩散理论，假以时日，成本更低、制作更精良的作品占领一席之地是完全可以期待的。反观基于 LLM 的应用落地，多少是有一些沉闷的。

环球同此凉热

根据 2024 年 7 月的国金证券行业研报，不论全球还是国内，访问量 Top50 的 AI 产品细分类别的头牌都是个人聊天与助手，其后分列搜索、办公工具和图像与设计，全球也只多了游戏与娱乐分类，腰部应用还总逃不开高渗透、低留存的怪圈。

根据 2024 年 7 月的广发证券 AI 行业周报，ChatGPT 的网页访问量于 5 月见顶后缓慢回落，日均访问时长也呈现相同趋缓态势，同时面临着 50 亿亏损的账单。而当 AI chatbot 先驱 Character.ai 在融资困难后几经周折最终 25 亿委身于 Google 时，QQ 搞了聊天搭子，微博有已读乱回评论员，字节有猫箱，美团有 WoW，快手有飞船，Minimax 有星野和 Talkie，连 MetaAI 也要从 IP 转定制，末了还有主打 NSFW 的 CrushOn。戏谑点儿说，AI 是真的怕你寂寞；朴实地看，人们又真是有需求并没有被很好的满足。

回落现象在 Perplexity 上同样已有端倪。而就在 Perplexity 绞尽脑汁想着怎么革命 Google 和 Bing 时，又是 OpenAI 带着 SearchGPT 加入了战团，最终能否有显著优于 Perplexity 的表现还有待观察，仅就内测表现而言，至少同样未能避免实事性错误。Google 和 Bing 自然不会坐以待毙的，鏖战且有时日。与 Perplexity 相似的产品，国内也有秘塔，不过国内内容生态相对封闭，搜索的天花板或许会相对低一些。

小小地吐一波槽，把搜索结果摘要插入搜索结果头部，无视摘要动态生成改变长度会严重影响搜索结果阅读的百度已经算胆够肥的了，这怕也比不过敢抢张雪峰饭碗帮 1342 万考生填报志愿的夸克。

办公赛道看微软。直接援引海豚投研的结论吧：

2、Office 业务增长平平，Copilot 推广预期内迟缓：与 AI 紧密性第二的 Office 365 业务本季收入增长 13%，较上季度同样环比降速约 2pct。由于 Copilot 等 AI 功能的推广尚无爆发性增长已是行业共识，而企业用户数量增长越发艰难。缺乏通过 Copilot 等附加功能提价的情况下，企业 Office 的收入增长也未现明显起色。

3、“AI PC”的时刻仍需等待：个人计算板块的本季剔除并表暴雪影响后，可比营收增速为 2%，仍在低位。其中 Windows OEM 业务收入同比增长 4%，和当季 PC 出货量接近，没有明显提速。虽然微软先前已推出了 AI PC 产品，但在缺乏爆款 AI 应用的情况下，尚不能真正刺激换机周期的到来。

回到第一性

LLM 无疑取得了令人振奋的突破，但应用场景却并没有如预想的那般全面开花，何以冷热同存？这里尝试回到 LLM 带来的核心能力重新审视这些变化，即多模态理解和生成 内建知识 和推理能力。

先谈多模态 理解和生成。撇开语言是否是原生模态的争论，不论是怎样的 MLLM，文本和代码都是训练不可或缺的材料，它们为当前的 LLM 注入了逻辑性，于是 LLM 也离不开以语言为载体的 prompt。然而，语言真的是那么优秀的交互媒介吗？我想这里可能至少存在两个根本性的误区：

大众的语言天赋被严重高估了 —— 多数人在多数场合都很难一次性将自己的诉求清晰无误的表达，往深里说，或许在探索中逐步 construct 或者 reveal 自己的诉求，对于大脑而言是更加经济的方式，而厘清诉求本身也是认识自己的过程
人们过分习惯了人与人的沟通方式，忽略了人与模型在常识和逻辑方面存在着的巨大差异，多数人应该无法理解为什么 LLM 竟然会在「 9.11 和 9.9 哪个大」这种小学数学问题上栽跟头，可能也只能有少部分鬼才能够想出也愿意去添加「我们在比较的是双精度浮点数」这种神仙提示词了，多数人的反应只能是「那我走」

无论如何，当存在 Prompt Engineering 大赛和长篇累牍的获胜秘籍时，Prompt 都很难称为足够低门槛的交互媒介。

好的方面是：

随着 GPT4-o 这类的 omni 模型的应用和演进，用户输入和输出都可能可以有直观而自然的选择
模型 context 的增长和 RAG 工程的增强也应当能够降低人们主动为 LLM 填补背景知识和环境输入的成本
输出信息的结构化呈现则已经是广泛进行中的优化了，图表、地图、视频这样的载体更易于人类这样的视觉动物理解，针对不同显示设备、不同场合的输出优化应当会逐步铺开，针对结构化输出的再加工利用也应当会更加自由和便捷
与交互体验密切相关的 TTFT 和 TPS 会逐步优化，LLM 对音视频甚至 3D 的 streaming I/O 也总有一天会实现

再就是内建知识。这儿最大的问题还是幻觉，或者准确说，最大的问题不在于大模型会出错，而是你明明知道它可能会胡说八道，奈何它胡说八道时那么一本正经，正经到你完全无法察觉。以续写为使命的 LLM 能否实现「知之为知之，不知为不知」还有待进一步的研究。永远不出错或许是不现实的，但在错误降低到对业务场景而言足够可控的范围前，都很难让 LLM 脱离人的复核从而实现全流程的自动化，吞吐量和成本的变化幅度自然就受限。

最后是推理能力。LLM 自 ChatGPT 起就展现出了一定的推理能力，之后又有了 instruction finetuning 出的工具利用能力，Agent 于是成为可能。然而，也正是连续推理能力不足致使 GPTs 从名噪一时到明日黄花 —— 当前的 LLM 们还无法 follow 真实世界中复杂的 instructions，依靠人工 few-shots 去支持无穷场景的 General Purpose 将会是永无尽头的工程地狱。这样的困境会让我想起电影「海上钢琴师」中的对白：

“但在舷梯上，我面前是成千上万的琴键，永远数不完。真的，迈克斯，绵绵不绝。”
“这是无尽的键盘，而你无法在无限的琴键上演奏。这不是为凡人所设的，这是上帝的钢琴。”

那么，推理能力还可能增强吗？在训练中大规模引入多模态数据是一个被广泛寄望的路径，但质疑视觉和听觉能增强智能的声音也未曾断绝；另一个方向是多步骤连续任务训练，拾象翻译了对 OpenAI 联合创始人 John Schulman 的访谈，John Schulman 的观点是「现在大多数训练数据都是让模型一次只执行一个步骤，未来我们会更多地训练模型去做多步骤连续任务。这对于包括 RL 在内的所有训练都适用，不管是要在最终输出还是每个步骤上进行监督，只要是连续任务训练都能帮助提升模型性能。这个领域现在还很新，所以短期内还有不少容易实现的目标（low hanging fruits）」。这些 low hanging fruits 能将 LLM 带到怎样的高度，就让我们拭目以待吧。

0x13 如果突破不会很快到来

算力不足是过往几轮 AI 浪潮终结的原因，LLM 在这一轮的 AI 浪潮的起点狠狠地收割了一波算力革命的红利，自那以后就是新摩尔定律和新安迪比尔定律的竞速 —— 老黄挤出的每一点儿算力都会被 OpenAI 们吃干抹尽。从硬件到架构到电力系统到资金投入，链路中任一环掉链子都可能拖累 Scaling Law 的验证，比如最近刚被刀的 NVIDIA B200。事实上，连同可能到来的美联储降息、各国股市的波动，也不是不可能终止当前回报不成比例的 LLM 研发投入。就算一切保障都得以维系，十万卡、百万卡，又或是类脑芯片、量子计算就能确定性地和 AGI 划上等号吗？并不能。

假如，我是说假如，假如这一轮 AI 浪潮就此停歇，真的就不能有好的 AI 应用了吗？

作为技术人员，需要在对技术风险保持警惕的同时，积极扩充自己的武器库，在技术不完美时，更要对技术诚实。这要求技术人员适应技术能力的硬性约束，去思考应该为什么样的人群提供怎样的价值、收益有几何，并关注核心成本要素的变化，通过成本和收益的上下界排除错误答案，在百千条路径中找到最可能成功的选项。

回到 LLM，其实当前的 LLM 就有可以作为基石的绝对长板了，海量文本浸泡出来的语感可不是盖的，LLM 对信息检索、摘要总结、翻译转写等指令的执行效果甚至可以超越人类专家。Perplexity、Notion AI、Duolingo 都是将长板用到极致的范本。而 MLLM 对视听障碍人士而言，则是在相当程度上弥补了感官缺憾，哪怕模型能力尚不完美、响应还不够实时，但零和一意味着科技平权。

约束方面，语言/语音的不便和尚不成熟的多模态交互是软性约束，幻觉和局限的推理能力才是硬性约束，需要大幅调整适应。在成本高、约束强时，需要优先寻找价值高地，足够的毛利才能抹平成本渡过周期，是否 AI 原生、是否短到的反倒是无关紧要的问题；应对幻觉和局限的推理能力可以有两种思路，一是移交控制和验证，二是主动治理和约束。

移交控制和验证仅在移交对象有足够判断力时可用，限定专家用户，To B 或 To Pro User。这意味着把工作路径选择和幻觉识别尽量移交给用户，这是避短，而为了避短，需要提供足够的控制点、调节参数和功能组合，让用户以小片段低成本试错，Adobe Premiere Pro 对 Sora 的支持是不错的范例。同时也需要扬长，尤其当瓶颈在创新而不在验证时，甚至可以放任幻觉以跳出思维定式，规模化验证以把握机会成本，AI 生物医药行业有大量这样的例子 —— 当化学分子难合成难预测而验证成本不高时，AI 的舞台就在那儿了，成功的合成和验证还能反哺人类对生物医药的认知；相似的故事在 AI 工业这儿也有，例如华为就帮助湖南华凌湘潭钢铁公司优化了炼钢炉的状态控制；AI 已经进场短剧剪辑和投流了，虽然剧本和视觉本地化还囿于模型能力不足，但技术还在进步嘛。

主动治理和约束可以算是移交控制和验证的反向操作，牢牢把幻觉治理和路径规划控制在自己手里，不限定用户，但需抑制 AI 对产品的喧宾夺主，摈弃华而不实的功能幻想，以产品为绝对核心，围绕有限复杂程度的功能组合，迭代并培育新的使用习惯，提升产品交互效率，改进用户体验。当产品思考足够清晰时，爹味重一点也是无妨的，这风格的典范当属 Apple 了，在这个方向上，Apple Intelligence 是一个很好的观察标的。

0x2 Apple Intelligence 的启示

Apple Intelligence 在 WWDC 24 主会场开场一小时后，才由 Tim Cook 拉开帷幕，Apple 的股价才随之止住了俯冲势态，而后一路高开站上股价历史巅峰，足见资本市场对 Apple Intelligence 的投机认可。那么，Apple Intelligence 究竟做了什么呢？

0x20 压轴 WWDC 24

上图是 Apple 自己整理的 WWDC 24 Machine Learning & AI Highlights，清晰描绘了 Apple 对 Intelligence 的价值取向：powerful 强大、intuitive 直观、integrated 集成、personal 个人向。其下左侧就是 Apple Intelligence 了，包括 Writing Tools、Image Playground 和 Genmoji，以及高亮着的 Siri with App Intents，很明显，在 Apple 看来后面这才是角儿。

硬件方面，Apple Intelligence 限定 M1、A17 Pro 及之后的设备，有意思的是 M1 只有 11 TOPS 就能上车，而 17 TOPS 的 A16 却因为只有 6GB 内存的缘故只能含泪看着 A17 Pro 的车尾灯远去。由来只有新人笑，据称 iPhone 16 的处理器 NPU 性能将会超越 38 TOPS 的 M4，可以看看实际性能能拉开怎样的体验差距了。

先上配菜，创作编辑工具们：

Writing Tools 在标准文本系统上都可用，重写、校对、风格改写、总结摘要、列表/表格化、邮件回复，以及略有点儿社死的电话录音提示都归在这了
Image Playground 图片生成，没翻到 API 文档，本地跑也不花钱，保底不亏
Genmoji 表情生成，能结合着相册玩，但是不基于 Unicode，而是基于 AttributedString 的 Glyph，兼容性实在是存疑

再看高亮的 Siri with App Intents：

上方是系统和应用层，在任意页面都可以唤起的 Siri 是 App Intents 的核心入口，而 App 的职责与 Semantic Index 和 App Intent Toolbox 打交道，为 Semantic Index 捐赠数据（donate entities），向 App Intent Toolbox 捐赠处理意图的能力（donate intents），并默默等候 Apple Intelligence 拣选数据，或征召以处理用户意图

未在图中展现的搜索（Spotlight）、快捷方式（Shortcuts）、桌面组件（Widget）、控制中心（Control Center）也是可以与 App Intents 关联使用的 App Intelligence 系统级出入口，不过根据田野调查，连 Siri 的渗透都低的惊人，剩下的几位说门可罗雀应该不过分

中间是个人向智能系统，组成如下：
- Semantic Index，从 App 获取信息（entities），提供个人向语义上下文（personal context）
- App Intent Toolbox，登记和执行由 App 提供的意图处理能力（intents）
- On-device models，有语言和图像模型两类，模型在不同的场景上还有不同的 LoRA 以优化场景下的效果，官方文档 Introducing Apple’s On-Device and Server Foundation Models 中披露了更多训练的过程和测评结果，值得进一步学习
- Orchestration，串联流程，如上图示：
  - 先根据用户请求 Semantic Index 补全个人向语义上下文
  - 选择使用终端模型或是云端模型，但选择依据并未公开
  - 让模型判断出请求和上下文对应的操作（schema），并选择用以执行操作的 App
  - 整备参数，让 App Intent Toolbox 调用 AppIntent
下方是软硬件加速和安全隔离区，为上层应用提供算力和安全保障

效果例子可以看官方 session 20:45 左右，看一看「Add this photo to the California album」和「Email it to Josh」这两个 User Request 所达成的效果能否打动作为观众的你吧。

需要浇一瓢冷水的是，SiriKit 提供了 8 种 domain，再加上 App Intent 新增的 12 种 domain，也仅是 20 类功能和上百种操作，当前还只有 mail 和 photos 提供了预览，domain 和 schema 增补的速度，以及应用适配 SiriKit 和 App Intent 的速度，都会在相当程度上影响最终能实现的效果。

再浇一瓢，到 iPhone 16 中国区上市时，很可能都无法提供 Apple Intelligence 能力。国行 iPhone 15 Pro 和 iPhone 15 Pro Max 同样有地区限制，都得等。

延伸阅读：

Introducing Apple’s On-Device and Server Foundation Models

苹果大模型工具调用 benchmark：让 GPT-4o 扮演用户，在场景中考察

花絮：隐私风波

可能已经有眼尖的同学发现了，Apple 的 Highlight 只字未提 OpenAI 和 ChatGPT。已经坐实上车 Apple 的 OpenAI 都没有露脸，还停留在传闻里的 Gemini、Meta、文心一言就更加没有戏份了。那么，Apple 是因为如马斯克的梗图说的那样有隐私风险，才不敢声张的么？

花边新闻：小米国际版和 OPPO 国际版都接的 Gemini

Apple PCC is the future of consumer cloud computing we all deserve

事实上，这可能是本届 WWDC 最大的误会了。Apple 在 Blog 中有详细的方案描述，上图则是 Justin Pagano 整理的图示流程，与个人向语义上下文相关的请求只会在本地模型不足以支持时，加密发送到由 Apple 运维的 Private Cloud Compute，用户数据在流程结束后即刻销毁。同时，Private Cloud Compute 的硬件安全会有第三方观察员参与监督验证，部署其上的程序和系统镜像则会有安全研究员介入分析。这一整套方案下来，Apple 基本是在宣告「别怕啊，你的数据不会泄露，也不会被用来训练模型的」。

那么，ChatGPT 是怎么参与到 Siri 中的呢？主导权应该还掌握在 Siri 手中，当 Apple Intelligence 认为自己无法胜任用户的要求时，它会询问用户是否可以使用 ChatGPT 来代班。如果用户允许 ChatGPT 接管请求，Apple 对隐私保护的承诺也将随之化为乌有，在这种情况下，马斯克的梗图就成真了，虽然 Apple 说 ChatGPT 不会记录请求信息，但严实的保障在哪呢？

未来，如果 Apple Intelligence 模型能力增强，那届时给别家的分流大概会减少；但在那之前，接入 Gemini、文心一言等第三方模型 API 服务，也是不得不考虑的补强，隐私保护什么的…果然，在外用手机，用户还是得学会保护好自己呀！

1:38:08 - You'll be able to access ChatGPT for free and without creating an account.

1:38:15 - And for ChatGPT subscribers, you'll be able to connect your account and access paid features right within our experience.

隐私之余，还有一个讳莫如深的问题是分成。WWDC 的口径是可以免费访问 ChatGPT，但没有提使用限额的问题，反倒是说可以 connect ChatGPT 订阅账号，以使用付费功能。根据 Appfigures 的报告，7 月移动版 ChatGPT 净收入 2800 万美元，其中 Apple Store 占比达到 83%，OpenAI 是不可能免费且不限额地提供服务的，对 OpenAI 来说 Apple Intelligence 只是植入于系统的另一个流量入口罢了。这笔钱 Apple 也不大可能出的，对 Apple 来说，最简单有效的方法可能是在 account connecting 页面加入 Apple Pay，榨一笔苹果税；复杂一些的么…据说苹果可能会对 Apple Intelligence 收费，月费最高可达 20$，20$ 也是 ChatGPT 的月费，如果是二选一，你会怎么选？而如果 Apple 是包圆了 ChatGPT 和别家的模型，Apple 和服务商按量结算，和用户订阅月结，你的选择会保持不变吗？

体验价值

好事儿的差评君搞了台美版 iPhone 15 Pro 测试了 beta 版的 Apple Intelligence，中文支持很糟，模型能力相当弱，到 release 版本再观察观察吧，本来依赖终端 3b 模型的话，就肯定会要有更长的路要走，换机党请严格控制期待。

叠甲完毕，本篇后续的讨论将只聚焦于 Apple Intelligence 的目标设定和方案选择。

LLM 领域有一个常见的说法：LLM 创业得同时爬应用和模型两座高峰。多数人对高峰的理解可能都是基于 LLM 的新能力，创造全新场景或是颠覆已有场景，比如足以取代博士的下一代 strawberry 模型，比如疑似造假但立志取代程序员的 Devin。并不是说挑战高峰不好，但真的只有这一种价值值得被认可吗？至少在 to C 的领域，回归到终端用户视角，作为芸芸用户中的一员，我们在为什么而奔忙？会为什么而喜悦？又会为什么而不满？琐碎生活的平凡价值，或者说，产品使用体验和用户情绪价值同样值得被看见。

这是 Apple Intelligence 所给我最大的启示。

克制可能是 Apple Intelligence 最突出的特点。它没有追求非常 fancy 的功能，而是把图文编辑作为基础能力整合进系统，为二三方应用提供原子能力，供自行拼装，以配合用户和应用介入调控；同时，Apple 没有为噱头让 AI 快速接管系统，相反严格限制了 App Intents 的适用范围，控制着 domain 和 schema 升级迭代的节奏，直到系统的规划和工具利用能力足够掌控新的 domain 和 schema，能为用户体验添砖加瓦时，可能才会逐步 release。

连接，信息与信息、信息与处理能力的连接，是 Apple Intelligence 另一个鲜明的特点。不同于其他厂商的独立存在的 chatbot 应用，Siri 是植根于系统层、跨应用的智能助理，Apple 以 Siri 为桥梁，以 App Entities 和 Intents 为线索和纽带，帮助 Apple Intelligence 连接不同应用 Donate 的信息和处理能力，再基于个人向的语意基础理解，以有限复杂程度组合功能，免除应用间为信息流转而引入的用户交互，实现原本需要琐碎操作才能实现的功能组合。操作提效，体验提升。

至少听起来可以少动动手指头了，对吧？

生态罗生门

Apple Intelligence 发布之后，机构研报和鹅厂研究院都给与了相当高的肯定，鹅厂甚至认为以自然交互和智能为标签的超级入口成型已无悬念，流量、秩序和利益将会被重塑，应用学会利用新入口能够形成巨大的流量红利，未来甚至都不再需要应用，只会存在智能代理接口。

当真如此乐观吗？回顾 Apple Intelligence 的前身，SiriKit 自打 iOS 10 就有了，App Intents iOS 16 起步至今也近两年了，归咎 Siri 不够智能真的可以解释应用接入寥寥，系统级入口 Siri、Spotlight、Shortcuts、Widget、Control Center 没一个能打的现状么？

换位到应用开发者的视角，可以把格局看得更完整。对于开发者而言，接入 App Intents 的开发成本并不很高，按照官方文档，Donate Entities 和 Intents 就可以，能做的也就这点儿。那么能收获什么呢？让系统支取应用信息，以降低应用曝光为代价，换得兴许有个人语义的上下文意图调用，成全系统无/少跳转的丝滑体验，博得用户的赞誉…吗？代入广告抽佣、平台抽成、内容/服务付费，以及内容/服务付费衍生的订阅这几类商业模式：降曝光天然与广告抽佣冲突；在上下文意图调用证明能够大幅提升转化之前，稍大些的平台都不太可能把身家性命假托他人；内容和服务理想的消费环境应当还是在应用中，而付费本身暂时也没有看到可以利用 Intents 提升的路径。

对头部应用来说，虽成本不高，但收益存疑，提供 Entities 甚至有一定商业风险，比较安全的做法是只承接 Intents 流量，做只进不出的貔貅。从颠覆商业模式的角度出发，App Intents 之于 App，一如 Perplexity 之于 Google。

那么，对中长尾应用呢？尴尬的是，移动端中长尾应用生态不说是青黄不接吧，也是冢中枯骨。纵观全球，月均使用应用数量只在 20 上下，且应用和时间维度上的头部聚集效应还愈发明显。如果应用需要依赖 Apple Intelligence 帮助提升自己的转化效率，那么，用户有相当大的概率不会把它留在手机已安装应用清单中。

emarketer report 2023

QuestMobile 2024 半年报告

一言以蔽之，系统与应用的目标和利益并不一致，才是 SiriKit 和 App Intents 如此凋敝的原因。放暴论：除非 Apple Intelligence 大幅提升转化效率成真，或是 iOS 应用生态逆生长，否则 Apple Intents 将是二方应用的过家家，虽然有益体验，但没有更多应用的深度参与，很难指望长成参天大树。

题外话，iOS 应用分布逆转并非不可能，只是可能需要重新定义「应用」。日前，也传出过 Apple 要推出 AI 应用商店的消息，即插即用、用完即弃的 agent/plugin/shortcut 对用户来说，认知心理负担远小于应用，以转化而非曝光为目标的轻量化中长尾应用从道理上说更配搭 App Intents，可以提供多元的意图处理；至于组成个人向语义上下文的信息，就还得在头部应用上打主意了。

花絮：MLLM

既然应用很可能不愿意提供 Entities 和 Intents，如果 Apple 想要，有什么办法能让应用们“体面”么？

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Apple 是有后手的，论文 Ferret-UI 和 ReALM 都指向了 MLLM 方案。其中，Ferret-UI 的披露更加详实，输入侧，它通过 resize & devide 支持了任意分辨率的图像，将指令、图像和组件信息一齐作为模型输入；输出分为基础和进阶两类任务，基础任务负责识别和定位 UI 组件，进阶任务支持 UI 交互对话、细节描述和功能推理。

简单比较一下两类方案：

维度类 App Intents 的 LLM function call 类 Ferret-UI 的 MLLM 感知理解

数据源	应用 donate 的数据 & 系统上下文信息	UI 渲染截图 & 文本系统
数据深度	取决于 API 实现，理论上可以提供完备数据，即使数据未在 GUI 上呈现	取决于 GUI 信息展现和 MLLM 提取能力，未展现数据无法获取，间接展现的数据依赖模拟交互来获取
数据广度	受限于 API 定义，未在 domain & schema 中定义的类别则无法取用	取决于 GUI 信息展现和 MLLM 提取能力，不依赖预定义数据结构
效率	高，API 直供结构化数据，数据一般准确无误	依赖模型推理，准确性可逐步提升，但不省时间和资源
拓展性	依赖 domain & schema 的拓展和开发者的适配	依赖 MLLM 能力提升，无需开发者介入

虽然论文止于 UI 理解和交互对话，但既然已经能够根据任务找出 UI 组件，也能定位 UI 组件，对于系统而言，再进一步，代为点击，也不是什么难事儿。换言之，如果应用们不想“体面”，系统是完全有能力放下以 App Intent 为代表的 API 接口，抡起 MLLM，通过必定要在系统中呈现的 GUI ，拿到自己想要的信息和处理能力的。这个过程，甚至从渲染到交互都可以在后台执行，而不必被用户看见。

同类能力不只是 Apple 有储备，Google 有 ScreenAI，阿里千问系也有开源的 MobileAgent，蚂蚁集团维护的开源仓库 awesome-ui-agents 中有较全面的收录，按需自取。

在 MLLM 足够 robust 之前，恐怕没有哪家 OS 真的敢越过「对话」的边界，真的代为「交互」，毕竟 MLLM 要是会错意发了奇怪的消息/买了无用的物件/分解了你辛辛苦苦刷出来的装备，这个责任可不知道该谁来担 🐶。但若模型演化到足够 robust 的那一天，相信 App 和 OS 之间还得有一场腥风血雨。

0x21 怎么抄作业

要抄这份作业，本质是回答信息和处理能力从哪儿来。Apple 伸手向 App，那 App 呢？除了 App 自身，还有其他的信息和能力来源么？

在原生应用外，还有两类常见的跨平台生态 —— Web 和小程序，两者均可以在 App 中集成，无非全家桶巨头更偏爱集成度更高的小程序，更独立、更闭环的 Web 则有更广的应用。

据 QuestMobile 报告，及至 23 年秋，小程序月人均使用个数已近 16，距应用月人均使用个数 28 并不十分遥远，而历史使用过的小程序数量普遍有三位数。

QuestMobile 23 年秋季报告

不同于应用生态的高度集中，Web 生态和小程序生态更加长尾，并更多以提供服务和实现转化为目标，并不追求长久的曝光。也就是说，比之 App 对 OS 的抗拒，App 从 Web 或小程序中提取信息和处理能力时，商业模式上的冲突会低很多，如果 App 有能力提升 Web 或小程序的有效曝光，双赢的可能性是存在的。

以 App 借力而 OS 不借力 Web 和小程序为假设，比较一下 OS Intelligence 和 App Intelligence 的差异：

维度 OS Intelligence App Intelligence

用户输入	可以通过物理按键触发，锁屏状态也可以提供部分能力	主入口为应用级软件入口，进入路径较长，系统支持时可以嫁接替换系统入口
环境输入	语义上下文来源 - OS 交互数据 - App 信息提取系统级权限，可访问相册、日历等隐私数据，数据时间跨度长，维度更多元可以划拨独立存储区域，以长时间保存信息	语义上下文来源 - App 交互数据，以用户主力 IM 为代表，App 信息未必少于 OS，但应用较敏感 - Web/Lynx/小程序/Agent 信息提取限应用生命周期内信息，隐私数据相对少应用沙盒空间存储，仅可维持有限时长
能力供给	能力来源 - OS 自身能力 - App 能力提取，需下载安装，默认占用桌面和磁盘空间，有一定心理负担 - 存在 Agent 平台时，可以通过 Plugin 补全能力	能力来源 - App 自身能力 - Web/Lynx/小程序/Agent 能力提取，即插即用，可动态扩充，心理负担低 - 存在 Agent 平台时，可以通过 Plugin 补全能力
处理编排	标配端云协同，端模型覆盖率有机型门槛	App 可承受的模型规模尚不足以支持所需，OS 未开放 LLM API，SFT 或 LoRA 就更没有，因而现阶段只能采用类 PCC 无端模型方案，覆盖广，但成本高

也许不弱于 OS 的信息获取，来源可能更广泛的能力供给，但入口更深、成本更高，换取应用内更直观、更连贯的用户体验，大抵如此。举两个 🌰 帮助理解吧：

预期效果 - 利用 App 能力

老年用户语音输入：「字太小我看不清」
头条 Intelligence：「播报？大字版？」
老年用户语音输入：「把字改大」
头条 Intelligence：「已经设置大字版」

预期效果 - 利用 Web 信息

文章：「年度黑珍珠榜单」
用户指令：「榜单店铺新开个收藏夹」
Intelligence：「提取的清单，确认操作？」
用户：编辑，收藏夹重命名，分享

成本高低，价值几何，就留待列位看官自行品评了。

一个延伸脑洞，App Intelligence 需要连接的是长尾的内容信息和长尾的处理能力，此时，完全依靠用户自行通过语言来发现信息可以配对的功能未免强人所难；那么，在内容信息与特定处理能力有明确关联时，可以在内容下推荐一些指令操作，以提升连接的发现性，让用户不那么无所适从。

花絮：Chrome & 支付宝

Chrome 在边缘部署 LLM 上还挺激进的，从 127 beta 版开始内置了 Gemini Nano，从地址栏就能与 Gemini 对话（但国内禁用）。

Chrome 在八月第一篇 blog 中介绍了三项能力增强 —— 更强的 Google Lens、Compare、Recall for 浏览记录。其中，Compare 可以视同 App Intelligence，它可以从不同的 Web 页面上提取不同维度的商品信息，在同一个表格中陈列展现，甚至保留了评论跳转链接，以免用户在不同 tab 之间来回切换。

应用内更直观、更连贯的用户体验，对吧？

蚂蚁集团在 WAIC 2024 上官宣了自家的智能助理，以自家百灵大模型为基础，覆盖日常/金融/健康三个方向，尝试背靠支付宝小程序生态，抢占助手心智的入口。右侧视频就是通过助手在线点单的 demo，暂且忽略这慢腾腾的反应速度，看个响儿吧。

小道消息探听得知，已知麦当劳并未与支付宝达成类似 App Intents 的接口合作，那么推测支付宝的 ACT（Transformer for Actions）采用的是类似 Ferret-UI 的 MLLM 方案，百灵也确实支持多模态。更详细的方案说明，以及场景推广的计划，应该会在 9 月的外滩大会有更多曝光，可以拭目以待。届时，以麦当劳为代表的小程序们会有怎样的反应，也同样令人好奇。

除此之外，作为拿捏着消费/金融/健康数据的信息大鳄，既然选择了用户语言输入 + 自行提取第三方信息 + 自行模拟用户操作，那么，支付宝能不能防止来自用户或第三方的注入攻击，又或是第三方对 MLLM 的刻意误导，对于后来者都是很好的借鉴参考。

两条花边：

比较乌龙的是蚂蚁家的「端边云协同 AI 推理框架」碰巧也叫 Gemini
蚂蚁家的 Intelligent Virtual Assistants with LLM-based Process Automation 论文发表至少可以追溯回 2023 年的 12 月，行动力还是挺惊人的

本质是连接

互联网的前世今生：Web 1.0、2.0、3.0 by JasonCeng

「互联网的本质是连接」似乎是一个没有确切起源，逐步形成的共识。

网络之上，人与信息、人与人、人与服务、人与设备的连接不断延伸，连接在广度和深度上都有显著提升：

Web 1.0 开始，网络连通网站，用户们得以通过 Netscape 们访问静态网页汲取信息，彼时还只有 Yahoo 这样的门户做着简单的分发；
Web 2.0 自打有了动态网页，用户就不再只作为内容消费者，也会参与内容的创作和传播，社交媒体、电子商务由是大行其道；
Web 3.0 的核心是基于区块链技术的去中心化，保障用户数据主权，建立信任体系，通过智能合约实现更广泛、更智能的互联。

聚光灯外，信息与信息、信息与能力的连接也在进化。Web 3.0 的智能合约可能会是这类连接的答案，但在技术和生态足够成熟之前，扛把子还得是诞生于 Web 2.0 时代的推荐系统。海量内容聚集投放，叠加海量用户行为数据，喂养了超大规模的推荐模型，相近信息得以彼此关联，并支撑起根植于平台的种种服务。然而，正因为对用户行为定义、优化目标设定和巨量数据的依赖，推荐系统较难建模长尾信息，非平台核心服务自然也是无本之木。

LLM 和 MLLM 更像是对 Semantic Web 的延伸，增强了对 Language 和 Graphic 的语义理解，再以 LUI 为桥梁帮助语义突破 GUI 边界的束缚，实现跨 GUI 的信息和能力连接。这种组合关系下，GUI 得以避免在有限的视觉空间下堆积无限的能力组合，视觉空间可以留给核心信息的结构化展示，以保证交互的直观、高效；LUI 作为辅助交互手段，也不必太多暴露功能模糊、效率偏低的缺陷，以语言表达的灵活填补有限复杂度下的近于无穷的信息和能力组合。

0x3 番外：对终端模型的预言

Apple Intelligence 一口气在 iPhone、iPad 和 Mac 上线 3b 级模型再次坚定了许多人对终端部署 SLM 的信念。借鉴前文 M1 入局、A16 离场的故事，NPU 们领先于实际需求积累多年的算力，即使在 decode-only 结构并不那么利好无 batch 场景的情况下依然足用，顶配设备支持 7b 并无不可；真正的阻碍是内存，在主流手机内存配置在 8GB ~ 16GB 区段时，为了核心体验的稳定，一般只能为系统腾出单一 3b ~ 7b 周转的空间，这对模型能力构成了不小的制约。因而，在现阶段，指望 Apple Intelligence 或 Google Gemini 开放 OS SLM API 会更现实一点儿，不过不要奢望 OS 会提供 personal context，不现实。从内存制约出发，如果模型能力足够，应用场景也合适，内存更大的 PC 可能会是更易于模型部署落地的硬件设备。

出于模型能力的制约和终端部署带来的系统复杂度，其实并不建议在产品原型阶段就学着 Apple Intelligence 搞终端模型，强行上难度会拖慢产品的迭代。前期完全可以 proxy 到能力更强的云端模型，加速对场景和用户的认知，并逐步了解场景所需模型能力的下限；这样，在 MVP 版本就绪后还可以先考虑切换成本更低廉的云端 SLM；直到用户黏性导致请求量显著抬升时，再考虑在覆盖率其实还不那么高的终端上部署已经验证可行的 SLM，从而在一定程度上降低以计算开销为主的运营成本。

对任意类型的大模型而言，在以语言、语音、图片为输入时，至少以多媒体为核心内容的应用基本都还可以忽略传输耗时和成本；但未来模型输入拓展至 2D/3D 视频时，传输耗时和成本就不再能被忽略，如果未来终端有内存和算力支撑 streaming I/O，将会是很有想象空间的局面。在这方面，最硬核的可能莫过于军工，比如 Anduril 和 Palantir。

另外两个对终端部署而言有想象空间的事儿是 life-long context 和模型个性化，但也分别需要模型结构和 finetuning 有显著的突破，还得静待前沿更多的突破。