苹果WWDC，AI小模型的批发时代-虎嗅网

本文来自微信公众号：共识粉碎机（ID：botaijin），原标题《AI观察20240613：苹果，小模型批发时代》，作者：Andy Liu，题图来自：视觉中国

1. 我们调研了一些小模型公司以及端侧场景，发晚了两天。

2. 苹果讲了一个按Query难度分发模型的模式：

3B小模型：大多数场景，包括自动回复、改写、语法检查、Summary都用端侧的小模型跑。
苹果大模型：推测在几十B左右，按目前的芯片能力可以跑通，估计不会是7B，因为7B的模型不会比3B有非常大的性能提升，尤其是跑在苹果的Private Computing Cloud上面。
GPT-4o：在Private Computing Cloud上面做安全处理，然后脱敏数据再调用GPT-4o，计算跑在Azure上面，除了可以做对话，还可以做邮件等场景复杂（不涉及个人信息）的写作辅助。
在Windows Copilot等应用产品中，也多见大小模型混用的场景。

3. 苹果PCC的价值：

PCC是苹果的private节点，这主要是通过加密、IP隐藏、无状态化、收紧特权权限、环境加固实现的，涉及个人隐私的数据（如个人生活照片、Message和邮件）通过加密进去了就不会再去外部环境了。
而GPT-4o不会部署到PCC节点里面（OpenAI不会把模型给苹果），所以GPT-4o只能处理非Personalized处理后的数据和相关的request。编排层是PCC和手机端联动模式（如果纯放在云端加密传输，延迟增加，用户体验不好，所以放在终端可能性很大）。
要保证和大模型交互端到端的隐私数据安全，尽最大可能保证被攻击面的缩小。整体来看，苹果这套PCC的方案非常复杂，涉及到芯片、软件、云端、终端整套的硬件、软件的安全方案，还要考虑到最后的用户体验的优化，对于其他手机厂商来说，要复刻出来难度非常大。

4. 3B的小模型能做什么场景：

5. 未来可以想象得到：每个人都有一个属于自己的小模型

我们未来很可能会见到每一个用户都有一个7B规模的Personal SLM，用户可以将行为与数据上传到iCloud上，然后经过脱敏定期Finetune属于自己的模型。
如果我们抽象来看，这就像是一个推荐系统算法，只是推荐系统算法是一个很稀疏的模型，只有不到10层，大部分的用户数据都存储在第一层，通过激活不同的参数来实现个性化推荐。
那在小模型时代，可以只存储你自己的参数，Predict Your Next Token，预测用户的下一个行为。
这就像自动驾驶场景，端侧公司有着最闭环的驾驶数据（用户数据），而且可以更安全地做到脱敏。

6. 未来的Personal Agent流量入口在手机不在Super App：

这几天我们又与十几位Top Research一起讨论了下Persenoal Agent的未来。
除了上面提到的Personal SLM外，大家都非常认同未来手机厂商做Personal Agent，是因为数据以及权限上的巨大优势，几乎是碾压现在App应用厂商自己做的Personal Agent。
这也让苹果在未来的应用生态上又拔高了一个身位。

7. 苹果与OpenAI合作了什么？

目前来看苹果大概率没有付钱给OpenAI，从现有的调用模式来看，GPT-4o应该也不在Private Computing。
整个的合作形式，相当于苹果给ChatGPT开了一级入口，苹果免费用ChatGPT的用量。
ChatGPT得到了近似于预装的机会，未来有升级到付费版的可能性。
如果苹果11亿DAU里面，有2亿DAU是ChatGPT付费版用户，那相当于OpenAI获取500亿美元的营业流水，苹果抽成100亿美元，然后Azure拿到200亿美元的GPU租金。
ChatGPT有200mn MAU的话，DAU估计在50mn左右，用了不到3万张H卡算力支持推理。如果iOS端全部用GPT-4o，能做到200mn DAU的话，相当于人数4倍*单人算力10倍，要到百万张卡的算力才行。如果未来用到Personal SLM的话，数字就更难估算了。

本文来自微信公众号：共识粉碎机（ID：botaijin），作者：Andy Liu

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

苹果WWDC，AI小模型的批发时代