扫码打开虎嗅APP
本文来自微信公众号:APPSO(ID:appsolution),作者:莫崇宇,原文标题:《苹果首次公布自研模型细节! 揭秘 Apple 智能怎么炼成,即使没有 GPT-4o 也能打》,题图来自:视觉中国
苹果发布会刚开到一半,Apple 智能(Apple Intelligence)的词条就已经席卷了热搜榜。
发布会上,苹果官宣牵手 OpenAI,GPT-4o 将被正式融合到 Apple 智能系统。
尽管苹果高管 Craig Fedrighi 对外表示,OpenAI 仅仅是入选者之一,但这场看似珠联璧合的合作却还是躲不过外界的“挑刺儿”和“吃瓜”。
就连马斯克都来凑热闹,先是给苹果的隐私保护打了个差评,接着放狠话说要禁用苹果设备,不过,剧情总有反转,据 CNBC 报道,马斯克已经撤回了针对 OpenAI 及其 CEO Sam Altman 的诉讼。
另外,还有细心的网友发现新版 Siri 似乎真能读取手机上的所有应用程序,究竟真相如何,不妨翻阅一下苹果最新发布的博客,或许这里面隐藏着答案。
端云混合,30 亿参数端侧模型有惊喜
Apple 智能走的是两条腿并行的路,即端侧模型和云端大模型。
云端大模型自不用提,庞大而复杂,需要在苹果的芯片服务器上运行,并且还能够处理更专业、更复杂的任务。
而在端侧模型上,Apple 智能拥有一个大约 3B 参数的模型。在国内普遍徘徊在 7B 的水平线面前,苹果的 3B 参数显得有些低调。
一般来说,考虑到端侧设备计算能力和存储空间有限,参数越多,模型的学习能力越强。尽管苹果这个端侧模型只有 3B 参数,但也是“四两拨千斤”的标杆之作。
在过去的一整年, 类似这种大有打破“Scaling Laws”的案例我们可没少见。
比如微软最新的 Phi-3-mini 模型,只用 3.8B 参数就敢与 7B 大哥叫板。又或者,跑在 Google Pixel 8 Pro 上的 Gemini Nano 分别只有 1.8B(Nano-1)和 3.25B (Nano-2)。
比起纸面参数上的较量,苹果主打一个用户的体验才是王道。
博客透露,苹果采用了很多真实世界中的例子来测试模型的实际效果,从分类、问答、数学推理、到开放式问答、安全性、总结和写作,可谓是应有尽有。
而且,就算是和 Phi-3-mini、Gemma-7B、Mistral-7B 等模型同台竞技,在人类“评委”的投票下,苹果的端侧模型也都是众望所谓的佼佼者。
苹果对 AI 的追求,不仅仅是好用,更是安全。
比如在测试处理有害内容、敏感话题和事实准确性的能力上,苹果基础模型也都是下足了功夫,违规率远低于绝大多数模型。
作为一家坐拥超过 22 亿活跃设备的巨头,苹果在违规率上的选择似乎只有低和更低。这其实也与苹果一贯的安全措施相吻合。
它必须了解你,并基于你的个人背景,比如你的日常生活、你的人际关系、你的沟通等等,所有这一切都超出了人工智能的范围。这是个人智能,也是苹果公司的下一个重大举措。
库克的这番话虽然口头上处处不谈隐私,但字里行间全是隐私的雷点。
假如 AI 成了我们的“第二大脑”,隐私保护就不可以也不能是摆设。苹果给出的方案是,Apple 智能是要深深扎根在 iPhone、iPad 和 Mac 里,这绝非功能或者服务,而是要成为系统的一部分。
但也正是因为如此,马斯克声称如果苹果对 ChatGPT 是系统级别的集成,他将禁止员工将 iPhone 带入特斯拉。
不过,或许也不用过于担心这个问题,Apple 智能背后的模型主要分成三层。
本地模型:主要是经过微调的 3B 小模型,专用于摘要、润色等任务,经过适配器的加持后,能力不弱;
私有云计算:本地模型满足不了要求的,会传到云端运算。苹果确保端到端加密,保障用户数据的安全和隐私;
第三方 LLM:用于泛用的知识问答聊天,如 Siri 等应用接入了 GPT-4o 等外部模型。
也就是说,苹果本质上还是将 OpenAI 的 ChatGPT 模型视为一个插件,也可能跟其他模型合作。如果苹果自研模型足够强,苹果自然可以完全淘汰第三方 LLM。
另外,博客也提到,Apple 智能系统还包括其他一些模型,比如可以帮助程序员在 Xcode 中编写代码的模型,以及帮助用户在发短信时能够更直观、有趣地表达自己想法的扩散模型。
Apple 智能是如何炼成的
如果你想在电脑上制作视频,那你需要安装一些额外的应用程序。在 AI 模型的世界里,苹果模型背后用到的“适配器”也是同样的道理。
简单来说,适配器即一些模型权重的小集合,相当于一个小型的插件,让模型能够快速适应不同的任务。
例如,模型处理邮件和通知的总结,看起来差不多,但实际上有许多细微的差别,所以苹果给模型加上了一个叫做 LoRA 的适配器,让它能更好地完成这种任务。
苹果还特别挑选了 750 个不同的总结来测试实际效果,结果发现,用了适配器的模型确实比别的模型做得更好。
苹果的诀窍在于,只调整这些适配器,而不动基础模型的“出厂设置”。这样做的好处是,模型保留了它原有的广泛知识,同时又能够通过适配器来学习一些特殊的技能。
更重要的是,每个适配器占用的空间不大,哪怕模型有 30 亿参数的模型大脑,也不过占几十兆的“脑细胞”。
要想让模型学得好,数据的质量非常关键。
苹果在训练模型时采取了一种混合策略,选择用人工标注的数据和苹果自己生成的数据一起训练。
至于在训练这些基础模型时,苹果用的是一些经过许可的特定数据,包括一些专门挑选出来增强模型特定功能的数据,以及用网络爬虫 AppleBot 从网上收集的公开数据。
苹果还强调,在训练这些基础模型的过程中,苹果并没有用到用户的私人信息或者用户的任何交互数据,甚至还特别小心地用过滤器去清除那些在网上公开的个人信息。
训练过程中,苹果开发了两种新的技术手段来提高模型的效果:
具体来说,第一种方法是在训练时,苹果会让模型参考一些“老师”的意见,这些“老师”会帮助模型在遇到不确定的情况时做出选择。
第二种技术叫做基于人类反馈的强化学习(RLHF),它是用一种特殊的优化策略和留一算法来调整模型,让模型能够更好地估计自己的输出是否准确。
通过这两种方法,模型在执行任务时的准确性有了很大的提升,学得更快、更准确。而在解决手机和云端服务器资源有限的问题上,苹果也施展了好几个新招数:
分组查询注意力(grouped-query-attention):优化模型处理文字的方式;
共享输入输出词汇表:端侧模型拥有 49k token,云端模型拥有 100k token,且包含更多的语言和技术相关的词汇;
低比特量化(low-bit palletization):在减轻手机电量和内存压力的同时,让模型运行得更快;
混合配置策略:采用 2 位和 4 位配置的策略,即使在有限的空间里,也能保持和没有压缩的模型一样的准确性;
Talaria 工具:帮助模型选择最合适的“传输速度”;
激活量化和嵌入量化:让神经引擎上的键值缓存更灵活更高效。
随着这些优化策略一一落实,苹果的模型在 iPhone 15 Pro 上的表现足以令人瞩目,每个 token 的处理时间仅需 0.6 毫秒,而且每秒能生成 30 个 token。
这还不算,苹果还“藏着”一些技巧可以让 token 的生成速度更快,不过苹果在博客中并未透露太多。
实际上,Apple 智能的登场谈不上早,但也算不上太晚。
晚的是,在其他 Android 厂商早在 AI 手机赛道上驰骋了一两年时,苹果似乎只是在一旁静静地观察,直到最近,才缓缓地迈出自己步伐。
但别忘了,苹果作为全球领先的终端消费场景制造者,它的每一个动作都牵动着市场的脉搏。简言之,在 AI 的实际落地场景中,苹果才是不可或缺的那一个。
这就好比,将 AI 命名为 Apple Intelligence,表明上看是一个巧妙的“谐音梗”,但从更深层次来看,当 Apple 智能融入苹果的生态系统,这本身就是一种实力和自信的象征。
当然,在此之前,无论是厂商在 AI 赛道上的博弈也好,还是无法回避的隐私问题也罢,我更感兴趣的是,国行苹果设备的 AI 功能究竟会花落谁家?
博客原文:https://machinelearning.apple.com/research/introducing-apple-foundation-models
本文来自微信公众号:APPSO(ID:appsolution),作者:莫崇宇