扫码打开虎嗅APP
本文来自微信公众号:极客公园 (ID:geekpark),作者:Li Yuan,编辑:郑玄,原文标题:《端侧大模型,手机厂商的下一次入口级机会》,题图来自:《钢铁侠》
过去几个月,海内外的手机厂商纷纷入局,手机端大模型突然火了。
八月华为第一个宣布将大模型接入手机助手,小米、OV 紧随其后。就连一向“慢半拍”的苹果和三星,一个悄悄招人;一个则宣布会将大模型带到最新的 Galaxy 旗舰机型。
上游的芯片厂和下游的应用开发者也在行动。过去两个月里,高通和联发科,相继发布了能够支持在手机端运行百亿参数大模型的新一代手机芯片;Sam Altman 投资的 Humane,则在 11 月推出了 AI Pin,希望构建面向未来的操作系统。
大模型技术已经进入大众视野一年了。在手机上使用基于大模型开发的应用——比如 ChatGPT、妙鸭相机等,对于大模型的第一批尝鲜者来说,已经算不上新鲜。
看起来,用户并不会在意手机上的大模型,到底是在云端还是本地运行。手机和芯片厂商花这么大的力气推动大模型上手机,到底图的又是什么?
一、新的入口
手机厂商入局大模型的第一个目标,当然还是手机助手。
在大模型到来之前,手机助手受制于技术限制,智能能力不足,只有在特定提前写好指令的任务上表现较好。而大模型的自然语言能力,让手机助手的人机交互能力提升了一大截,大大提升了手机助手深度操控手机的能力。
“手机智能助手已经有好多年了,但是之前真的没人用。”OPPO 高级副总裁刘作虎曾谈到,“而大模型到来之后,未来手机一定是我们的超级助理,大模型可以带来影像、操作、文生图等多种体验的提升,这在未来是确定性的。”
在 OpenAI 的近期的发布会中,曾经做了一项通过 Zapier 链接云端数据,调用用户的数据,为用户提供更加个性化服务的展示,而在手机端通过手机助手运行大模型的方式调取这些数据,甚至可能比云端更加直接。
“手机端有大量的短信记录、个人照片、备忘录、日程等,将这些数据变成向量数据库,配合大模型的自然语言能力,就能进行更好的交互。”一位接近行业的人士告诉极客公园,“比如把用户的日程做成了一个数据库,离线保存在用户本地。当用户提问相关问题时,进行一个向量检索算法,就可以利用大模型的能力做出更智能的回答。全部数据还都不会离开手机,保证隐私不会被泄露。”
在近期的发布中,手机公司都强调了这方面的能力。
VIVO 的蓝心小 V,提到手机上万张的图片管理中,用户可以尝试直接以语义识别的方式说出照片的内容理解,让小 V 在相册中主动识别有对应内容的照片。
OPPO 的小布助手中,演示了小布助手帮用户接听电话并进行智能摘要的功能,当用户不方便接听电话时,小布助手可以直接帮用户接听电话,并将关键信息记录下来。
而最早将大模型接入手机的华为小艺,还曾经提到过,小艺可以通过自然语言交流,直接帮用户创建一个场景。比如“每周一到周五早上 6 点半播报当天天气。戴上蓝牙耳机的时候,就播放收藏的歌曲,并把手机设为静音模式”。
这样深度操纵手机的内容的能力,需要需要公司内部对手机系统的各项功能进行重新梳理,将其做成标准化的接口提供给大模型进行操纵,显然能够大大提升手机的使用体验。
另一位行业人士告诉极客公园,手机厂商在手机助手中部署大语言模型,背后的野心或许还不止于此。“原本所有的价值链都在应用内闭环。如果手机厂商有一个人工智能助手,理解用户需求,控制和调用别的应用,那么除了用户的体验会变,手机厂商和第三方应用的关系会发生彻底的变化。”
在目前,这样的应用控制已经在手机助手中初露端倪,尤其是在华为打造的鸿蒙系统中。在华为的展示中,用户已经可以直接和小艺同学用自然语言交互,沟通自己的需求,而华为再通过元服务拉起相关的 app,满足用户需求。
“如果用户接受了这套使用和交互逻辑,未来每个应用甚至都不用做太多自己的界面了,把自己的服务核心标准化后,跟用户交互的入口直接在被大模型驱动的手机助手中。”这位接近行业的人士表示。“甚至随着大模型控制 GUI 进展,比如微软使用 GPT-4 Vision 控制 iOS 这样的试验进一步发展,系统可以直接模拟用户点击,控制 app。掌握智能入口的一方,能够真正成为应用的入口。”
端侧大模型,正是手机厂商实现这一野心的最佳工具。
首先,手机厂商通常不提供云服务,无法获取廉价的云服务。而承接上亿用户的需求,背后需要大量的大模型算力支持。端侧大模型,能够让手机厂商节省掉这一部分的开支,使商业计划更加成立。
其次,手机厂商在利用端侧 AI 中有很强的优势。目前,无论是华为、小米还是 VIVO,采用的都是自研的大模型,可以在出厂前就与手机和芯片公司在底层上进行多次调整,与硬件达到最大限度的适配。在目前端侧大模型十分依赖于内存的前提下,手机厂商也可以通过把内存优先供给于自己的终端大模型,来保证终端大模型的运行。
另外。因为运行在终端,大模型的延时和依赖于网络状态的不确定性也能大大降低,能更好地完成“助手”的服务。
“我们在网络上看到的机器同声传译,很多时候,机器还不能做到同声,会一直在翻译他前面的话。而用端侧来做的话,同声传译没有延时。”小米 AI 实验室主任王斌博士向极客公园表示。
二、大模型上手机,还需要解决这些难点
华为、小米、VIVO 等许多公司目前都宣布了自己的手机助手已经具有了大模型能力,甚至已经开启了内测。不过目前,手机助手中的大模型能力,并不完全来自于边缘端推理,而是通常是端云结合的方式。
而在完全将大模型能力转移到端侧之前,入口级机遇,目前还很难实现。云端大模型的调用成本,会从根本上限制其盈利能力。Humane 推出 AI Pin,每月还需要交 24 美元的额外订阅费,其中很大的原因,也是为了打平云端 AI 的调用成本。
但要想让大模型上手机,目前还存在一些技术和产业的难点。
在大模型出现之前,手机作为一个边缘计算设备,已经可以运行许多 AI 相关的算法,尤其是运行视觉算法对图像进行处理,达到暗光拍摄、降噪、人脸解锁等功能。
比如著名的华为 P30 Pro 手机拍摄月亮事件中,手机端就是通过 AI 算法,为拍摄的月亮生成更多细节,使照片呈现出单靠手机摄像头无法呈现出的月球细节。
运行端侧大模型的推理,与过去手机的 AI 算法,最主要的区别在于,大模型更“大”。
即使是小的大模型,参数通常也需要达到十亿级,而普遍认为参数量达到 30 亿之后,大模型的思维链能力将上一个台阶——这和手机原本运行的参数量大概相差一到两个量级。
具体而言,大语言模型在端侧运行,主要对运行内存产生了挑战。
基于 Transformer 的架构的大模型,底层特点就是推理时,随着对话变长,计算复杂度会增高,而计算成本会提高,推理速度下降,而内存的占用也变高了。
服务器中使用服务器级别的芯片,比如 A100 有 80G 显存。即使用小规模的显卡,V100,也有 32G 的显存,可以防止模型跑的时候运行内存不够。而手机芯片显然远远达不到这样的水平。
因此,目前的一个主流的做法是对模型进行量化。
在大模型内部,权重原本由浮点数存储。例如,fp16 的模型,指的就是采用 2 字节 (16 bit) 进行编码储存训练的模型,而 fp32 的模型,是采用 4 字节(32 bit)的编码进行了储存训练的模型。
简单说,将浮点数改为占用内存更低的整数储存,就是量化。如果该量化从 32 bit 的储存降低到 8 bit 的储存,则整个大模型的内存占用可以降低 4 倍,而如果能够再降低到 4 bit 的储存,则会再降低两倍。
不过,可以想见,进行量化之后,大模型的精度和能力同时也会下降。
接近行业的人士告诉极客公园,一个六七十亿参数的模型,如果进行量化,大概占 2G-4G 运行内存不等,手机内可以运行。安卓的旗舰机,通常运行内存都能达到 16G 左右。
这也是高通等芯片公司努力研究的方向。“借助量化感知训练和/或更加深入的量化研究,许多生成式 AI 模型可以量化至 INT4 模型。基于 transformer 的大语言模型,在量化到 8 位或 4 位权重后往往能够获得大幅提升的效率优势。”高通 AI 产品技术中国区负责人万卫星表示,“使用低位数整型精度对高能效推理至关重要。”
在模型层面,RWKV 团队,也提出了一种另外的解决方式。RWKV 的大模型,不只基于 Transformer 架构,而是基于 RNN、CNN 架构对大模型进行了底层的改进,降低了模型的推理成本。
“不完全沿用 Transformer 架构的 RWKV,在用户对话后,每次会储存一个对话状态,生成时通过这个状态进行推理。这个状态只会变化,而不会变大。因此即使对话状态变长,或多个 agents 同时调用,RWKV 推理也不需要占用更多算力。性能不降,耗电也更友好。”RWKV CTO 刘潇告诉极客公园。
RWKV 认为,这样的大模型,有机会能在硬件能力更低的设备上运行。
极客公园近期得知,模型开发者 RWKV,目前已经推出了一款完全利用端侧的 AI 聊天应用,可以在 GitHub 上下载,运行的是 RWKV 的 1.5B 的模型。
模型本身是一个不需要量化的无损失 fp16 版本。而这样模型,对手机的要求却并不高,手机内存只需要 6G 就可以,这远远低于目前安卓的旗舰机配置,RWKV 表示千元机就足以运行。
RWKV 目前拥有两个端侧可运行的模型,分别是 1.5b 和 3b,正在训练 7b 的模型。开发者使用这样的模型,可以构建对话应用,也可以调用 function,使用音乐模型可以构建音乐相关的应用,性能指标和效率指标在 RWKV 的测试中都处于领先位置。
RWKV-5 模型在 RWKV 的测试中达到 SOTA 水平
RWKV 承认目前的架构下,对于对话上下文的准确性可能低于 Transformer 架构的模型,不过刘潇提到,在终端 AI 的应用中,如果进行角色扮演、情感类的对话生成、内容创作这样对出错容忍度更高的任务,RWKV 极具优势。
除了架构不同之外,RWKV 在芯片上的运行,也与普通的大模型有一些区别。
普通的大模型,主要需要在 GPU 中运行,而使用 NPU 对其进行加速,带来更大的访问带宽和降低访问延时。而 RWKV 的大模型除了可以这样运行外,可以运行于 CPU 中。对不专门具有人工智能加速芯片的手机,这样的运行方式可能是一个优势。
一位接近行业的人士对 CPU 运行大模型评价到:“正常而言,有专用的 NPU 芯片来运行大模型会更好。大量的 OS 的基础功能都在 CPU 上运行,如果算力越占越大是很危险的,系统可能会挂掉。”而 RWKV 在运行中不会增加内存占用的特性,使其能够在 CPU 上更好的运行。
三、端侧大模型,是否能赋能开发者?
终端大模型已经是一个确定的趋势了,但未来对手机的应用生态的影响仍然未可知。除了成为手机厂商的一个新的机遇外,端侧大模型是否能够赋能大模型应用的开发者?
对于开发者来说,使用端侧模型,最直接的好处,自然是算力的费用能够降低。
大模型创业者邱添接受极客公园采访时,对节省算力成本表示期待:“省推理的算力其实能帮开发者省很多钱。比如租一台 8 卡 A100 服务器的话,每个月可能就需要 6-8 万元人民币左右的预算,而且资源非常紧张,可能还需要排队才能租到。”
如果大模型能够在手机端运行,除了使用模型除了需要支付模型训练的费用外,模型运行的算力费用相当于已经在用户购买手机时提前支付了,算力的成本将大大节省。
算力成本的下降,将直接带来许多原先可能并不成立的商业模式变得成立,比如 AI 陪伴服务。
目前,虽然有一些相关产品的发布,比如 OPPO 宣布未来将开放基于 AndesGPT 面向开发者的智能体开发平台,手机公司将端侧大模型 API 开放给开发者使用的场景目前尚未实现。
不过,即使手机厂商没有开放端侧模型的 API 给开发者,也并不代表开发者完全无法利用端侧大模型的能力。
前述的 RWKV app 利用的方式是将大模型放进安装包运行。这样的运行模式,相对应的是,运行时如果内存占用过大,会面临被系统“杀”掉的风险。
不过,受限于端侧大模型的水平,能否使用端侧大模型构建应用也要看应用本身对模型能力的要求。
邱添告诉极客公园,如果应用对大模型要求比较高,必须微调而不是使用提示词工程的方式使用大模型的话,即使手机厂商开放了端侧大模型的调用,应用可能也无法用其完成高质量的推理任务。部分应用可能对模型推理速度有要求,那么端侧大模型目前的能力可能也比较难以满足需求。
随着终端大模型能力的增长,手机厂商是否会逐渐将终端大模型能力开放给开发者?还是将独自垄断新的入口级机遇?未来的商业变化值得期待。
本文来自微信公众号:极客公园 (ID:geekpark),作者:Li Yuan,编辑:郑玄