扫码打开虎嗅APP

No.1

2024-07-10

热AInext 热AI Next

AI大模型迎来三波浪潮,中国如何突围?

主理人:
Scaling Law的放缓,为中国人工智能打开了一段应用落地的窗口期。

陈庆春/文

 

在Scaling Law(规模与性能的幂律增长规律)若隐若现、似要消失,大模型越来越难找到代际感的今天,中国独有的规模优势或许将在人工智能领域“涌现”。

 

 

 

有人正努力让人工智能更像人:2024年世界人工智能大会(WAIC),爆发式展示了25款人形机器人,且都被冠以“具身智能”的身份,也就是机器人的身子被AGI(通用人工智能)技术赋予了智慧的大脑。

 

有人努力让AI落入现实:支付宝推出智能助理,问一问就能获得订票、问诊、查旅行攻略等超8000项数字生活服务;拥有7亿用户、1100万应用的钉钉也已经跑出来了50万个AI助理;联想则推出了内嵌智能体、能与用户自然交互的AI PC。

 

百度CEO李彦宏所言“不要卷大模型,要卷应用”在网上被热传,蚂蚁集团董事长兼CEO井贤栋则说:“在人工智能时代,我们在探索,让AI像扫码支付一样便利每个人的生活。”

 

在AIGC(生成式人工智能)大模型技术苦苦寻找应用场景时,中国拥有超大规模用户的平台纷纷下场了。或许还稍显缓慢,但平台的集体出手与探索,让我们有理由期待中国人工智能被动跟随的局面能被改写,特别是在连接个体生活应用的端侧,或将掀起人工智能发展的第三波浪潮。

 

第三波浪潮:大模型即将接管生活

 

Scaling Law是被人工智能领域普遍接受的幂律增长,即:语言模型的性能随着模型大小、数据集规模和训练计算量呈现幂律关系。这意味着在一定范围内,增大模型规模和数据集规模,能够显著提升模型性能。也就是业内常说的:模型越大,性能越好。

 

但最近半年来,Scaling Law明显放缓,OpenAI也不得不承认,GPT5.0版本要等到明年才能推出。而造成这一现象的根本原因在于,全球普遍出现了算力和数据的供给短缺,特别是数据规模量陷入了极大的瓶颈。机器吃不饱,就导致了大模型的性能输出侧无法完成高质量输出。

 

在这种情况下,大模型就一直无法解决机器幻觉、高错误率的问题。MiniMax创始人、首席执行官闫俊杰认为,GPT 4存在30%~40%的错误率,国内大模型整体上也存在60%~70%的错误率,要想让AI从一个辅助人类的工具到能独立完成工作,为社会创造更大的价值,最核心的一点是整体降低大模型的错误率。

 

大模型技术的发展似乎陷入了一个恶性循环的怪圈,大模型的性能提升需要大量使用后的数据投喂,但大模型的错误率又让人们不敢大规模使用。如何破局?

 

业内还发现一个现象,将大模型缩小规模至特定的专业领域,Scaling Law依然在发挥价值,向专业大模型投喂专业知识库,模型依旧呈现能力的巨大提升。比如多模态领域近一年来进展便神速,在今年WAIC现场,商汤展示了可控人物视频生成大模型Vimi,可将静态图片生成1分钟唯美视频;支付宝也发布了多模态医疗大模型,并将与20家机构联合发起AI医疗共建计划。

 

Vimi 使用情深深雨濛濛视频片段作为控制生成的长视频

 

到今天为止,大模型并不是越大越好,也不是只有将性能力发展到惊艳才能使用。如果缩小规模,放至特定的场景使用,也可以实现数据规模与性能提升的良性循环。

 

回顾大模型的发展不过两年时间,已掀起了三次浪潮,且越来越锁定特定场景。

 

第一波浪潮,是OpenAI训练的大语言模型的横空出世,带给人类的震撼是,机器可以跟人用自然语言对话,拥有人的逻辑思考、推理、总结、规划以及多模态生成能力,中国厂商随后全面跟进,也生长出多个大语言模型创业公司。这一波的应用以聊天对话框的方式出现,如国外的ChatGPT,国内的文心一言、腾讯元宝、通义、豆包、Kimi等。

 

第二波浪潮,微软、谷歌基于大语言模型做系统重构,发起生产力工具端的变革,如微软在Windows、Azure系统中全面应用Copilot智能体调用大模型能力,以及对PC这一生产力工具的系统级改造。谷歌则用来全面改造搜索工具。中国企业百度也在第一时间用自研大模型重构了所有业务,之后钉钉用AI助理连接了B端企业场景应用,发起了更广泛的智能化场景改造。这波浪潮最大的特点是聚焦工作场景的智能提效。

 

第三波浪潮,开始触及普通人的生活,最先让人感到变化的是苹果。苹果发布的苹果智能(Apple Intelligence),从技术上看并无惊艳之处,但它带来的冲击在于连接了个体生活。比如你可以让Siri给你出个菜单,制定机场接人的最佳路线和时间,找到上周与朋友一起烤肉的照片,设计一下自己的花园,等等。

 

紧随其后,华为发布了“鸿蒙原生智能”(Harmony Intelligence),应用路径与苹果异曲同工。小艺智能体就类似Siri,成为个体生活中的助理,比如小艺把摄像头看到的世界读出来,帮助视障用户,“看清”身边的世界。

 

苹果与华为,在与人生活最紧密的端侧,打开了大模型在生活应用中的巨大想象力。但遗憾的是,这些设计想要真正落地还得等到明年了。

 

在生活应用端,还有一个超级App正悄悄发力。支付宝今年4月在首页设置了下拉入口,只要向下一拉,“智能助理”就能被唤出。这个“智能助理”类似于Siri,在融入支付宝平台生态后,就可以通过说话,连接出行、健康、便民服务、吃喝玩乐、消费管理等支付宝已有的生活服务。

 

比如“点单”这个功能,只要对智能助理说一声“我想点一杯瑞幸的大杯冰拿铁”,AI便会进入小程序自动下单,用户确认并付款后,就能到附近的线下门店取到咖啡。

 

在特定场景内、使用特定的专有知识库、实现特定的功能,Scaling Law也会继续发挥价值,让特定场景的智能助理通过数据投喂变得越来越聪明。

 

大模型融入人类生活的想象空间,已然打开,并有理由期待其获得快速发展。

人类开启了AGI大模型技术的第三波浪潮,但并不意味着第一波浪潮和第二波浪潮的终结,三者并驾齐驱,在未来的发展过程中,有可能一浪更比一浪高,我们逐浪前行。正如AI与量子计算的相辅相成,互相促进。

 

这意味着,在第一波浪潮中落后的企业,有可能通过逐浪第二波和第三波浪潮,变成领先者。过去我们曾纠结于中国人工智能落后美国1-2年,现在重新打开了视野。

 

平台企业的机遇:重构与创新

 

第一次浪潮掀起的第一波应用,许多已走向消亡。

 

一家名为“DANG!”的网站,收集了大量已经死亡的基于大模型开发的应用,大约已有700多家。这张网页被称之为“AI Graveyard(AI墓地)”,名单上几乎全部是创业公司套壳大模型的应用产品,文生图、文生视频、代码优化等。

 

 

AI墓地的出现,说明了两个问题:

 

第一,基于大模型自身的性能,单独做出一个应用,还支撑不住,next big thing仍未出现;超级App拥有广泛的典型刚需场景,与大模型结合或可产生质变,而大模型原生应用的爆发点,也许来源于旧技术未满足的需求。

 

第二,大模型因涉及数据、算力的规模性需求,草根创业难占优势,大模型天生对平台企业友好。

 

平台企业拥有规模用户和应用场景,每天产生大量数据,也更能支撑大量算力的成本。目前,平台企业投资大模型创业公司时,大多都采用了算力投资的方式,容许创业公司使用算力资源,从而获得相应的股份。

 

所以,在第二波和第三波浪潮中,那些错过第一波浪潮的大企业更容易赢得反转。微软并不自建大模型,谷歌的Gemini大模型也落后于ChatGPT,但两者均已受益于大模型。微软自不必说,纳德拉自称“一直都与技术范式的发展共进步”,宣布推出AI PC后其市值创历史新高。谷歌在大模型的加持下,搜索、云等业务均实现了双位数增长。

 

大模型对于大企业来说,正是一次难得的业务重构的机会。钉钉对于AI助理的使用,吸引了大模型创业公司和机器人创业公司等前沿技术创业公司的加入,也给传统企业的智能化带来了新的想象力;浙江卫健委利用支付宝“AI就医助理”解决方案,推出全国首个数字健康人“安诊儿”,服务覆盖挂号、咨询、用药、健康科普等26个环节,也已应用在浙江省内上千家医疗机构。

 

 

第二波浪潮中的大企业,已经获益匪浅,相对于仍在焦虑地寻找应用、以求增长的大模型企业(包括OpenAI在内)来说,他们的路径却相对扎实。即便是身处第三波浪潮、还未落地的苹果公司,也因大模型加持下的路径规划而获得了新的增长。

 

苹果在演示被AI升级的Siri时,所举的例子是“如果邮件通知了一个临时会议,那么我还能赶上接下来女儿的演出吗?”看上去并不性感,但其市值的高涨却说明了外界的期待与看好——人人期待AI能从“通用”走向 “有用”,服务更多普通人的生活。

 

最近一些国内国民级产品的AI布局,也有相似的趋势。在支付宝智能助理已实现的功能中,就包括“查查上个月我花了多少钱”、“附近三公里最便宜的充电桩”、“帮我点一杯霸王茶姬的奶茶”、“帮我查明晚七点后从上海飞北京的航班”等服务。

 

从便捷到智能,从通用到有用的产品转型,这条战略诉求,说起来容易,做起来却很难。

 

生活的场景远比企业办公场景复杂。拿支付宝来说,每天有超5亿用户用它日常出行,每3人中就有1人通过支付宝看病就医,每天还有近7亿人次使用非金融的生活类服务。所以,AI对支付宝的焕新,并不是简单加入一个自然语言聊天对话框那么简单,它需要的是科技对整个服务系统的重构。

 

几亿用户来了,支付宝该为每个不同的个体提供什么样的个性服务?首页下拉就能打开的智能助理,仅仅是个入口,也只是个开始。

 

 

一个生活服务平台,接入智能助理时,需要具备三个条件:第一足够了解个体用户;第二拥有大模型世界知识与现实生活知识;第三具备服务能力、规划能力、链接能力,能帮个体真正解决实际问题。

 

此外,在整个重构过程中,还需要平台不断创新。比如特别是对于平台企业来说,无法调用商用生活类小程序数据接口时,那它怎么做到精准下单呢?支付宝的解决方案是,创新研发了ACT(Transformer for Actions)智能服务技术,让智能助理具备屏幕感知与仿真执行能力,就像让AI有了“眼睛”和“手脚”,模仿人去小程序下单付款。未来我们有理由期待,AI能够连接支付宝的400万小程序,让我们能实现一句话点餐、挂号、订票。

 

与生活相关,便与琐碎相关,每一个细节都必须精耕细作,对于平台企业来说,难度可想而知。不过,一旦业务重构完成,AI的智能助理会更具想象力,它能让每个人都用到大模型能力,从精英到普通人,从年轻人到老年人,实现AI的人人可享——这才是AI改变世界的样子。

 

移动互联网诞生10年后,才迎来智能手机的爆发式增长。AGI时代才刚刚开始,我们应该给技术一段时间来孕育更大的改变。

 

中国人工智能开启突围模式

移动互联网时代,中国诞生了微信、支付宝、抖音、美团、小红书等超级应用,并拥有全球产销量规模最大的手机、PC等智能终端产品。在B端,中国制造业规模已连续11年位居全球第一,拥有最完整、最丰富的产业链应用场景。

 

中国还在不断开拓新的AI应用场景,中国新能源汽车产销量已连续9年全球第一。据香港“对比法”技术市场研究公司最新的预测,2024年中国的纯电动汽车销量将是北美的4倍。AI加持的智能驾驶,无疑也值得期待。

 

在机器人领域,中国的进阶拓展也一直处于领先位置。2023年,中国工业机器人销量已占全球一半以上,连续10年居世界首位。生活服务型机器人的产销量亦在稳步上涨。

 

如同移动互联网时代,在人工智能时代一旦进入应用阶段,中国依然拥有无可比拟的规模优势。百度、钉钉、支付宝、华为等平台企业的责任,就在于调动中国的这种优势,在B端和C端掀起的两次浪潮,连接千行百业、千家万户。

 

百度李彦宏说,超级能干的应用比只看下载量的超级应用可能要更重要,只要对产业、对应用场景能产生大的增益,整体的价值就比移动互联网要大得多。李彦宏希望,用大模型提效每一个行业、每一个场景。

 

钉钉集团总裁叶军称,钉钉坚持开放底模型,希望钉钉站在巨人的肩膀上,为每一个企业探索大模型的应用场景,从客户场景出发,探索大模型最务实的落地方式。

 

蚂蚁集团井贤栋称,希望AI像扫码支付一样便利每个人的生活,让AI走进寻常百姓家。除了支付宝智能助理,蚂蚁集团也将推动大模型落地重点聚焦在医疗、金融两大垂直行业。越复杂的领域,越需要生产力工具变得简单。

 

无论是行业、企业还是个体生活,大平台对大模型技术的应用场景开发,获得的海量数据,又会反哺大模型技术的提升。OpenAI奥尔特曼曾感慨,目前中国正有大量模型在被训练,这种趋势会持续下去。他预计中国会有自己不同于世界其他地方的大模型。

 

未来,一切反转皆有可能。凭借丰富的大模型场景应用,马斯克的大模型能力有可能超过OpenAI,而拉长时间周期,像移动互联网那般,中国人工智能应用也有望实现突围。或许说,我们都期待这样的突围。