扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),题图来自:AI生成
或许是前段时间风头太盛,周末时,OpenAI静悄悄发布了新的研究作品:Swarm。一反之前的架势,这个新作只在官网的Cookbook和Github发布,官推都没有多讲。
除了非常安静和低调,开发人员还反复给自己叠甲:这只是一个实验性质的框架,只作为分享和教育用途。官方不质保,实用需谨慎!
明明已经这么低调,一出来还是被碰瓷了。
什么是Swarm?
Swarm旨在探索轻量级、可扩展、可定制的多代理协作模式。OpenAI的研究人员,提出了「routine」和「handoffs」概念,用来表达agent之间的任务传递。
然而Swarm才发布一天,麻烦就找上门来:一个二十多岁的开发者Kye Gomez发推称,这个新作从名字到框架,全都是抄袭他的创业项目Swarms。
这条控诉吸引了超过20万的围观,不过,围观群众都很冷静,要求Kye提供更明确的证据,并且质疑他提出的诉求:「除非OpenAI投资我们」,这什么东西啊?
很快就有网友翻出他的碰瓷前科。而且,从两边在Github上发布的README文档来看,显然也是OpenAI更靠谱一点。
我把文档送进了ChatGPT,用最新的o1做了一下分析,OpenAI提出了更详实和具体的想法。
至于说项目重名和一些常用指令重合,比如.run()——这就像是有人说自己的数学考卷被抄袭了,因为两边的答题框里都有个「解」字。
OpenAI的Swarm框架里,重点梳理了在多代理模式里的各种成分,并且提出了两个关键概念:例程(routines)和交接(handoffs),还提供了很多便于理解的例子。
例程可以把它理解为由不同步骤组成起来的一套「基本操作」,比如,你搭建了一个购物助理,那么你就可以规定一套流程作为例程。
但是一个agent能做的事,再多也是有限的。更何况大语言模型本身,多多少少会出幻觉。所以需要不同的agent、不同的routine之间有所交接。
就像一场接力跑,一个选手跑完一段,就要交接到下一个选手手上,而且要保证平稳,不能掉在地上。
这些才是本次发布里OpenAI重点关注的部分。或许说不上是什么惊为天人的大发现,但硬说抄袭,也是有点碰瓷了——非要追根溯源,那得倒回几十年前。
多智能体最擅长的,竟然是打游戏
OpenAI并不是才开始对多智能体协作发生兴趣的,早在2018年,就有过不错的表现——在Dota 2职业比赛上,击败了资深的人类玩家。
游戏是一个天然适合用来测试多智能体的土壤,不同的角色,有不同的技能;面对不同的对手,要有不同的策略,总之,想要赢下一局游戏,势必要协调各个角色,并且组织好它们之间的协作能力。
想想你打王者碰到猪队友时有多气,就知道这个难度了。
当时OpenAI Five涉及的技术构件包括神经网络、自训练、强化学习等,没有时下流行的大语言模型,主要是用来试验多智能体协作。
甚至,那个时候每个英雄各自背后的神经网络,并不互相沟通,而是有一个负责总控的超参数,来协调每一个英雄(主要是背后的神经网络)的表现。
再往深了讲就有点太深了,总之,那几年的经历,让OpenAI连续三年打赢了几个Dota2的大赛,也在多智能体协作方面颇有收获。
到了2019年,DeepMind开发的AlphaStar在《星际争霸2》中,水平超过了99.8%的人类玩家。
在星际里,有人族、神族和虫族三个派系,每个派系都有多个可供操作的建筑、兵种,每局游戏也都需要经历资源采集、科技发展和实时战斗等几个流程。
当时DeepMind发表论文时就提到,游戏是一个多智能体协作的任务,每个玩家需要控制许多单位,共同实现目标。
DeepMind所设计的agent,每分钟操作数约为180次,大概等同于中级玩家。当时他们的想法是:智能体要尽可能地学习人类玩家的游戏操作,然后超越人类。
这样的「类人」思路,甚至可以追溯到更久之前:早在1972年,卡尔·休伊特(Carl Hewitt)就提出了Actor Model(行动者模型),这是并发计算的概念模型。演员模型提出了独立计算实体(agent)可以通过消息传递进行通信的概念,为智能体之间的交互奠定了理论基础。
到了九十年代和千禧年初,agent就更加明确地,被视为能够自主行动、决策的「赛博实体」,并且有了基于智能体信念、意图进行决策和规划的研究,BDI模型。
等到了大语言模型横空出世之后,多智能体的交互、决策沟通,从原来的黑盒,变得更容易转化成自然语言。
智能体之间,也可以通过语言来讨论、协作,特别是在决策情境中,不同的智能体之间能够「有商有量」。
之前我们介绍过面壁智能曾经做过的研究,也是在Minecraft,一款沙盒游戏里——不得不说,多智能体实在是太擅长打游戏了。
在游戏里,不同的智能体可以直接对话来完成分工、资源互通和任务传递。大语言模型的推理和记忆能力,都能更有效地为多智能体的行动提供支援。
而OpenAI不就在于有厉害的模型吗——年初时,他们借由ChatGPT灰度测试过,在对话框内,可以召唤其他GPT插件,也算是一种多智能体协作的「平替版」。
只是效果着实不咋地,尝试了一下Capcut的插件,一直鬼打墙地跳转不成功(注:Capcut是剪映的海外版)。
可以说,这一次的Swarm是OpenAI探索充分调动自己的优势——强大的基座模型——再进一步摸索出一个多智能体的工作流程框架。
好消息是,在从OpenAI变得越来越「吝啬」之后。这次Swarm倒是开源出来了。大语言模型让多智能体系统能够以更加自然的方式与人类互动。相信在未来,这种交互绝不仅限于简单的对话,而是会更多地提高生产力。
本文来自微信公众号:APPSO (ID:appsolution)