扫码打开虎嗅APP
本文来自微信公众号:自然系列 (ID:nature-portfolio),作者:Elizabeth Gibney,原文标题:《帮人做晚饭、跑腿和叠衣服,AI可以帮助机器人做到这些吗? |〈自然〉长文》,题图来自:AI生成
对于看着《星球大战》长大的这一代科学家来说,屋里屋外仍见不到如C-3PO般智能的机器人,实在令人失望。那些能够在工作生活中为我们提供帮助的人形机器人,到底何时才能出现呢?
人工智能技术的快速发展或能填补这一空白。美国斯坦福大学机器学习和机器人研究人员Alexander Khazatsky说:“如果下一代人就能目睹那些科幻场景变为现实,我也丝毫不会感到惊讶。”
从OpenAI到谷歌DeepMind,几乎所有人工智能领域的科技巨头,都在致力于将支持聊天机器人的多功能学习算法(即基础模型)引入机器人领域,从而使机器人具备常识,有能力处理各种任务。许多研究人员认为,未来机器人功能将更强大,反应将更迅速。
美国科技公司英伟达的机器人营销经理Gerard Andrews说:“我们相信机器人行业将迎来巨大变革。”今年三月,英伟达公司发布了用于人形机器人的通用人工智能模型。
与此同时,机器人还能促进人工智能的发展。许多研究人员希望,在人工智能训练中,通过引入环境互动实现“人工通用智能”,即人工智能在处理各项任务时展现出类似人类的认知能力。美国Meta公司的人工智能研究员Akshara Rai说:“具身智能是通向真正智能的最后一步。”
不过,尽管许多研究人员对将人工智能引入机器人行业感到兴奋,但他们也提醒说,一些看着很厉害的演示也仅仅只是演示而已,往往是希望引发热议的公司所为。美国麻省理工学院的机器人专家Rodney Brooks认为,从演示到实际应用,任重而道远。其公司iRobot研发了Roomba扫地机器人。
人工智能与机器人融合之路阻碍重重,例如,需要收集大量合适的数据供机器人学习,解决硬件稳定性以及安全性等问题。新加坡国立大学人机互动专家Harold Soh认为,“应该探索”用于机器人的基础模型。然而,这能否像一些研究人员所愿触发机器人行业的革命,他对此持保留态度。
坚实的基础
机器人这个词的内涵包括了各种自动化设备,从广泛用于制造业的机械臂,到自动驾驶汽车和用于战争和救援任务的无人机。多数机器人都不同程度地应用了人工智能技术,例如物体识别。美国机器人公司创新中心MassRobotics的联合创始人Joyce Sidopoulos指出,这些机器人一般用于执行特定任务,在特定环境中工作,或在一定程度上还需要人工控制。
美国机器人公司Boston Dynamics研发的机器人Atlas,曾在2018年展示了令人惊叹的跑酷技能。然而,即使是Atlas,也需要在全面探测周边环境后,基于内置模板库选择最佳行动方案。
大多数涉足机器人领域的人工智能专家,希望研发出行动更自主、适应性更强的机器人。Sidopoulos说,他们的工作可能始于工厂“取放”产品的机械臂,最终或能研发出为老年人提供陪伴和支持的人形机器人,“应用领域非常广泛。”
人形机器人在设计上很复杂,而且可能不适用于某些任务,但它有一个巨大优势,即完美融入人类构建的世界,像人一样与周围的环境互动。
然而,控制机器人非常困难,人形机器人尤甚。那些看似简单的任务,比如开个门,实际上却非常复杂,要求机器人了解门开合的不同机制,对把手施力大小,以及如何在这个过程中保持平衡。现实世界变化不仅多端,而且持续变化着。
目前流行的机器人控制方式,是使用驱动ChatGPT等聊天机器人和图像生成器的人工智能基础模型。这类模型基于类似大脑的神经网络,学习大量通用数据。它们将训练数据的不同元素相互关联,收到输出指令时,利用这些关联生成恰当的单词或图像,结果往往令人惊叹。
同样,机器人基础模型也通过互联网上的文本和图像进行训练,获取物体性质及环境等信息。它还能从机器人操作实例中学习。例如,观看视频中机器人根据指令反复尝试或人类远程操作机器人,辅以相应指令,可用于训练机器人基础模型。经过训练的机器人基础模型可以观察场景,并利用所学来预测什么操作能带来最佳结果。
谷歌DeepMind公司研发的机器人基础模型Robotic Transformer 2(RT-2)处于业内领先水平,可用于操作其姊妹公司Everyday Robots打造的移动机械臂。同其它机器人基础模型一样,它也是用互联网和机器人操作视频进行训练的。
得益于线上训练,即使指令超出视频学习范围,RT-2也可以完成指令[1]。例如,它可以按照指令将饮料罐放到泰勒·斯威夫特的照片上,尽管RT-2观看的13万个操作示例中并没有出现过这位明星的图像。
换言之,机器人能将从互联网中获取的知识(比如歌手泰勒·斯威夫特的长相)应用于操作中。美国谷歌DeepMind公司的人工智能和机器人研究员Keerthana Gopalakrishnan指出,“机器人能够迁移应用由互联网习得的概念”,这从根本上减少了机器人为应对不同情况而需要学习的数据量。
然而,要完全理解动作的基本原理及其影响,机器人仍需学习大量操作实例。问题就在这里。
数据匮乏
聊天机器人可通过互联网中浩如烟海的词汇进行训练,但我们无法找到同等量级的机器人行为的数据。Khazatsky说,数据的缺乏让机器人技术止步不前。
一个办法是收集数据。Khazatsky和同事创建了开源数据集DROID[2],收录全球18个实验室远程操作德国Franka Robotics公司制造的Franka Panda 7DoF机械臂的视频,时长约350小时。这些视频以机器人视角录制,操作环境包括浴室、洗衣房、卧室和厨房等。Khazatsky说,场景的多样性有助于机器人出色完成未曾接触过的任务。
接到指令“找出灭绝的动物”后,谷歌RT-2机器人从桌上一堆物品中选择了恐龙玩具。图片来源:谷歌DeepMind
Gopalakrishnan参与了十余个实验室的联合项目,致力于收集从单机械臂到四机械臂等多种形态的机器人数据。他们认为,学习一类机器人与现实世界交互的经验,有助于人工智能操控其它类型的机器人,就像学习英语可以帮助语言模型生成中文,因为不同语言所描述世界的基本概念是相同的。这似乎是可行的。该项目研发的基础模型RT-X已于2023年10月发布[3],与基于单一机器人架构训练的模型相比,它在实际任务中表现更出色。
许多研究人员表示,这种多样性至关重要。人工智能专家、美国人工智能公司Covariant联合创始人陈曦(Peter Chen)说:“我们认为,真正的机器人基础模型不应该只囿于一种机器人形态。”
Covariant也在努力扩大机器人数据库规模。该公司由前OpenAI研究人员参与创建,他们自2018年开始收集30种机械臂的数据。这些机械臂来自全球各地的仓库,均使用Covariant的软件。Covariant的Robotics Foundation Model 1(RFM-1)采集的数据不仅有视频,还包括货物重量、施力大小等传感器读数。Gopalakrishnan解释,理论上,这类数据有助于机器人处理柔软的物体,例如使它学会避免挤压香蕉。
Covariant建立了一个专有数据库,数据量达到数千亿token(现实世界的机器人信息单位)。陈曦介绍,这与OpenAI 2020年发布的大语言模型GPT-3的训练数据规模相当。他说:“我们拥有的这类数据最多,这是我们一直以来关注的重点。”陈曦表示,RFM-1即将发布,届时搭载Covariant软件的机器人的操作员,就可以用文字或语音发布一般性指令,例如“从储藏箱中取出苹果”。
另一种获取大量动作类视频的方法针对于人形机器人,让人工智能通过观看真人视频来学习——网络上能找到数以十亿计的真人视频。Andrews举例说,英伟达公司的GR00T基础模型正在学习人类执行各种任务的视频。Gopalakrishnan说,尽管模仿人类有望提高机器人技能,但这并非易事。她解释道,机器人视频一般都附有背景介绍和对应指令等信息,而真人视频则没有。
虚拟现实
研究人员说,获取交互数据的最后一个可行方法是模拟。许多机器人专家正在研究建立三维虚拟现实环境,其物理机制与真实世界类似,然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据,让人类和机器人在罕见或危险的虚拟场景中互动,这样既没有风险,也不会造成机械损伤。英伟达公司的Andrews说:“如果你有大量机械臂,想通过实操练习让它们变得灵活,那电机恐怕要过热报废了。”
然而,打造性能优良的模拟器也不容易。Khazatsky说:“模拟器物理特性优良,但还达不到完美的程度,要模拟多样化的场景,难度几乎与收集多样化的数据相当。”
Meta和英伟达公司都押注通过模拟增加机器人数据。他们分别建立了复杂的模拟世界Habitat和Isaac Sim。在这些模拟世界中,机器人在数小时内就能获得在真实世界数年才能积累的经验,然后在试验中成功利用所学应对现实世界中从未遇到过的情况。Rai说:“模拟是推动机器人技术发展的强大工具,但却未得到足够的重视,我很高兴看到它的发展势头越来越好。”
许多研究人员认为,基础模型能够制造出可替代人工的通用机器人。今年二月,美国机器人公司Figure获得6.75亿美元投资,用于研发搭载OpenAI语言视觉模型的通用人形机器人。在一段展示视频中,机器人得到“给我一些食物”的模糊请求后,给人拿来了一个苹果。这段视频在X(前身为Twitter)上的点击量已达480万次。
这个机器人的基础模型是如何训练的,它在不同环境中具体表现如何,目前尚不清楚(OpenAI和Figure都未回应《自然》的采访请求)。Soh认为应谨慎对待这种展示。他说,视频中的环境非常空旷。提高环境的复杂度可能会让机器人感到困扰,就像自动驾驶汽车难以应对复杂路况。Soh说:“作为机器人的研究者,我们有理由对这类视频持保留态度。作为制作者,我们知道100次拍摄通常只能成功一次。”
前路的挑战
人工智能专家在机器人大脑研发领域突破不断,但机器人行业有人指出硬件也是一个挑战:机器人设计复杂,而且经常损坏。陈曦说,硬件虽在升级,但“很多人只看到基础模型的发展前景,却不知道打造这类机器人有多困难。”
另一个问题是,使用视觉数据完成大多数交互训练的机器人基础模型,到底可以走多远。Soh指出,机器人可能需要大量其他类型的感觉数据,例如触觉或本体感觉(身体在空间中的位置感)。目前还没有这样的数据集。他说:“我认为,这些缺失的数据,对人形机器人在真实环境中高效工作是必需的。”
将基础模型应用于真实世界还面临着另一个重大挑战——安全性。近两年,大语言模型大量涌现,人们发现它们会提供错误和有偏见的信息。它们还可能受到诱导做程序禁止的事情,比如告诉用户如何制作炸弹。赋予人工智能一个躯体,就会把这类错误引入真实世界,产生威胁。Gopalakrishnan说:“如果机器人出错,会伤到人、弄坏东西,或造成损害。”
Gopalakrishnan介绍,机器人行业将借鉴人工智能安全领域的宝贵经验。此外,她的团队还为一些机器人人工智能模型设置了等级高于学习的规则,例如不要尝试与人、动物或其它生物体互动的任务。她说:“在我们对机器人有信心之前,需要大量的人类监管。”
尽管存在风险,但人工智能和机器人技术的融合和促进方兴未艾。Gopalakrishnan认为,将人工智能大脑与实体机器人关联,可以改善基础模型,例如让它们具备更好的空间推理能力。Rai说,一些研究人员认为“真正的智能只能产生于与真实世界的互动之中”,Meta正是践行者之一。有人说,现实世界中的互动,能让人工智能不再囿于学习模式和预测,真正理解这个世界并进行推理。
未来如何,尚无定论。Brooks认为,机器人会不断改进并应用于新的领域,但这些应用终究不如人形机器人替代人类劳动来得吸引人。然而,也有人认为,研发出实用安全的人形机器人,帮人做晚饭、跑腿和叠衣服是可能的,只不过可能要花费数亿美元。Khazatsky说:“我相信有人能成功的。就是要花上大量的金钱,还有时间。”
参考文献
1.Brohan,A.et al.Preprint at arXiv https://doi.org/10.48550/arXiv.2307.15818(2023).
2.Khazatsky,A.et al.Preprint at arXiv https://doi.org/10.48550/arXiv.2403.12945(2024).
3.Open X-Embodiment Collaborationet al.Preprint at arXiv https://doi.org/10.48550/arXiv.2310.08864(2023).
原文以The AI revolution is coming to robots:how will it change them?标题发表在2024年5月28日《自然》的新闻特写版块上,©nature,Doi:10.1038/d41586-024-01442-5
本文来自微信公众号:自然系列 (ID:nature-portfolio),作者:Elizabeth Gibney