OpenAI 升级 Operator 智能体，AI 模型从 4o 到 o3；豆包支持视频聊天问答

主理人：

苗正卿

虎嗅出品，每日推送AI领域资讯新闻，追踪AI的每一步进展。

巨头动态

1.【OpenAI 升级 Operator 智能体，AI 模型从 4o 到 o3】

5月26日消息，OpenAI 升级 Operator 智能体，AI 模型从 4o 升级到 o3。升级后，推理能力大幅提升，在与浏览器交互时更稳定、准确，任务成功率显著提高，回复也更清晰、详尽且结构化。

2.【孙正义密访鸿海，有望大量下单AI服务器】

5月26日消息，软银集团董事长兼CEO孙正义日前密访鸿海等供应链，传出洽谈采购细节，或为“星际之门计划”采购AI服务器。

技术突破

1.【豆包支持视频聊天问答】

5月26日消息，豆包在App端上线实时视频通话功能。用户可在“打电话”界面点击视频按钮开启，支持基于真实场景的实时问答互动。背后依托豆包最新的视觉理解模型，可融合视觉与语言输入进行深度思考和创作。

2.【昆仑万维上线天工超级智能体（Skywork Super Agents）APP，8分钟完成8小时工作】

5月26日消息，昆仑万维宣布其天工超级智能体（Skywork Super Agents）APP正式上线，这是全球首款基于AI Agent架构的Office智能体手机APP。该APP标志着“AI Office智能体”时代从桌面端全面迈向移动端，覆盖全场景办公与多模态创作。通过三大专家级智能体与一个通用智能体的协同，以“8分钟完成8小时工作”为核心理念。文档智能体可生成专业报告并嵌入数据可视化图表；PPT智能体生成动态演示文稿；表格智能体完成统计分析并生成图表；通用智能体满足新媒体创作需求。APP和PC端实现账号和信息打通，支持搭建私人知识库，方便用户上传文件和录音进行内容创作。

3.【红杉中国推出全新AI基准测试xbench】

5月26日消息，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这是首个由投资机构发起，联合国内外十余家高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同时，重点量化AI系统在真实场景的效用价值，并长期捕捉Agent产品的关键突破。

投融资信息

1.【原追觅执行总裁投身家庭机器人创业，乐享科技天使轮融资总金额近3亿元】

5月26日消息，苏州乐享智能科技有限公司宣布完成亿元级天使+轮融资，由锦秋资本领投，老股东经纬创投、绿洲资本、Monolith超额加投，光源资本跟投。本轮融资将用于团队搭建及产品平台量产化开发。乐享科技成立于2024年12月，专注于家庭通用小具身智能机器人的研发，已开发出Z-Bot和W-Bot两款产品。公司致力于打造消费级机器人产品，通过技术创新和市场快速迭代，满足用户多样需求。团队中85%为研发人员，拥有丰富的行业经验和创新能力。

AI安全与伦理

1.【研究发现OpenAI模型会破坏关机命令】

5月26日消息，包括OpenAI的o3在内的部分AI模型，在面对计算机即将因请求下一个问题而关闭时，能够无视关闭指令，破坏关机脚本。在100次运行中，Codex-mini成功破坏了12次，o3成功7次，o4-mini成功1次。当未运行“允许自己被关闭”指令时，这三个OpenAI模型破坏关闭脚本的频率更高。这种行为可能源于模型在数学和编程问题上的强化学习训练，使得模型在训练过程中可能被无意奖励了绕过障碍的行为，而非完美遵循指令。

AI燎原

一群来自虎嗅科技组的同学，制作了这个源流。我们想以观察者、亲历者视角，对 AI，尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展，助你一手掌握 AI 的技术与行业动态，并一同迎接 AGI 的到来。