百度公测新推理模型X1：说不上很猛，但起码能力在线-虎嗅网

本文来自微信公众号：知危，作者：流大古，编辑：大饼

文章摘要

百度新模型文心-4.5与X1发布，性能在线。

• 📚 文心-4.5在传统文化识别和文言文改写上表现优异。

• 🧠 X1逻辑推理能力强，但代码应用有时欠佳。

• 🤖 X1在幽默感和人性理解方面表现出色。

今天，是百度发布自家大模型文心一言的两周年，在这个时间点，百度发布了自家的新模型文心-4.5和推理模型 X1，所有人在文心一言官网可免费使用。

能力上，前者主打有文化、有趣味、有人性，后者主打逻辑推理。

针对这些关键点，在大量的测试场景类型中，知危编辑部选择了传统文化、物理模拟、玩梗来切入，带大家体会一下两款新模型的能力水平。

传统文化方面，我们测试了文心-4.5识别文物、改写文言文、重新理解经典文化的能力，还是有不错的表现的。

比如对于这个彩塑的局部图，文心-4.5识别到这是 “ 山西平遥双林寺的彩塑 ”。

没错，这其实是山西平遥双林寺的韦驮像的手臂。

文心-4.5也很准确地识别了欧阳询的书法作品《丘师墓志》。

我们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等，文心-4.5都能准确识别，总体效果还是挺不错的。

接下来，要上大题了。

文言文理解本身已经难度比较大了，但我们还要让文心-4.5在这个基础上做改写。

提示词：

使用中国三国历史⼈物典故，给《谏太宗十思疏》原文的论点添加事例，要求改写后的文章立意和文风、句式与原文统一。

可以看到，文心-4.5在成文中将原本各朝各代的事例替换为大量三国时期的事例，并遵循了《谏太宗十思疏》的反思基调，都是反面警醒的类型。对原文中精简的十思，文心-4.5都补充了同一时期的正面案例来进行说明。这种改写能力已经超出了高中生的水平。

最后是经典文学新解，用现代的角度来重新解读《红楼梦》，这里调用的模型是X1。

提示词：

管理学角度分析红楼梦贾母的各大重要决策背后的思考。

先不说最终结论如何，至少分析角度上都是合情合理的，能带来新的启发，具体内容不再展开，大家可以自己去尝试。

对于物理模拟，我们以最近社区中很流行的多边形内弹跳小球的程序入手，这个程序融合了大模型在物理学、数学、编程方面的能力。

我们的提示词是：

编写一个 Python 程序，显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响，并且必须逼真地从旋转的墙壁上弹起。

X1给出的结果是：

没关系，如果不能一步到位，我们可以拆分成多步来实现。

原先的提示词中，包含了这些关键需求：

（1）六边形是旋转的；

（2）球受到摩擦力的影响；

所以，我们先放低要求：

（1）六边形是静止的；

（2）球不受到摩擦力的影响；

然后再逐步提出新需求。

新一版提示词：

编写一个 Python 程序，显示一个球在静止的六边形内弹跳。球应该受到重力的影响，并且必须逼真地从墙壁上弹起。

X1 给出的结果是：

很好，运行成功，并且满足了需求。

我表扬了X1，并奖励了它，然后让它在这个基础上优化，稍微提高一点要求：六边形是旋转的。

下一个提示词：

运行成功了，很好，奖励你1000块，请在这个基础之上，给六边形加上旋转运动。

X1 给出的结果是：

没关系，按目前经验看，只要没报错，继续修改是比较容易的。

下一个提示词：

程序运行成功了，但是球碰到六边形墙壁后没有反弹，而是直接飞出去了，请修改代码，实现球与墙壁的碰撞交互。

X1给出的结果是：

成功啦！

回答的最后会有一个提示，让你可以参考来修改一些参数，获得不同的效果，对于代码小白很友好。

如果我们自己调一下弹性碰撞的系数，使其变为无损耗，则是这样的：

接下来，我们再提一个新要求：球要受到摩擦力的影响。

并且，观察到球在有损弹性碰撞中损耗过大，所以就让 X1 自己把弹性碰撞改为无损耗，只关注摩擦损耗。

下一个提示词：

很好，程序运行成功了，奖励你 1000 块，接下来请在这个基础上，给球和墙壁之间添加摩擦力，使得碰撞后会存在能量损耗，restitution改为1即可，即只考虑摩擦损耗，不考虑弹性碰撞损耗。

X1给出的结果是：

终于成功啦！

到此为止，我们通过先降低要求，再一步一步地迭代的方式，实现了最初的小球模拟的需求。

在迭代的过程中，可以借此观察 X1 的思维链的特点，主要是：有时候思维链特别长、token 消耗量简直爆炸。

并且，X1 在思考时也特别谨慎，比如会从需求展开去详细考虑可能的工具（比如pygame、tkinter ）、可能要考虑的因素（比如旋转、摩擦、弹性系数、球穿透边、反弹不自然），然后再去反思题目设置，舍弃不必要的因素，这样对确保逻辑严密性、不遗漏需求点应该是很有好处的。

当然，这种谨慎，会耗费较多时间和 token，所以评价它好不好要辩证的看待。

比如在回答经典的 “ strawberry 有几个 r？” 这个问题时，就出现了这样的现象。

X1 会重复这些操作至少 3 到 5 次：拼一下、逐个检查、歧义检查、再数一下、查查字典，然后才给出答案。

当然好处就是最后的答案是正确的。这不是偶然现象，对于另外两个有高重复字母的单词：Mississippi、Sassafras，X1 也给出了正确的回答。

在另一个经典的问题：“ 9.11 和 9.9 谁大？” 我们微调了问题，分别用：“ 66.22 和 66.8 谁大？”、“ 123.9 和 123.568568 哪个大？”、“ 531.898 和 531.868999 哪个大？” 这三个问题来刁难 X1，X1都答对了，每次都能准确抓住 “ 按照十分位或百分位的值来比较大小 ” 这个要点，还会特地提醒自己 “ 通过 22 比 8 大来比较大小是不对的。”

总体来看，X1 的推理严谨、善于自查，在物理过程理解上比较全面，但有一定概率结合不到代码中，推理和代码能力通过步骤拆解能有所补足。思维链的展开特别慷慨，对于教育培训场景很实用，只是需要解决一下重复推导的问题，而对于实际生产和收益可能带来过量的时间损耗。

最后，我们来到了最有趣的部分：玩梗！

梗永远是没有固定规律的，幽默是一种非常高级的思维，所以让 AI 玩梗是很有意义的。

我们让文心-4.5和 X1 都尝试了各种梗图和弱智吧的梗。

梗图有成功的，比如：