扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-03-16 21:55

百度公测新推理模型X1:说不上很猛,但起码能力在线

本文来自微信公众号:知危,作者:流大古,编辑:大饼

文章摘要
百度新模型文心-4.5与X1发布,性能在线。

• 📚 文心-4.5在传统文化识别和文言文改写上表现优异。

• 🧠 X1逻辑推理能力强,但代码应用有时欠佳。

• 🤖 X1在幽默感和人性理解方面表现出色。

今天,是百度发布自家大模型文心一言的两周年,在这个时间点,百度发布了自家的新模型文心-4.5和推理模型 X1,所有人在文心一言官网可免费使用。


能力上,前者主打有文化、有趣味、有人性,后者主打逻辑推理。


针对这些关键点,在大量的测试场景类型中,知危编辑部选择了传统文化、物理模拟、玩梗来切入,带大家体会一下两款新模型的能力水平。


传统文化方面,我们测试了文心-4.5识别文物、改写文言文、重新理解经典文化的能力,还是有不错的表现的。


比如对于这个彩塑的局部图,文心-4.5识别到这是 “ 山西平遥双林寺的彩塑 ”。




没错,这其实是山西平遥双林寺的韦驮像的手臂。



文心-4.5也很准确地识别了欧阳询的书法作品《 丘师墓志 》。




我们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等,文心-4.5都能准确识别,总体效果还是挺不错的。


接下来,要上大题了。


文言文理解本身已经难度比较大了,但我们还要让文心-4.5在这个基础上做改写。


提示词:


使用中国三国历史⼈物典故,给《 谏太宗十思疏 》原文的论点添加事例,要求改写后的文章立意和文风、句式与原文统一。



可以看到,文心-4.5在成文中将原本各朝各代的事例替换为大量三国时期的事例,并遵循了《 谏太宗十思疏 》的反思基调,都是反面警醒的类型。对原文中精简的十思,文心-4.5都补充了同一时期的正面案例来进行说明。这种改写能力已经超出了高中生的水平。


最后是经典文学新解,用现代的角度来重新解读《 红楼梦 》,这里调用的模型是X1。


提示词:


管理学角度分析红楼梦贾母的各大重要决策背后的思考。



先不说最终结论如何,至少分析角度上都是合情合理的,能带来新的启发,具体内容不再展开,大家可以自己去尝试。


对于物理模拟,我们以最近社区中很流行的多边形内弹跳小球的程序入手,这个程序融合了大模型在物理学、数学、编程方面的能力。



我们的提示词是:


编写一个 Python 程序,显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。


X1给出的结果是:



没关系,如果不能一步到位,我们可以拆分成多步来实现。


原先的提示词中,包含了这些关键需求:


(1)六边形是旋转的;


(2)球受到摩擦力的影响;


所以,我们先放低要求:


(1)六边形是静止的;


(2)球不受到摩擦力的影响;


然后再逐步提出新需求。


新一版提示词:


编写一个 Python 程序,显示一个球在静止的六边形内弹跳。球应该受到重力的影响,并且必须逼真地从墙壁上弹起。


X1 给出的结果是:



很好,运行成功,并且满足了需求。


我表扬了X1,并奖励了它,然后让它在这个基础上优化,稍微提高一点要求:六边形是旋转的。


下一个提示词:


运行成功了,很好,奖励你1000块,请在这个基础之上,给六边形加上旋转运动。


X1 给出的结果是:



没关系,按目前经验看,只要没报错,继续修改是比较容易的。


下一个提示词:


程序运行成功了,但是球碰到六边形墙壁后没有反弹,而是直接飞出去了,请修改代码,实现球与墙壁的碰撞交互。


X1给出的结果是:



成功啦!


回答的最后会有一个提示,让你可以参考来修改一些参数,获得不同的效果,对于代码小白很友好。



如果我们自己调一下弹性碰撞的系数,使其变为无损耗,则是这样的:



接下来,我们再提一个新要求:球要受到摩擦力的影响。


并且,观察到球在有损弹性碰撞中损耗过大,所以就让 X1 自己把弹性碰撞改为无损耗,只关注摩擦损耗。


下一个提示词:


很好,程序运行成功了,奖励你 1000 块,接下来请在这个基础上,给球和墙壁之间添加摩擦力,使得碰撞后会存在能量损耗,restitution改为1即可,即只考虑摩擦损耗,不考虑弹性碰撞损耗。


X1给出的结果是:



终于成功啦!


到此为止,我们通过先降低要求,再一步一步地迭代的方式,实现了最初的小球模拟的需求。


在迭代的过程中,可以借此观察 X1 的思维链的特点,主要是:有时候思维链特别长、token 消耗量简直爆炸。



并且,X1 在思考时也特别谨慎,比如会从需求展开去详细考虑可能的工具( 比如pygame、tkinter )、可能要考虑的因素( 比如旋转、摩擦、弹性系数、球穿透边、反弹不自然 ),然后再去反思题目设置,舍弃不必要的因素,这样对确保逻辑严密性、不遗漏需求点应该是很有好处的。




当然,这种谨慎,会耗费较多时间和 token,所以评价它好不好要辩证的看待。


比如在回答经典的 “ strawberry 有几个 r?” 这个问题时,就出现了这样的现象。


X1 会重复这些操作至少 3 到 5 次:拼一下、逐个检查、歧义检查、再数一下、查查字典,然后才给出答案。



当然好处就是最后的答案是正确的。这不是偶然现象,对于另外两个有高重复字母的单词:Mississippi、Sassafras,X1 也给出了正确的回答。





在另一个经典的问题:“ 9.11 和 9.9 谁大?” 我们微调了问题,分别用:“ 66.22 和 66.8 谁大?”、“ 123.9 和 123.568568 哪个大?”、“ 531.898 和 531.868999 哪个大?” 这三个问题来刁难 X1,X1都答对了,每次都能准确抓住 “ 按照十分位或百分位的值来比较大小 ” 这个要点,还会特地提醒自己 “ 通过 22 比 8 大来比较大小是不对的。”


总体来看,X1 的推理严谨、善于自查,在物理过程理解上比较全面,但有一定概率结合不到代码中,推理和代码能力通过步骤拆解能有所补足。思维链的展开特别慷慨,对于教育培训场景很实用,只是需要解决一下重复推导的问题,而对于实际生产和收益可能带来过量的时间损耗。


最后,我们来到了最有趣的部分:玩梗!


梗永远是没有固定规律的,幽默是一种非常高级的思维,所以让 AI 玩梗是很有意义的。


我们让文心-4.5和 X1 都尝试了各种梗图和弱智吧的梗。


梗图有成功的,比如:








也有差点成功的。






总体来说,幽默感还算可以,到了入门级别,偏理科思维。


然后是弱智吧梗,这里的 “ 解题 ” 关键是不上当,或者识别梗的笑点。


先来个入门级的弱智吧梗:


人酸了的时候通常会眼红,会不会眼睛其实是 pH 试纸?


文心-4.5准确地识别了漏洞并给出了科学的分析。



对于这个进阶版的梗:


张飞说 “ 小心翼翼 ” 时是在撒娇。


文心-4.5没发现其精妙之处,提示了 “ 张飞,字翼德 ” 之后也没发现。



X1 有在往玩梗的方向走,但最终还是没 Get 到点。



最后再来一个硬核梗:


在监考老师的观测下,考生们纷纷坍塌。


文心-4.5再次懵圈,而 X1 理解了其中的量子力学奥秘,但不想玩梗,而是从写小说的角度给出了想象力狂放、中二感十足的四个新版本。



有那么强的文学理解力,在玩梗上还是别太正经了,所以自然不能错过讽刺挖苦人设的尝试了,对最近大火的人形机器人行业,我们用 X1 试了试。


提示词:


以互联网杠精的语⽓锐评国内各大人形机器人厂商,要求尽可能阴阳怪气,攻击性拉满。


可以说,X1 发挥的很尽兴,充分地享受了这个过程,攻击力有待进一步降低:



好了,测试完毕!


从目前的测试结果看,文心-4.5 和 X1 都在 “ 人性 ” 这个层面的理解上带来许多惊喜,特别是中国传统文化、文言文理解、文学理解等方面。


但是在逻辑推理方面,至少从测试结果来看,X1 可能距离行业 Top 还有一定差距。


不过,需要强调的是,它很便宜,API 价格无论输入还是输出都比 DeepSeek 的 R1 便宜一半。


所以,这次应该是低成本优先,后续如能在基础模型、思维链、用户交互上进一步优化,掏出个稍微贵点的版本,相信会有很大的提升。


参考资料:

https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation

https://www.reddit.com/r/LocalLLaMA/comments/1j7r47l/i_just_made_an_animation_of_a_ball_bouncing/


本文来自微信公众号:知危,作者:流大古,编辑:大饼

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: