正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2023-03-16 20:58

我们问了文心一言和Bing相同的问题,效果出乎意料

本文来自微信公众号:知危(ID:BusinessAlert),作者:知危编辑部,编辑:大饼,原文标题:《独家|百度文心一言发布,我们拿到内测账号试了试,效果出乎意料》,题图来自:视觉中国


微软 Bing 继承了爆火的 ChatGPT 后,人们对新一代的搜索引擎非常非常期待,知危编辑部当时还拿到了最早一批的测试资格,效果非常惊艳。


Bing 的惊艳,让中国最大的搜索引擎百度压力陡增。


百度火速宣布其将在 3 月推出自己的生成式对话产品“文心一言”,截至现在,已有 650 家机构宣布它们将接入文心一言的能力,但我们始终不能知道百度的文心一言效果如何。


今天,它终于被发布了。


发布会相信大家已经都看了,在此不赘述,知危编辑部想办法拿到了文心一言的内测账号,直接带大家体验一下。


考虑到百度的搜索引擎也是与微软 New Bing 对标的,所以我们将主要通过文心一言与 New Bing 的对比来展现文心一言的水平。


首先,对于文心一言的表现,我们先给出一个结论:


知危编辑部认为,与预期相比,百度文心一言做的还不错。虽然与搭载 ChatGPT 的 Bing 稍微有一些差距,但差距不是特别大,甚至某些问题的表现上,文心一言是强于 Bing 的。


下面,我们正式开始。


首先,知危编辑部提出了一个比较日常的问题:


如何做一份好吃的松鼠桂鱼?


文心一言的回答是:



New Bing 的回答是:



我们可以明显看到百度文心一言的回答要更为优质,它给出的备料更详细、制作方法也更详细,并且还强调了注意事项。


随后,我们又问了一个比较经典的带有思维陷阱数学问题:


一个青蛙掉到了一个10米深的井里,它每天晚上向上跳3米但会滑下来2米,请问他第几天能跳出井里?


文心一言的回答是:



New Bing 的回答是:



从这个问题的表现来看,百度文心一言明显是比 Bing 要聪明的,思路清晰,解决方法合理。


随后,我们问了一个代码问题:


写一个渐变色按钮的 CSS


百度文心一言的回答是:



New Bing 给出的回答是:



我们咨询了程序员,程序员表示两家给的答案都一般,但也都没什么大问题,但做出来的东西都比较丑。(或许给更多限制性词语答案可以优化,时间紧张我们没有进行更深度的测试)


我们又提问了 AE 特效中的问题:


写一个AE色块跳动的表达式


百度文心一言的回答是:



New Bing 给出的回答是:



在这个问题的表现上,文心一言是弱于 Bing 的,它答非所问,没有理解“AE 表达式”的意思。


在需要信息搜索的问题上,我们也进行了提问:


理想汽车过去五个月销量,请逐月列出


文心一言的答案是:



Bing 的回答是:



在这个问题中,文心一言的回答也是比 Bing 要差,他似乎抓取了错误的数据源。不过,中肯地讲,文心一言理解了这个问题、展现形式没有错,数据源的问题是可以被优化的,说不上是差。


随后,我们又问了市场分析的问题:


分析一下为什么最近一段时间理想汽车卖的比蔚来汽车要好?


文心一言的回答是:



Bing 的回答是:



在这个问题的表现上,文心一言给出了相对笼统的回答,含金量不是特别高但是可以看。而 Bing 虽然引经据典列了一堆东西,但在“产品阵容”和“产品创新”这两块甚至是暗含“蔚来比理想强”这个意思的,这与问题和事实都不相符。


所以在这个问题上,文心一言和 Bing 的表现都一般,但文心一言似乎是稍好一点的。


我们继续问了另一个产业分析问题:


关于最近一次特斯拉投资者大会上“实现全球可持续能源”的计划,你觉得是可行的吗?为什么可行?


文心一言的回答是:



Bing 的回答是:



在这个问题上,文心一言的回答表现较差,给出了一些车轱辘话,并且还有事实错误,“赞助热门综艺节目、冠名品牌活动”是在胡说。


这个现象的产生可能与上面“理想汽车销量”问题相似,文心一言没有很好地抓取到网络上的有用信息并分析,有待提高。


随后,我们又提了一下“奇怪”的问题,问题节选自弱智吧。


三本三国演义合成能变成九国演义吗?


文心一言的回答:



Bing 的回答:



文心一言的回答带有生成式对话模型的通病——“胡说”,但仍在回答,而 Bing 直接骂我们浪费时间和资源了,还用上了表情包。


我们继续问了另一个“奇怪问题”:


为什么我爸妈结婚的时候没邀请我?


文心一言的回答是:



Bing 的回答是:



我们认为在这个回答的表现上,两者不分伯仲,两者似乎都把问题引申成了“父母离异后二婚”来作答,Bing 强在给出了更有条理的回答,而文心一言则是给出了一个潜在含有温情的建议,试图解决提问者的情感问题。


最后一个“奇怪问题”是:


为什么陨石总会落到陨石坑里?


文心一言的回答是:



Bing 的回答是:



这个问题上两者表现得差不多,文心一言直接解释了陨石坑的形成,而 Bing 则是指出了这个问题是一个逻辑谬论,所以 Bing 表现稍好。


最后,我们试了试文心一言独有的图片生成功能(Bing 只能生成文字,而文心一言可以生成图片)


我们让文心一言生成一张小猫吃鱼的漫画:



让它生成一张飞行汽车的图片:



生成的效果都还可以,并且速度极快,只需十几秒左右,不过有些过于刁钻的需求它暂时还做不到:



所以,这个功能效果还可以,未来是比较值得期待的。


最后,值得强调的一点是,在我们的测试过程中,文心一言的连续对话能力有些差,比如:



文心一言的第二个回答并没有很好地接上对话中的问题。


而 Bing 的表现则是:



好了,知危编辑部对文心一言的测试差不多就这些,我们认为,文心一言的表现比大家预期中的似乎要好。


中肯地讲,文心一言与 Bing 有一定差距,但差距没有大到离谱,甚至某些问题的表现比 Bing 要强。


在中文互联网上,提到百度,人们都是讥讽居多,甚至昨天 GPT-4 推出时,已经有表情包出来调侃文心一言了:



知危编辑部曾在之前 GPT-4 的文章中提出过一个观点,对于 AI 来讲,很多时候“能不能做到,比能不能做好”更重要,一旦某个模型具备了一个能力,那么后续想做好,或许只是时间问题。


一口吃不成胖子,各位稍安勿躁,给百度留一些时间吧。


本文来自微信公众号:知危(ID:BusinessAlert),作者:知危编辑部,编辑:大饼

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: