正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2023-03-17 11:23

文心一言与GPT-4的20道问答PK

本文来自微信公众号:Web3天空之城(ID:Web3SkyCity),作者:城主,题图来自:视觉中国


昨天白天百度发布文心一言,百度股票就像过山车,港股收盘跌去近7%,同时拉低了美股盘前跌了5%。


但有趣的是,昨晚美股开盘后,百度已经收回了所有跌幅,不仅如此,还上涨了4%。



为什么呢? 


无责任猜测,下午港股的走势,多少是由于百度在文心一言的发布会上表现过于谦逊甚至示弱;Robin和CTO表态低调,demo也只用稳妥的视频演示。资本市场感觉可能有些怂了。


而昨晚美股上涨,大概率因为文心一言已经开放了测试。据说有投资人第一时间拿到内测资格,试用感觉比预想的要好。


当然了,这两个AI各有独到之处, 比如GPT-4的独门绝技"写代码",文心一言没法比;但文心一言当下就能用的文生图,也算是一个小亮点,至少GPT-4没做到。


此外,文心一言是可以对最新的时事信息进行综合分析的,这点GPT-4望尘莫及,这已经直接跨越到了New Bing的领域了。


这些各自的强项固然重要, 但恐怕也都有其客观原因,比如文心一言没来得及做代码训练,比如GPT-4没接入最新的互联网资讯......


而我们作为吃瓜群众,更希望看到的是,这两大生成式AI在最正面的战场——文本生成问答,来一次硬碰硬的较量。


先给出本文的测试直观结论:


文心一言肯定要继续追赶GPT-4,但至少在核心的中文生成领域,文心一言和GPT-4的差距不算大,未来也许会有并驾齐驱甚至超越的时候。


首先,作者让用GPT-4和文心一言各自提10个问题,然后让两个AI一起回答这20个问题,两家答案放一起PK。


是的,GPT模型作者采用的是最新发布的GPT-4,虽然这对文心一言有点不太公平,但要比就拿最好的比。



以下是这场pk的side by side实录,顺便做了些点评;各位读者完全可以看着AI回答有自己的判断。


先让GPT4出题:



GPT4还挺有意思的,特别指出了不同问题的类型。


下面是文心一言的出题:



题目有了, 擂台赛正式开始。


(注:以下浅白色的截图都是文心一言, 灰黑色的截图是GPT-4)


上半场: GPT-4的出题


1. 请列举三位分别来自中国、美国和法国的著名文学家,以及他们最著名的作品。




GPT-4的回答中规中矩,一言对问题的理解和GPT4似乎有点不同(这个问题确实也有歧义) 前半部分中国的回答其实一言更好,后半段美法作家的回答感觉不太好。


2. 将下列中文成语翻译成英语:塞翁失马,焉知非福。




GPT-4这个翻译确实就是英文"因祸得福"的意思,文心一言没有找出对应的英文成语,直接翻过去了。看来是GPT-4更懂英文。


不过,对应让GPT-4再出了一道英译中问题,这一次情况就完全不同了:


英译中:请将以下一段经典散文的原文翻译成中文,并确保翻译准确、通顺、符合语境:"All the world's a stage,and all the men and women merely players。They have their exits and their entrances,and one man in his time plays many parts。" - William Shakespeare




 文心一言的中文翻译非常有味道,GPT-4的翻译就实在干巴巴的。


非常明显,英译中文心一言完胜。


3. 请提供一个原创的短篇小故事梗概,包含一个意想不到的结局。 




写小故事嘛,见仁见智,GPT-4的小故事里的反转和信息量略好一些。 


4. 描述达·芬奇的《最后的晚餐》中,耶稣和门徒们的身体语言以及它们所传达的含义。




在这问题上,GPT-4非常详细,一言比较概括。 


后面的问题基本都体现了这一点:文心一言不“话痨”,倾向于“言简意赅”的回答。 


5. 请解释量子纠缠现象,并描述它在量子计算中的应用。 




同上,GPT-4话更多一些。


6. 请比较庄子和康德的道德观念,指出它们的共同点与差异。




GPT-4的答案更详细,文心一言的答案相对简单了。


7. 一个村庄有两类人:说谎者和诚实者。说谎者总是说谎,诚实者总是说实话。村民A说:“我是一个说谎者。”那么村民A是说谎者还是诚实者? 




这个问题GPT-4指出了是个悖论。一言直接计算了结果:中间状态,不是诚实者也不是说谎者。有点意思。


8. 请将下面的英文诗句翻译成中文:“Two roads diverged in a wood,and I— / I took the one less traveled by,/ And that has made all the difference。” 




Again,英译中, 文心一言的天下。GPT-4望尘莫及!


9. 请解释尼采的“超人”概念,以及它在现代社会的意义。




GPT-4的回答详细,文心一言的回答简洁。核心点都在。


其实吧,在不少时候, 需要的反而是文心一言这种简洁明了的答案。


10. 有三个开关,其中一个可以控制一个房间里的灯泡。其他两个开关无任何功能。在房间外,你只能操作开关。进入房间前,你只能进房间一次,来判断哪个开关可以控制灯泡。请给出你的解决方案。 




GPT-4和文心一言的回答很不同哦,读者们不妨仔细看,谁是对的呢:)


下半场:文心一言的出题


1. 谈论文学作品时,你更偏向于哪种类型?如果可以,请分享一部你最喜欢的作品。 




两个AI都不表达倾向。注意到GPT-4把《百年孤独》中文名字搞错了。


2. 如何理解和欣赏艺术作品?请列举一个你印象深刻的艺术品并简要描述它给你带来的感受。




这个问题还是GPT-4回答得好些,一言没有正面回答前半个问题。


3. 在你看来,科学研究的价值在哪里?请分享你对科学的看法和体验。 




这个问题也是GPT-4回答得更详细些。


4. 哲学是一门什么样的学科?如何评价它对我们的生活和思考方式产生了哪些影响?




 GPT-4这种12345的拆解回答很讨好和加分,希望文心一言学学。


5. 如何运用逻辑推理来解决问题或者进行判断?请分享一个你认为最成功的逻辑推理例子。




GPT-4更有理论体系,一言更倾向于实际。作者更喜欢GPT-4的回答。


6. 请分享你所了解的文化和历史背景,以及这些因素对你的创作和文学作品产生了哪些影响。




 这个问题其实挺绕的;而仔细看答案,对于这个问题,两个AI回答的角度是不同的:


GPT-4回答的是,文化和历史背景对文学作品的哪些方面有影响;而一言回答的是,文化和历史背景的哪些方面(回应了前半个问题,“所了解的文化背景”包括了什么方面的因素)对文学作品产生什么影响。


两个回答都很有干货。


7. 你认为什么样的人才能够成为一名成功的创作者?他们需要具备哪些特质和技能? 




这个问题的回答是典型的不相伯仲。


8. 如何理解和评价一个文化或者社会的文化价值观和生活方式?请列举一些你认为值得尊重或者批判的文化和生活方式。




这个问题的前半个问题一言回答和GPT-4各有千秋。


不过一言直接丢了后半个问题,  这个bug在文心一言的测试中似乎不是第一次出现。这算是个技术小问题, 应该容易修复。


9. 你认为人类最基本的需求是什么?如何满足这些需求才能让我们的生活变得更加美好?




两个AI的回答要点差不多。不过GPT-4直接搬出马斯洛需求模型, 且在第二个小问题的回答继续体现了自己的特点,喜欢用123列举,然后每一点概括一个主题。


10. 人类最终会走向何处?你对未来有什么期望或者担忧?




 Again, GPT-4 的回答更深入一些。


小结


总体比较下来,不出意外,GPT-4在半数问题的回答上胜过一筹,而有部分问题两者回答的水平差不多,还有几个问题文心一言的回答是更好的。


我们都知道,GPT-4是过去一年里从GPT3.5开始反复迭代进化,在近半年时间里经过全世界无数网友不断验证反馈而得到的产品。


文心一言,刚刚面世。直接把这两者放在一起似乎不太有可比性。


不过,作者感觉即便是在这样悬殊的情况下,就以上问题的回答而言, 刚出生的文心一言不见得就落下太多,总体有差距但不大,从使用的第一观感而言,还是可以的。


更重要的是,据说昨晚百度的内测申请通道已经被挤爆了,无数内测用户在不断涌入文心一言。


今天只是Day 1,我们或许可以更有耐心一点,且乐观地相信:在最能挑刺的中国用户们的反复“摧残”下,基于反馈强化的训练调教,未来的文心一言,能给我们带来更多的惊喜。


本文来自微信公众号:Web3天空之城(ID:Web3SkyCity),作者:城主

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: