正确的提示信息

扫码打开虎嗅APP

从思考到创造

资讯

搜索历史

删除

完成

全部删除

数码
互联网
数码
互联网

热搜词

芯片
英伟达
经济增长
经济周期
柔宇科技
经济
网红
货币
本地生活

2023-03-17 11:23

文心一言与GPT-4的20道问答PK

Web3天空之城

本文来自微信公众号：Web3天空之城（ID：Web3SkyCity），作者：城主，题图来自：视觉中国

昨天白天百度发布文心一言，百度股票就像过山车，港股收盘跌去近7%，同时拉低了美股盘前跌了5%。

但有趣的是，昨晚美股开盘后，百度已经收回了所有跌幅，不仅如此，还上涨了4%。

为什么呢?

无责任猜测，下午港股的走势，多少是由于百度在文心一言的发布会上表现过于谦逊甚至示弱；Robin和CTO表态低调，demo也只用稳妥的视频演示。资本市场感觉可能有些怂了。

而昨晚美股上涨，大概率因为文心一言已经开放了测试。据说有投资人第一时间拿到内测资格，试用感觉比预想的要好。

当然了，这两个AI各有独到之处，比如GPT-4的独门绝技"写代码"，文心一言没法比；但文心一言当下就能用的文生图，也算是一个小亮点，至少GPT-4没做到。

此外，文心一言是可以对最新的时事信息进行综合分析的，这点GPT-4望尘莫及，这已经直接跨越到了New Bing的领域了。

这些各自的强项固然重要，但恐怕也都有其客观原因，比如文心一言没来得及做代码训练，比如GPT-4没接入最新的互联网资讯......

而我们作为吃瓜群众，更希望看到的是，这两大生成式AI在最正面的战场——文本生成问答，来一次硬碰硬的较量。

先给出本文的测试直观结论：

文心一言肯定要继续追赶GPT-4，但至少在核心的中文生成领域，文心一言和GPT-4的差距不算大，未来也许会有并驾齐驱甚至超越的时候。

首先，作者让用GPT-4和文心一言各自提10个问题，然后让两个AI一起回答这20个问题，两家答案放一起PK。

是的，GPT模型作者采用的是最新发布的GPT-4，虽然这对文心一言有点不太公平，但要比就拿最好的比。

以下是这场pk的side by side实录，顺便做了些点评；各位读者完全可以看着AI回答有自己的判断。

先让GPT4出题：

GPT4还挺有意思的，特别指出了不同问题的类型。

下面是文心一言的出题：

题目有了，擂台赛正式开始。

（注：以下浅白色的截图都是文心一言，灰黑色的截图是GPT-4）

上半场: GPT-4的出题

1. 请列举三位分别来自中国、美国和法国的著名文学家，以及他们最著名的作品。

GPT-4的回答中规中矩，一言对问题的理解和GPT4似乎有点不同(这个问题确实也有歧义) 前半部分中国的回答其实一言更好，后半段美法作家的回答感觉不太好。

2. 将下列中文成语翻译成英语：塞翁失马，焉知非福。

GPT-4这个翻译确实就是英文"因祸得福"的意思，文心一言没有找出对应的英文成语，直接翻过去了。看来是GPT-4更懂英文。

不过，对应让GPT-4再出了一道英译中问题，这一次情况就完全不同了:

英译中：请将以下一段经典散文的原文翻译成中文，并确保翻译准确、通顺、符合语境："All the world's a stage，and all the men and women merely players。They have their exits and their entrances，and one man in his time plays many parts。" - William Shakespeare

文心一言的中文翻译非常有味道，GPT-4的翻译就实在干巴巴的。

非常明显，英译中文心一言完胜。

3. 请提供一个原创的短篇小故事梗概，包含一个意想不到的结局。

写小故事嘛，见仁见智，GPT-4的小故事里的反转和信息量略好一些。

4. 描述达·芬奇的《最后的晚餐》中，耶稣和门徒们的身体语言以及它们所传达的含义。

在这问题上，GPT-4非常详细，一言比较概括。

后面的问题基本都体现了这一点：文心一言不“话痨”，倾向于“言简意赅”的回答。

5. 请解释量子纠缠现象，并描述它在量子计算中的应用。

同上，GPT-4话更多一些。

6. 请比较庄子和康德的道德观念，指出它们的共同点与差异。

GPT-4的答案更详细，文心一言的答案相对简单了。

7. 一个村庄有两类人：说谎者和诚实者。说谎者总是说谎，诚实者总是说实话。村民A说：“我是一个说谎者。”那么村民A是说谎者还是诚实者？

这个问题GPT-4指出了是个悖论。一言直接计算了结果：中间状态，不是诚实者也不是说谎者。有点意思。

8. 请将下面的英文诗句翻译成中文：“Two roads diverged in a wood，and I— / I took the one less traveled by，/ And that has made all the difference。”

Again，英译中，文心一言的天下。GPT-4望尘莫及!

9. 请解释尼采的“超人”概念，以及它在现代社会的意义。

GPT-4的回答详细，文心一言的回答简洁。核心点都在。

其实吧，在不少时候，需要的反而是文心一言这种简洁明了的答案。

10. 有三个开关，其中一个可以控制一个房间里的灯泡。其他两个开关无任何功能。在房间外，你只能操作开关。进入房间前，你只能进房间一次，来判断哪个开关可以控制灯泡。请给出你的解决方案。

GPT-4和文心一言的回答很不同哦，读者们不妨仔细看，谁是对的呢：)

下半场：文心一言的出题

1. 谈论文学作品时，你更偏向于哪种类型？如果可以，请分享一部你最喜欢的作品。

两个AI都不表达倾向。注意到GPT-4把《百年孤独》中文名字搞错了。

2. 如何理解和欣赏艺术作品？请列举一个你印象深刻的艺术品并简要描述它给你带来的感受。

这个问题还是GPT-4回答得好些，一言没有正面回答前半个问题。

3. 在你看来，科学研究的价值在哪里？请分享你对科学的看法和体验。

这个问题也是GPT-4回答得更详细些。

4. 哲学是一门什么样的学科？如何评价它对我们的生活和思考方式产生了哪些影响？

GPT-4这种12345的拆解回答很讨好和加分，希望文心一言学学。

5. 如何运用逻辑推理来解决问题或者进行判断？请分享一个你认为最成功的逻辑推理例子。

GPT-4更有理论体系，一言更倾向于实际。作者更喜欢GPT-4的回答。

6. 请分享你所了解的文化和历史背景，以及这些因素对你的创作和文学作品产生了哪些影响。

这个问题其实挺绕的；而仔细看答案，对于这个问题，两个AI回答的角度是不同的：

GPT-4回答的是，文化和历史背景对文学作品的哪些方面有影响；而一言回答的是，文化和历史背景的哪些方面（回应了前半个问题，“所了解的文化背景”包括了什么方面的因素）对文学作品产生什么影响。

两个回答都很有干货。

7. 你认为什么样的人才能够成为一名成功的创作者？他们需要具备哪些特质和技能？

这个问题的回答是典型的不相伯仲。

8. 如何理解和评价一个文化或者社会的文化价值观和生活方式？请列举一些你认为值得尊重或者批判的文化和生活方式。

这个问题的前半个问题一言回答和GPT-4各有千秋。

不过一言直接丢了后半个问题，这个bug在文心一言的测试中似乎不是第一次出现。这算是个技术小问题，应该容易修复。

9. 你认为人类最基本的需求是什么？如何满足这些需求才能让我们的生活变得更加美好？

两个AI的回答要点差不多。不过GPT-4直接搬出马斯洛需求模型，且在第二个小问题的回答继续体现了自己的特点，喜欢用123列举，然后每一点概括一个主题。

10. 人类最终会走向何处？你对未来有什么期望或者担忧？

Again， GPT-4 的回答更深入一些。

小结

总体比较下来，不出意外，GPT-4在半数问题的回答上胜过一筹，而有部分问题两者回答的水平差不多，还有几个问题文心一言的回答是更好的。

我们都知道，GPT-4是过去一年里从GPT3.5开始反复迭代进化，在近半年时间里经过全世界无数网友不断验证反馈而得到的产品。

文心一言，刚刚面世。直接把这两者放在一起似乎不太有可比性。

不过，作者感觉即便是在这样悬殊的情况下，就以上问题的回答而言，刚出生的文心一言不见得就落下太多，总体有差距但不大，从使用的第一观感而言，还是可以的。

更重要的是，据说昨晚百度的内测申请通道已经被挤爆了，无数内测用户在不断涌入文心一言。

今天只是Day 1，我们或许可以更有耐心一点，且乐观地相信：在最能挑刺的中国用户们的反复“摧残”下，基于反馈强化的训练调教，未来的文心一言，能给我们带来更多的惊喜。

本文来自微信公众号：Web3天空之城（ID：Web3SkyCity），作者：城主

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

文集：

拥抱“AI”

频道：

前沿科技

支持一下

赞赏

热门评论

嗅友hr8pT

我们也买不了百度的股票，也用不了国外的gpt-4，只能是国内不封啥就用啥，所以没必要吹这牛逼。

2023-03-17

10
Agish

我想说，文心一言的比较对象应该是NewBing ，而不是Chatgpt 4.0，Newbing爆杀Chatgpt4.0。如果NewBing的智力值是10分，ChatGpt4.0，只能算4分。 NewBing的底层模型也是GPT4.0，但它能通过联网搜索功能丰富，Gpt的引导语料，引导对GPT非常重要，极度重要！而且Newbing可能还有其他模型协力，比如专门针对写作的模型，甚至还有性格模型，会愤怒和厌恶，对你无聊的调侃会表示反感。 ChatGPT的优势是长对话模型。回答单个问题极为拉胯。

2023-03-17

4

查看更多评论

芯片英伟达经济增长经济周期柔宇科技经济网红货币本地生活