正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-07-25 21:00

被简单字谜“打回原形”:大模型只是单向推理者?

本文来自微信公众号:采铜的创想世界 (ID:CTDT4US),作者:采铜,题图来自:视觉中国

文章摘要
文章通过对大模型在多模态推理和纵横字谜领域的实验探索,发现大模型在纵横字谜填空任务中存在局限性。

• 💡 大模型在多模态推理领域表现出潜力和信心

• 🤔 大模型在纵横字谜填空任务中存在推理困难

• 🔍 大模型推理特点可能仅限于单向推理,需要更深入研究

这段时间还是在持续地关注和学习AI。比如在arXiv里下了些论文来看:



越看越觉得:大模型这块有太多东西值得研究了


所以自己也按耐不住做点小实验。


比如,我想到“多模态推理”是一个很好的使用大模型的思路。


所谓多模态推理,是指不仅使用文字,也结合图形信息等,一起进行推理。在表达逻辑关系上,图形往往比文字更直观,因而多模态推理如果可行,那么大模型的能力会得到进一步的释放。


可是问题是:大模型是否能胜任多模态推理呢?


我做的第一个简单的实验是使用家族图谱,结果发现,大模型对于形式简单的家族图谱,是可以进行推理的:



这张图是我画的,提交给AI,并加上一句提示词:“请看这张图片,已知张三是大宝的爸爸,请问小杰怎么称呼张三”。


对此,各个主流大模型都能给出正确的回答,比如下图是腾讯元宝(yuanbao.tencent.com)的回答:



从这个例子我们可以看到“多模态推理”的特点:


提示词由文字+图片组成;


文字和图片各呈现了一部分信息,特别是图片传达了文字提示词没有提供的信息;


大模型要做出正确的回答,除了理解文字提示词外,还必须正确理解特定的图形关系


对于一道相对简单的多模态推理题能做出正确解答,使我对大模型的潜力和新用法充满了信心。可是马上,一个新的尝试,却让我大失所望,甚至有点崩溃。


我的新实验是使用纵横字谜来测试大模型。


纵横字谜在国外比较流行,英文叫crossword puzzle,国内以前有段时间也流行过,出现在报纸的副刊,作为消磨时光的智力游戏,也有一些爱好者。


精心设计的纵横字谜是颇有难度的,对人的知识面和思维能力都有比较高的要求。而纵横字谜又是一种“多模态推理”,既要理解文字信息,又要理解图形关系。可是,让大模型来做复杂的纵横字谜,或许有点强人所难,我便想从最简单的纵横字谜,即“一纵一横”式的开始测试。



上图就是我设计的一个最简单的纵横字谜,并且附上如下提示语:


这是一个纵横字谜。


横向排列的四个方格组成一个成语,以从左往右的顺序。


纵向排列的四个方格组成一个成语,以从上往下的顺序。


根据下图,请帮我推理出横向和纵向的成语分别是什么。


我本以为大模型能轻松完成任务,可没想到:竟然没有一家大模型可以做出来!


比如通义千问的回答是这样的:



文心一言的回答是这样的:



这是为什么呢?我之前让大模型写高考作文,它们洋洋洒洒一千字,一点都不含糊,一篇文章里成语七八个,用得也大多得体,可是为什么这里让它们猜两个成语,就一点儿都猜不出来了呢?


而且它们不仅是猜不出来,而且所答的内容完全是零乱的,错得不着边际。


当然有一种可能性是:它们不是不会推理、猜测,而是读不懂我画的图,或者说,这种“格子里带文字”的形式,它们理解不了。


于是我便再退一步,用更加简单的题目,来问它们:


在这一轮的测试中,我的文字提示词没有变,只是图形变简单了,于是它们就都答对了。


可是我的失望却更大了,我心想:难不成搞了半天,这些n个亿砸下去做出来的大模型,只能回答这么简单的题目,稍微加点难度就做不出来了?那要你们何用??


我想知道为什么,我想知道这些大模型写文章、写文案、写分析报告时一个个都很能干,为什么猜个成语就这么困难呢?


于是我又反反复复画新的图,做新的测试。


其中有一组测试,让我茅塞顿开:



大家看这四组测试,从我们人类的视角来看,这四组测试的难度应该是差不多的,“来”是一个非常常用的字,包含“来”的成语不少,而且“来”字也可能出现在成语的不同位置。我们人类做这四道题的难度取决于每个人的成语储备量。


但是我发现,对于大语言模型来说,这四组测试的难度有相当大的区别。


对于测试a,即猜测“来”字位于首字的成语,大模型基本上都能答出来。


这是腾讯元宝的回答:



这个回答虽然出现了幻觉,但是至少给出的答案“来日方长”是正确的。


文心一言的回答也是对的:



但是通义千问却说自己没法回答:



再看测试b,测试的结果是都没有答对,如腾讯元宝的回答是:



又是“来日方长”……


文心一言也是突然就凌乱了:



通义千问也没有答出来。


后面测试c和测试d也是遇到了类似的情况,这三家国内主流的大模型,不仅没有答对,而且错得相当离谱、不着边际……比如通义千问对测试c的回答是“不期而遇”:



所以,我便得到了这样一个出人意料的结果:



为了确认大模型是否真的做不了后三种题目,我又做了一组对比:



从我们人类的视角来看,测试e和测试f的难度明显比测试d低,因为提供了更多的已知信息,那么对于解出题目来说就会容易许多。尤其是测试f,答案几乎已经呼之欲出。可是大模型的表现再次让我大跌眼镜!


对于测试e,通义千问、腾讯元宝、文心一言再次全错:





对于测试f,通义千问做对,腾讯元宝、文心一言做错:





于是我们会看到这样一个汇总的结果:



但我的探索还没有结束,为了确认大模型是否确实胜任“测试a”类型的任务,我又出了两道题:



对于测试g,通义千问的答案是“苦尽甘来”,腾讯元宝的答案是“苦口婆心”,文心一言的答案是“苦不堪言”,这三个答案都是正确的:





对于测试h,三个大模型都正确地给出了“苦尽甘来”的答案。


所以统观测试g和测试h,这两个测试都是给出了成语的第一个字作为已知信息,此时大模型的正确率是100%。


讨论


经过上面的这些测试,一个隐藏的规律似乎已经渐渐明晰:


大模型在做成语填充任务时,它必须得到第一个字作为已知条件,通过第一个字,它往往能给出正确的成语,但是如果第一个字是未知的,那么它去找到这个成语就会变得极其困难,甚至在给出后三个字的情况下(如测试f),都不一定做对。


大模型的这种推理特点跟人类显然是非常不同的。


我之前看了一些有关大模型原理的书,明白以GPT为代表的大语言模型,其核心是一个叫做transformer的神经网络算法。而transformer的特点,就是从左至右地、逐一地生成概率最大的那个字符。transformer生成文字的机制本身就是朝着一种方向的。


但是,这是一种“微观”的机制,从左至右地生成字符是否跟从前往后地推理有必然的联系呢?这个就超出了我的理解范围了。但这次的探索似乎提示我们,两者确实是有关系的。


我们可以自豪地承认,人类不仅能从前往后地推理,还擅长从后往前地推理,比如“以终为始”的思维方式,就是从事情最后的结果出发,往前倒推前面如何行动。但是,如果大模型只能从前往后推理的话,那么似乎它就无法进行“以终为始”的思考,这可能是大模型的一个重大的短板。


当然,我这里提出大模型只是单向推理者,只是一种猜测,顶多算一种假说。是否真的如此,需要更加严谨和专业的研究才行。


假设后来真的证明,大模型只擅长单向推理,那么在应用大模型的时候,就必须特别注意这个特点,设计针对性的策略,比如怎么写提示词,怎么做智能体等方面,都要考虑到这个问题,才能扬长避短,真正地发挥AI的潜力。


本文来自微信公众号:采铜的创想世界 (ID:CTDT4US),作者:采铜

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: