正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-08-22 14:54

AI集体出现幻觉

本文来自微信公众号:AI异类弗兰克,作者:FrankGPT,原文标题:《康奈尔大学最新研究:AI集体出现幻觉!GPT-4o、Claude等无一幸免,国产模型数据缺失……》,头图来自:由AI生成

文章摘要
AI模型普遍存在幻觉问题,各领域表现不一,尚需改进。

• 🤖 大模型普遍产生幻觉,正确率仅为35%

• 📚 法律、健康等权威来源核查发现幻觉频频

• 💡 临时解决方案需更多人类专家参与验证

康奈尔大学最近牵头,发起了一项关于AI幻觉的研究,结果让我非常有共鸣……


平时处理业务、找人找信息、写东西……我自己用GPT-4o和Perplexity.AI的时间,大致是一半一半。


但是,仍然发现,即便GPT已经浓眉大眼地列出了信息来源、网站链接,真的细看,照样可以驴唇不对马嘴。


LLM大概率会有幻觉问题,而搜索引擎又呆板无趣缺乏创造,两者的结合,会不会是取长补短呢?


这是前仆后继的AI Search公司想要去解决的问题,追求信息的准确,和追求创造,天然存在矛盾。



马斯克的Grok,也出过比较严重的幻觉问题,结果X上老马直接说“我认为整个世界就是虚拟的,真实本身是种幻觉。”


哪怕已经到了2024年的下半年,如果想纯用AI进行内容输出,仍然要花50%的时间和AI作斗争,另外50%的时间用来校验幻觉。


GPT-4o展示了联网搜索,但牵扯到学术问题,答案依然会失真。


效率显著提升了,麻烦也随之转移了……


之前写《ChatGPT最感谢谁?50位影响世界的AI科学家》这篇文章时,各大模型全部出现了非常强的幻觉问题,非英语环境常见的人名和对应关系,出错概率非常大。


而国产模型则因为墙的原因,对于海外科学家和论文存在着非常大的盲区——比如,我想罗列“杨立昆”的最新言论,结果给我采集到了“杨立在昆明”的系列讲话……


很多时候,居然还是人工快一点。


因为我本身是长期的乐观派,也相信AGI,对于目前AI出现的阶段性问题,觉得都很正常。


只是,我非常好奇边界在哪里、该怎么解决?


康奈尔最新研究表明,从谷歌的 Gemini 到 Anthropic 的 Claude,再到OpenAI持续挤牙膏的GPT-4o ,所有生成式 AI 模型都会产生幻觉。 


说得直白点,大模型全部是不可靠的叙述者——有时输出很搞笑,有时却有严重问题。


不过,并非所有模型都以相同的速度编造谎言。它们散布的谎言类型,取决于它们接触的信息来源。


康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构 AI2 的研究人员,最近进行了一项研究,试图通过将 GPT-4o 等模型与法律、健康、历史和地理等主题的权威来源进行事实核查,来对幻觉进行基准测试。


他们发现,没有一个模型在所有主题上都表现特别好,而幻觉最少的模型之所以如此,部分原因是它们拒绝回答本来会出错的问题。


康奈尔大学博士生、这项研究的合著者赵文婷说:“我们工作中最重要的结论是,我们还不能完全信任模型生成的输出……目前,即使是最好的模型,也只有大约35%的时间能够生成无幻觉的文本。”



学术界也曾尝试探究模型的“真实性”,其中包括一个 AI2 下属团队的尝试。但赵文婷指出,这些早期测试向模型,提出了一些可以在维基百科上轻松找到答案的问题。  


考虑到大多数模型,都是在维基百科数据上进行训练的,显然这些都是“送分题”。



为了使他们的基准更具挑战性——也为了更准确地反映人们向模型提出的问题类型——研究人员在网络上确定了“没有维基百科参考”的主题。


他们测试中超过一半的问题,无法使用维基百科来回答,涉及的话题包括文化、地理、天文学、流行文化、金融、医学、计算机科学和名人。


在他们的研究中,研究人员评估了十几种不同的流行模型,其中许多都是去年发布的。


除了 GPT-4o,他们还测试了多个开源模型,例如Meta 的 Llama 370B、Mistral 的Mixtral 8x22B 以及 Cohere 的Command R+,以及调用API的模型,比如Perplexity 的Sonar Large(基于 Llama)、Google 的Gemini 1.5 Pro 和 Anthropic 的Claude 3 Opus。


尽管OpenAI、Anthropic和其他大型生成式 AI 公司声称幻觉的产生率较低,但结果表明,模型产生的幻觉其实还是半斤八两。


GPT-4o 和 OpenAI 更老的产品GPT-3.5 在基准测试中,正确回答问题的百分比方面表现大致相同。(GPT-4o 略胜一筹)


OpenAI 的模型总体上幻觉最少,其次是 Mixtral 8x22B、Command R 和 Perplexity 的 Sonar 模型。



与“名人”和“金融”有关的问题对模型来说最难回答,但与地理和计算机科学有关的问题对模型来说最容易回答(可能是因为它们的训练数据包含更多对这些问题的引用)


在答案来源不是维基百科的情况下,每个模型的平均回答事实性都较低(尤其是 GPT-3.5 和 GPT-4o),这表明它们都大量受到维基百科内容的影响。


即使是能够在网上搜索信息的模型,如 Command R 和 Perplexity 的 Sonar 模型,在基准测试中也很难解决“非 Wiki”问题。


模型大小并不重要——较小的模型(例如 Anthropic 的 Claude 3 Haiku)产生幻觉的频率与较大、表面上更强大的模型(例如 Claude 3 Opus)大致相同。


那么这一切意味着什么——供应商所承诺的改进又体现在哪些方面呢?


更宽容的看法是,他们使用的基准并不适合此目的。正如我们之前所写的那样,许多(如果不是大多数)人工智能评估都是短暂的,缺乏重要的背景,注定会成为古德哈特定律的牺牲品。


无论如何,赵女士表示,她预计幻觉问题将“持续很长时间”。


幻觉产生的原理示意图


“我们论文中的实证结果表明,尽管某些方法有望减少或消除幻觉,但这些方法实际能取得的改善效果有限,”她说。


“此外,我们的分析表明,即使是在互联网上找到的知识也常常相互矛盾,部分原因是训练数据——由人类编写——也可能包含幻觉。”


一个临时的解决方案可能是简单地对模型进行编程,使其更频繁地拒绝回答——这在技术上相当于告诉一个万事通停止回答。


在研究人员的测试中,Claude 3 Haiku只回答了大约 72% 的问题,其余问题则选择弃权。


考虑到弃权,Claude 3 Haiku实际上是所有模型中最符合事实的——至少从它撒谎最少的角度来看是这样。



但是,人们会使用一个推三阻四、拒绝回答的模型吗?


赵认为不会,并表示模型公司应该将更多的时间和精力,投入到减少幻觉的研究上。


她断言,完全消除幻觉可能是不可能的,但可以通过在模型开发过程中进行人为事实核查和引用来减轻幻觉。


“需要制定政策和法规,以确保人类专家始终参与验证和确认生成式人工智能模型所生成信息的过程,”赵补充道。


“在这个领域仍有许多机会可以产生重大影响,例如为任何自由文本开发先进的事实核查工具,为事实内容提供引文,并为幻觉文本提供更正。”



Andrej Karpathy对幻觉问题也有过详细阐述,他表示:“只有当梦境进入被认为事实不正确的领域时,我们才会将其称为“幻觉”……这看起来像一个bug,但这只是LLM在做它一直在做的事情。”


前段时间受陶芳波博士启发:做梦也是种“数据合成”。


在Life-long Personal Model(终身模型)的视角下,你有权保持沉默、保持不去思考的状态。


否则,你记忆的每一个瞬间、之后的每一次反刍,都将成为呈堂证供。


欢迎来到AI造梦时代……


本文来自微信公众号:AI异类弗兰克,作者:FrankGPT

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: