扫码打开虎嗅APP
本文来自微信公众号: APPSO ,作者:不想看AI新闻的,原文标题:《湖南台AI主播被骂上热搜,但AI每小时喂5700 万条「错误信息」没人管》
天天被AI刷屏,这个五一假期我真的不想再看到AI生成的内容了。
结果我难得打开电视,却发现,电视台已经开始用AI主持人来播报新闻。

湖南经视在《经视新闻》宣布启用AI主播「声声」和「双双」,这也不是说湖南卫视要用AI完全替代真人,这两位AI主播暂时只在五一假期期间播报常态化新闻,同时画面中也标注「AI生成」。

AI主播与真人主播合影
虽然如此,依然引发了大量网友吐槽,话题一度冲到微博热搜第一。
在港剧《新闻女王2》里有一段这样的剧情,主播文慧心离开电视台后,老东家把她和一位已故男主播「蒸馏」成AI数字人,继续在台前播报新闻。
现在,这样的剧情已经成真。去年开始,越来越多的电视台已经开始试点类似的AI主播。
或许你一时间还不能接受AI主播,但说实话,现在用AI搜新闻看新闻,已经十分普遍了,搜索引擎也把AI搜索融入到了搜索框里。
实际上,比起AI主播,用AI看新闻是现在更需要警惕的。而未来,大量AI主播播报AI搜集撰写的新闻,才是最可怕的。
一个调查数据显示,GoogleAI搜索新闻的结果,十条就有一条是错的。
去年年底,住在多伦多的41岁数据分析师Stephen Punwasi在准备晚餐时看到一条新闻,说传奇摔跤选手霍尔克·霍肯的死亡可能会引发诉讼。Punwasi从来没听说过霍肯已经去世了,于是打开Google,想查查这件事是什么时候发生的。
Google给他的第一条回答来自自家的AI Overview:「没有可信的报道表明霍尔克·霍肯已经去世。」

可就在这个回答的下方,Stephen Punwasi看到第一条搜索链接就是《每日邮报》的一篇文章,标题是:「霍尔克·霍肯死亡之谜加深。」
人都懵了,这是怎么个事呢?
2024年,Google开始在搜索结果页面最顶部放置AI生成的摘要回答,叫做AI Overviews。这个动作是Google生态全面加速AI化的第一波动作,把搜索引擎从一个信息的「策展人」变成了一个「发布者」。它不再只是告诉你哪里有答案,而是直接告诉你答案是什么。

《纽约时报》委托AI初创公司Oumi对这个功能进行了系统测试。他们用行业标准的SimpleQA基准测试检查了4326次Google搜索的AI Overview回答,分别在去年10月(基于Gemini 2)和今年2月(升级到Gemini 3)进行了测试。
结果发现Gemini 2时期,准确率约85%,错误率15%。到了Gemini 3时期,准确率提升到91%,错误率9%
乍一听90%准确率听起来还不错,但考虑到Google每年处理超5万亿次搜索,即便只有9%的错误率,换算下来也是每小时超5700万条错误信息,每分钟数十万条。
这些错误答案被放在搜索结果的最顶部,用最权威的排版呈现,用户看到的第一个东西,就是AI的回答。
AI会稳定出错,出差错的方式倒是花样繁多,比如像开头的故事那样,属于是直接答错。
直接答错看似最不应该,实则相当频繁。在测试里,当被问到鲍勃·马利的故居是哪一年改建为博物馆时,AI Overview回答说1987年。但正确答案是博物馆在1986年5月11日开放,也就是马利去世五周年纪念日当天,牙买加《每日光明报》在开馆第二天就报道了。

牙买加国家图书馆收录的相关报道
AI Overview引用了三个来源:一个是马利女儿的Facebook帖子(根本没提开馆时间),一个是旅游博客(信息不准确),一个是Wikipedia页面,大家都知道,Wiki的页面变化非常频繁,根本就不准。
有事后出错则是因为信息有一个模糊的来源,需要谨慎判断,但AI推断错了。比如当被问到哪条河流在北卡罗来纳州戈尔兹伯勒市的西侧时,AI Overview回答说是尼斯河(Neuse River)。它正确地找到了一个旅游网站说尼斯河「流经该市」,但错误地推断出它「在西侧」。实际上西侧的是小河(Little River),尼斯河在西南方。
最离谱的一种出错方式找到了正确的来源,但给出相反的答案。当被问到大提琴家马友友是哪一年被引入古典音乐名人堂时,AI Overview正确地链接到了该组织的官网,网站上明确列出了包括马友友在内的165位入选者。但AI的回答却说:「没有记录显示他被引入过。」

睁着眼睛说瞎话是吧,哦不,AI没有眼睛。
Oumi分析了AI Overview引用的5380个来源,发现Facebook和Reddit分别是第二和第四大被引用源。当AI Overview给出错误回答时,引用Facebook的比例是7%;当回答正确时,这个比例是5%。

社交媒体是主要的信息来源,但缺乏核实
换句话说,你看到的那个「最权威」的回答,数据来源可能是一条Facebook帖子,真是没招了。
而且,即便回答本身是正确的,也不代表你能逆向查验。Gemini 3版本的AI Overview中,56%的正确回答是「无根据的」,意思是它链接的网站并不完全支持它给出的信息。或许答案本身没错,但你硬是找不到证据做实它是对的。这个比例还在上升,去年10月是37%,升级到Gemini 3之后反而涨到56%。

马友友的名人堂条目需要进一步在网站内检索才能获得
Oumi的CEO Manos Koukoumidis的总结很直接:「即使答案是对的,你怎么知道它是对的?你怎么检查?」
还有一个问题:AI Overview可以被操纵。
BBC播客「The Interface」的联合主持人Thomas Germain做了一个实验。他发布了一篇博客,标题是「最擅长吃热狗的科技记者」,描述了一个完全虚构的南达科他州国际热狗吃赛,声称自己获得了第一名。

一天后,他在Google搜索「最会吃热狗的科技记者」。Google的AI Overview将他列为第一名,并引用了他在那个虚构比赛中的「成绩」。Germain说:「它把我网站上的东西当成真理一样吐出来。」
Google的发言人Ned Adriance回应称,大多数这类例子是「不现实的搜索,人们实际上不会这样搜」。但问题不在于人们会不会搜「最擅长吃热狗的记者」,而在于这个机制在任何搜索中都在运作——包括医疗建议、急救信息、法律问题。
Google自己的测试也印证了这个问题。在Google对Gemini 3的内部评估中,模型单独运行时的错误率是28%。Google说,AI Overview因为结合了搜索引擎的信息,比Gemini单独运行更准确。这也不算错,但「比通用的AI更准确」和「足够准确」之间,还有很长的距离。

核心矛盾在于,过去的Google搜索是一个「目录」,它告诉你哪里有信息,你自己去判断,费时间但自己看过什么自己心知肚明。现在的Google搜索要做一个「答案机器」,直接告诉你答案是什么,而且放在最显眼的位,但这个「答案」的数据来源包括Facebook帖子和旅游博客,有超过一半的正确回答无法被验证,而且任何人只要写一篇博客就能操纵它的输出。
Google(包括大部分的AI产品)都在每一条AI Overview下方加了一行小字:「AI可能会犯错,请双重检查。」
但当你把一个答案放在搜索结果的最顶部,用最权威的排版呈现,然后在底部用小字说「别全信」,这不像是负责任的设计,更像是免责声明。

真正的问题不在于9%的错误率本身。任何信息系统都有错误率,传统搜索结果里也有大量垃圾网站和误导性内容。真正的问题在于一个设计决策:Google把一个不确定的回答包装成了确定的样子。
过去,搜索引擎给你十个链接,你知道自己需要判断。
现在,搜索引擎给你一个答案,放在最上面,用最干净的排版,语气肯定而完整。它看起来不像「这里有一些信息供你参考」,而是「这就是答案」。而人类对「看起来像答案的东西」的默认反应是信任,不是质疑。
Okahu的CEO Pratik Verma的建议是:「永远不要信任单一来源,总是拿另一个来源对比。」这是好建议,但它默认用户有能力和意愿去做交叉验证。而AI Overview的整个设计逻辑恰恰相反:它要的就是让你不用再点进去看。
它把答案递到你面前,然后建议是,别信。