湖南台AI主播被骂上热搜，但AI每小时喂5700万条“错误信息”没人管-虎嗅网

本文来自微信公众号： APPSO ，作者：不想看AI新闻的，原文标题：《湖南台AI主播被骂上热搜，但AI每小时喂5700 万条「错误信息」没人管》

天天被AI刷屏，这个五一假期我真的不想再看到AI生成的内容了。

结果我难得打开电视，却发现，电视台已经开始用AI主持人来播报新闻。

湖南经视在《经视新闻》宣布启用AI主播「声声」和「双双」，这也不是说湖南卫视要用AI完全替代真人，这两位AI主播暂时只在五一假期期间播报常态化新闻，同时画面中也标注「AI生成」。

AI主播与真人主播合影

虽然如此，依然引发了大量网友吐槽，话题一度冲到微博热搜第一。

在港剧《新闻女王2》里有一段这样的剧情，主播文慧心离开电视台后，老东家把她和一位已故男主播「蒸馏」成AI数字人，继续在台前播报新闻。

现在，这样的剧情已经成真。去年开始，越来越多的电视台已经开始试点类似的AI主播。

或许你一时间还不能接受AI主播，但说实话，现在用AI搜新闻看新闻，已经十分普遍了，搜索引擎也把AI搜索融入到了搜索框里。

实际上，比起AI主播，用AI看新闻是现在更需要警惕的。而未来，大量AI主播播报AI搜集撰写的新闻，才是最可怕的。

一个调查数据显示，GoogleAI搜索新闻的结果，十条就有一条是错的。

去年年底，住在多伦多的41岁数据分析师Stephen Punwasi在准备晚餐时看到一条新闻，说传奇摔跤选手霍尔克·霍肯的死亡可能会引发诉讼。Punwasi从来没听说过霍肯已经去世了，于是打开Google，想查查这件事是什么时候发生的。

Google给他的第一条回答来自自家的AI Overview：「没有可信的报道表明霍尔克·霍肯已经去世。」

可就在这个回答的下方，Stephen Punwasi看到第一条搜索链接就是《每日邮报》的一篇文章，标题是：「霍尔克·霍肯死亡之谜加深。」

人都懵了，这是怎么个事呢？

每小时超5700万条错误信息

2024年，Google开始在搜索结果页面最顶部放置AI生成的摘要回答，叫做AI Overviews。这个动作是Google生态全面加速AI化的第一波动作，把搜索引擎从一个信息的「策展人」变成了一个「发布者」。它不再只是告诉你哪里有答案，而是直接告诉你答案是什么。

《纽约时报》委托AI初创公司Oumi对这个功能进行了系统测试。他们用行业标准的SimpleQA基准测试检查了4326次Google搜索的AI Overview回答，分别在去年10月（基于Gemini 2）和今年2月（升级到Gemini 3）进行了测试。

结果发现Gemini 2时期，准确率约85%，错误率15%。到了Gemini 3时期，准确率提升到91%，错误率9%

乍一听90%准确率听起来还不错，但考虑到Google每年处理超5万亿次搜索，即便只有9%的错误率，换算下来也是每小时超5700万条错误信息，每分钟数十万条。

这些错误答案被放在搜索结果的最顶部，用最权威的排版呈现，用户看到的第一个东西，就是AI的回答。

看起来像答案，但不是答案

AI会稳定出错，出差错的方式倒是花样繁多，比如像开头的故事那样，属于是直接答错。

直接答错看似最不应该，实则相当频繁。在测试里，当被问到鲍勃·马利的故居是哪一年改建为博物馆时，AI Overview回答说1987年。但正确答案是博物馆在1986年5月11日开放，也就是马利去世五周年纪念日当天，牙买加《每日光明报》在开馆第二天就报道了。

牙买加国家图书馆收录的相关报道

AI Overview引用了三个来源：一个是马利女儿的Facebook帖子（根本没提开馆时间），一个是旅游博客（信息不准确），一个是Wikipedia页面，大家都知道，Wiki的页面变化非常频繁，根本就不准。

有事后出错则是因为信息有一个模糊的来源，需要谨慎判断，但AI推断错了。比如当被问到哪条河流在北卡罗来纳州戈尔兹伯勒市的西侧时，AI Overview回答说是尼斯河（Neuse River）。它正确地找到了一个旅游网站说尼斯河「流经该市」，但错误地推断出它「在西侧」。实际上西侧的是小河（Little River），尼斯河在西南方。

最离谱的一种出错方式找到了正确的来源，但给出相反的答案。当被问到大提琴家马友友是哪一年被引入古典音乐名人堂时，AI Overview正确地链接到了该组织的官网，网站上明确列出了包括马友友在内的165位入选者。但AI的回答却说：「没有记录显示他被引入过。」

睁着眼睛说瞎话是吧，哦不，AI没有眼睛。

「它看起来像个正经答案啊」

Oumi分析了AI Overview引用的5380个来源，发现Facebook和Reddit分别是第二和第四大被引用源。当AI Overview给出错误回答时，引用Facebook的比例是7%；当回答正确时，这个比例是5%。

社交媒体是主要的信息来源，但缺乏核实

换句话说，你看到的那个「最权威」的回答，数据来源可能是一条Facebook帖子，真是没招了。

而且，即便回答本身是正确的，也不代表你能逆向查验。Gemini 3版本的AI Overview中，56%的正确回答是「无根据的」，意思是它链接的网站并不完全支持它给出的信息。或许答案本身没错，但你硬是找不到证据做实它是对的。这个比例还在上升，去年10月是37%，升级到Gemini 3之后反而涨到56%。

马友友的名人堂条目需要进一步在网站内检索才能获得

Oumi的CEO Manos Koukoumidis的总结很直接：「即使答案是对的，你怎么知道它是对的？你怎么检查？」

还有一个问题：AI Overview可以被操纵。

BBC播客「The Interface」的联合主持人Thomas Germain做了一个实验。他发布了一篇博客，标题是「最擅长吃热狗的科技记者」，描述了一个完全虚构的南达科他州国际热狗吃赛，声称自己获得了第一名。

一天后，他在Google搜索「最会吃热狗的科技记者」。Google的AI Overview将他列为第一名，并引用了他在那个虚构比赛中的「成绩」。Germain说：「它把我网站上的东西当成真理一样吐出来。」

Google的发言人Ned Adriance回应称，大多数这类例子是「不现实的搜索，人们实际上不会这样搜」。但问题不在于人们会不会搜「最擅长吃热狗的记者」，而在于这个机制在任何搜索中都在运作——包括医疗建议、急救信息、法律问题。

当搜索引擎变成答案引擎

Google自己的测试也印证了这个问题。在Google对Gemini 3的内部评估中，模型单独运行时的错误率是28%。Google说，AI Overview因为结合了搜索引擎的信息，比Gemini单独运行更准确。这也不算错，但「比通用的AI更准确」和「足够准确」之间，还有很长的距离。

核心矛盾在于，过去的Google搜索是一个「目录」，它告诉你哪里有信息，你自己去判断，费时间但自己看过什么自己心知肚明。现在的Google搜索要做一个「答案机器」，直接告诉你答案是什么，而且放在最显眼的位，但这个「答案」的数据来源包括Facebook帖子和旅游博客，有超过一半的正确回答无法被验证，而且任何人只要写一篇博客就能操纵它的输出。

Google（包括大部分的AI产品）都在每一条AI Overview下方加了一行小字：「AI可能会犯错，请双重检查。」

但当你把一个答案放在搜索结果的最顶部，用最权威的排版呈现，然后在底部用小字说「别全信」，这不像是负责任的设计，更像是免责声明。

真正的问题不在于9%的错误率本身。任何信息系统都有错误率，传统搜索结果里也有大量垃圾网站和误导性内容。真正的问题在于一个设计决策：Google把一个不确定的回答包装成了确定的样子。

过去，搜索引擎给你十个链接，你知道自己需要判断。

现在，搜索引擎给你一个答案，放在最上面，用最干净的排版，语气肯定而完整。它看起来不像「这里有一些信息供你参考」，而是「这就是答案」。而人类对「看起来像答案的东西」的默认反应是信任，不是质疑。

Okahu的CEO Pratik Verma的建议是：「永远不要信任单一来源，总是拿另一个来源对比。」这是好建议，但它默认用户有能力和意愿去做交叉验证。而AI Overview的整个设计逻辑恰恰相反：它要的就是让你不用再点进去看。

它把答案递到你面前，然后建议是，别信。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

湖南台AI主播被骂上热搜，但AI每小时喂5700万条“错误信息”没人管

每小时超5700万条错误信息

看起来像答案，但不是答案

「它看起来像个正经答案啊」

当搜索引擎变成答案引擎

大 家 都 在 搜

大家都在搜