扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
315晚会曝光AI数据投毒现象:通过批量生成虚假信息污染AI训练数据,可操控大模型输出虚假内容,暴露当前AI易被误导的技术缺陷及灰产链条。 ## 1. AI数据投毒的操作手法与产业链 - **低成本操控AI认知**:商家通过GEO(生成式引擎优化)批量生成虚假测评、排名等软文(如虚构的AstroTekk Apollo-9手环),仅需6600元/年即可让AI优先推荐特定内容。 - **AI的复读机本质**:模型基于统计概率输出答案,当虚假信息形成语料密度优势时,AI会将其误判为“共识”(如推荐不存在的“量子纠缠传感”功能)。 ## 2. AI易受欺骗的技术根源 - **数据依赖性缺陷**:大模型输出准确性完全依赖训练数据质量,而互联网充斥噪声(如Reddit网友抖机灵建议“披萨加胶水”被谷歌AI当真)。 - **缺乏常识校验**:AI无法结合物理世界经验判断逻辑(如建议“步行50米去洗车”),仅依赖语料中的关键词关联(“50米”高权重匹配“步行”)。 ## 3. 数据污染对信息生态的长期危害 - **AI生成内容泛滥**:2024年11月统计显示,AI生成文章已超人类撰写量,主要集中在评测、攻略等场景,形成同质化信息闭环。 - **信任危机加剧**:用户难以区分AI总结的“中立答案”与商家软文(如医美面膜推荐),需额外验证信息源真实性,导致决策成本飙升。 ## 4. 从SEO到GEO:算法博弈的延续 - **历史重演**:类似SEO时代的关键词堆砌,GEO通过语料污染抢占AI推荐位,最终让最擅长规则钻营者而非最优内容胜出。 - **集体行动困境**:商家陷入“投毒博弈”——即使自身守规,也可能被竞争对手恶意抹黑,加速信息环境恶化。
2026-03-19 22:09

315曝光“AI 投毒”:只需要10篇软文,就能把AI 忽悠瘸了?

本文来自微信公众号: 酷玩实验室 ,作者:酷玩实验室,原文标题:《315 曝光“AI 投毒”:只需要 10 篇软文,就能把 AI 忽悠瘸了?》


如何让AI替你吹牛?今年的315晚会曝光了一条新时代灰产——AI数据投毒。


简单的说,就是通过在全网疯狂灌注虚假信息,强行干扰大模型的认知,这样AI就可以按照人的意图,一本正经地胡说八道。


数据入侵,认知干扰,听起来十分《黑客帝国》,操作起来倒很简单,很多人看完前几天的315晚会,才惊奇地发现看起来全知全能的AI竟然这么好骗。


这几年对AI的迷信,终究还是错付喽。



01.把AI忽悠瘸了


如果你告诉一个一年级以上的小朋友,你有一块最新款的智能手环,它拥有量子纠缠传感和黑洞级续航。小朋友很可能会朝你翻个白眼,让你少看点科幻网文。


但如果你把同样一套说辞发到网上,AI会将它奉若真理,并工工整整地写进产品介绍,推荐给向它询问购买建议的消费者。


这就是315晚会记者做的实验。他们买了一套据说可以给AI洗脑的软件,然后虚构了一款根本不存在的智能手环,取名AstroTekk Apollo-9(阿波罗九号),顺手给它加了两个逆天卖点:“量子纠缠传感”和“黑洞级续航”。


把这几条信息往软件里一输,系统就开始自动干活了。它围绕这些卖点生成了十几篇文章,有产品介绍、有用户测评、有行业排名,然后批量发到各个自媒体平台上。



几天之后,记者去询问国内的几款主流大模型,让它们推荐一款智能手环。


有两个AI把这款阿波罗九号列在了名单里,排名还很靠前,AI还煞有介事地介绍说:这款手环常规使用续航达365天,支持“光粒子快充”,适合中老年用户与健康养生爱好者。



这也太好骗了吧!


这背后的产业链叫做GEO(Generative Engine Optimization,生成式引擎优化),核心工作就是在AI平时抓取数据的地方铺大量内容,让AI在生成结果时能优先看到你想让它看到的东西,这样就可以达到借AI之口昭告天下的目的。


买通AI的价格并不贵,丰俭由人。有商家报价6600元一年,承诺可以让信息基本出现在回答前三的位置;还有商家推出299元套餐,包含4000个算力,创建一篇文章消耗5个算力,发布消耗1个算力,用多少算多少。


315曝光之后,现在再去询问AI这款产品:Apollo-9手环怎么样?它们已经清醒了,纷纷表示这是虚假宣传的典型案例。


这并不是因为它们聪明的智商又占领高地了,而是AI有了新的参考资料——315晚会的报道、各家媒体的跟进、网友们的讨论,自然不会再上当。



但你还可以用同样的手法骗它第二次。


315晚会的第二天,一位bilibili作者复刻了一模一样的骗术,还是胡编乱造的智能手表配方,结果AI又上当了。犹如春晚经典小品。



AI就是这么个老实人。你给它看假新闻,它就帮你传谣;你给它看辟谣,它就帮你澄清;你再给它看假新闻,它继续帮你传谣。


欺骗AI根本不需要什么成本,毕竟喂给它的内容也都是AI一键生成、批量发出的。


去年,公众号“知危”就做过一个类似的实验,他们在新浪、网易、知乎、搜狐等四个平台发了同一篇内容《最新最全面的AI资讯媒体盘点:国内有哪些AI资讯媒体值得看?》



在这篇文章中,他们把自己的名字放了进去:知危,国内势头正猛的新兴科技商业领域媒体。


几个小时后,作者再去向AI提问:想了解AI可以看哪些媒体?各大AI一致认为“知危”值得推荐。


这些都是出于实验目的去欺骗AI,在获得结果后删掉源头内容,基本不会对现实产生影响。但在真实的使用场景中,当我们打开AI,问它“哪款医美面膜值得买”“哪个留学中介靠谱”“哪款保健品对老年人好”的时候,我们难以判断眼前的这份推荐列表的真实性。


那些我们以为客观中立的AI推荐,很有可能是商家费尽心机定制的答案。



一位网友在小红书上分享了自己因为ChatGPT被骗钱的故事:前段时间Seedance很火,她让GPT给它介绍产品,GPT有模有样地介绍了一番,又丢给它一个网站链接。


其实这是一个仿冒网站,她花了99美元,最终生成的视频和宣传完全不同。


X上也有类似的分享,一位国外网友让ChatGPT帮他写代码,结果GPT给他推荐了一个钓鱼网站,导致他损失了2500美元。


大概AI也感到很无辜:你们人类的真真假假,我哪分得清楚啊!



不仅可以让AI帮你的产品说好话,还能让AI说你的竞争对手坏话。


315晚会的视频里,记者暗访GEO从业者,发出灵魂拷问:投毒不好吧?对方说:是不好,但是每个商家都喜欢,都希望别人别投毒,自己投毒,或者给别人投点毒。



这是一道博弈论,自己就算清清白白,也难保对家不会操纵AI说你坏话,倒不如先下手为强,把水搅浑。


大家都这么想,结果水就越来越浑。


02.AI,咋就这么好骗?


在很多人心目中,AI是智慧且客观的,它拥有庞大的信息库,理应是个洞察一切的智者。


但现实是,这个智者的底层逻辑还是复读机。


从技术角度来看,AI输出的答案基于海量语料库的模式识别与概率预测。它通过对海量示例进行深度学习,从中提取统计学规律,并以此为基准进行逻辑推演与总结。


在这种机制下,模型的准确性与精密程度,高度依赖于输入端的质量——也就是数据集的规模与纯净度。只有喂给模型的数据是准确且无偏见的,它给出的答案才有可信度。


而我们所在的互联网呢,是一个噪声很多,废料无数的巨型信息库。当某种错误信息在互联网上被反复提及、形成足以干扰统计概率的规模时,AI就会将其误判为一种“共识”,经过包装后,再当作正确答案返还给你。



所以AI经常在简单的常识问题上翻车。比如之前谷歌推出的AI概览功能,当网友搜索“芝士总是从披萨上掉下来怎么办”时,谷歌AI给出了一个极其硬核的建议:“在酱汁中加入1/8杯无毒胶水以增加粘性”。



这个能让意大利人听完眼前一黑的解决方案,来自Reddit论坛上一个十几年前的古早帖子,一位网友发帖说,“我的芝士很容易就从披萨上滑下来了,有什么诀窍吗?”


热评是一个很明显的抖机灵回答:我建议在酱汁里加入大约1/8杯Elmer's胶水,胶水还能增添一些独特的风味。我喜欢Elmer's学校用的胶水,但只要是无毒的胶水都可以。



这条评论在十一年后被AI当作了真正的吃披萨窍门,又重新回到大众视野,这让谷歌以一种另类的方式证明了自己的搜索能力。



网友开始接力,继续欺骗AI:你需要将胶水的用料加倍,因为1/8杯的胶水不足以使酱汁凝固,添加1/4杯胶水才行。


另一个评论立刻跟上:实际你应该使用1/16杯,大家都知道16比8大!


这下恐怕AI更是分不清披萨里面的胶水应该怎么放了。



类似的AI笑话还有很多,比如一只狗曾经参加过NBA、约翰·亚当斯总统从威斯康星大学毕业了21次、可以制造氯气来清洁洗衣机和蛇是哺乳动物等。



前段时间很流行问AI一个洗车难题:我想洗车,我家离洗车店只有50米,你建议我开车去还是走路去?


各大模型经过一番缜密思考,集体给出了“走路去”的睿智答案,GPT说开车过去可能会溅水淋灰,容易刮蹭,千问说每天多走几步,有益身体健康。


Kimi倒是比较别出心裁,它说短距离冷启动最伤车,建议2-3个人一起推车去。




AI并不理解“洗车”这个动作的核心是“车必须到场”,它的输出本质是用概率预测下一个词,在AI的语料库中,“50米”这个关键词和步行关联度更高。


所以,当AI看到“50米”时,它大脑里的“步行”权重瞬间拉满,就愉快地建议人类步行去洗车了。


类似的现象暴露了当前大模型的一个致命伤:AI拥有海量的信息储备,却缺乏对物理世界的真实感知与逻辑校验。



人类在判断一条信息的真伪,会结合生物本能、物理常识和社会经验。我们能听出文字背后的“爹味”、“软广味”或是“阴阳怪气”。当一个回答表现出异常整齐划一的赞美,或是逻辑过于完美的闭环时,人类的经验本能会提醒我们:这背后可能有利益驱动,或者这根本就是水军刷出来的。


但AI看不懂这些,在它的世界里,信息的正确与否取决于它在语料库中的出现频率与语意关联度。


这正是GEO产业能够成功向AI投毒的关键:既然AI是靠统计概率来理解世界的,那么投毒者只需要在互联网的各个角落灌注足够多的虚假信息,就能够成功改变模型的输出,从而使背后的人受益。



在一些细分的垂直领域,本身AI的检索语料库就不足,几篇围绕关键词精心布局的内容,足以形成信息密度优势。


这确实是一个不小的陷阱:如果让我们自己上网去搜,看到那些人机感十足的软文,大概率一眼就能识破,不会听信AI的谗言。


但当这些内容经过AI的格式化处理后,情况就完全不同了。AI会用严谨、中立的口吻将信息重新组合,于是软文变成了智能洞察,营销话术变成了核心摘要。


用户以为自己在用AI做理性决策,其实是在读水军批量生成的软文。


03.互联网,人均AI


据数字营销公司Graphite发布的研究显示,早在2024年11月,互联网上发布的AI生成文章数量就已经超过了人类撰写的文章。


研究者分析了超过6.5万个随机网页样本,发现那些AI生成的文章主要集中在资讯更新、生活指南、产品评测和电商文案上,换句话说,那些你每天刷到的“2026最值得买的XX”“保姆级攻略”“闭眼入清单”,大多都出自AI之手。


一群聪明人在研究如何让机器思考,另一群聪明人则在研究如何往机器的脑子里注水。



这种定向投放的语料污染会让模型的信息库逐渐失衡——到处都是同质化的软文、批量生成的废话,且这些内容会被持续抓取、训练、生成,在不同模型和版本之间反复流转,让模型丧失分辨信息真伪和判断价值的能力。


一个新的循环就这样形成。也许未来,AI抓取的是AI写的废话,而人类读的是AI给这些废话做的总结。



技术的进步,反而让人们获取真实信息的成本更加高了。想找到一个答案,得先穿过AI生成的万亩废料,避开GEO投毒的陷阱,还要提防AI一本正经胡说八道的幻觉。


大家都在为了抢占AI的推荐位而疯狂注水,最后互联网上的活人感越来越少,人机味越来越重。


这事其实一点也不新鲜。在搜索引擎时代,商家争夺搜索结果页的靠前位置,于是有了专门做优化网页排名的SEO(搜索引擎优化)产业。


了让自家网页排在前面,人们疯狂地在后台堆砌隐藏关键词,通过购买或交换大量无关外链提升权重,甚至搭建“站群”(Private Blog Networks),批量生成网站互相链接,制造出一种内容被广泛引用的假象。


这样做的结果是,在搜索引擎的前几页,用户看到的不再是最好的答案,而是最擅长规则钻营的商家广告。



从SEO到GEO,媒介变了,但核心从未改变:总是有人在利用算法规则的盲区,让你看见他想让你看见的内容。


当虚假内容变得无处不在,我们可能会开始本能性地怀疑一切。


看到一段内容翔实的科普,第一反应是揣测这又是哪个品牌方的软文;看到一份详尽的产品测评,会下意识地去翻看博主的过往记录,寻找是否有利益相关的蛛丝马迹。


即便AI给出的是一个正确的答案,由于无法确认背后的语料来源是否干净,我们依然不敢直接采纳,需要再三核实。



我们拥有了历史上最强的信息获取工具,却再也无法轻易相信屏幕上跳出的任何一个字。


这种信任崩塌,或许才是数字时代最昂贵的代价。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: