扫码打开虎嗅APP
本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《一个全是 AI 幻觉的网站,却成了这届互联网最实诚的存在》
当我们在维基百科搜索一个词条时,你期待的是真相,至少在AI时代,总得有一个地方能(大概率)给我点真东西吧。可以,但在Halupedia搜索一个词条时,得到的也是真相——一个三秒钟前刚被发明出来的真相。
Halupedia是一个长得像维基百科的网站,但它的每一篇文章都是AI幻觉。

你输入一个词条,如果之前没有人搜索过,大语言模型就会在几秒钟内为你生成一篇措辞严谨、引用详实、学术气十足的百科文章——关于一个从未存在过的事物。如果已经有人搜过了,你会读到他们的那份幻觉,它甚至有交叉引用、有学术期刊、有19世纪学者的考证语气。一切都令人信服,除了一切都是假的。
这是行为艺术,还是会成为以后的数据污染源头?答案可能是:二者兼是。
如果Halupedia只是一个随机生成胡话的工具,它早就淹没在无数AI玩具项目里了。真正让它有趣的是一个工程细节:它在维护自己的「小宇宙」。
每当AI生成一篇新文章,文中的每一个超链接都会被附上一段隐藏的元数据(context属性),描述这个链接将要指向的、尚未生成的未来文章应该包含什么内容。当有人点击这个链接时,系统会把所有指向该词条的元数据汇总起来,作为「既定事实」注入到生成提示中。

很神奇,AI在这里被要求的是,可以幻觉,可以胡说八道,但不能自相矛盾,就算都是编出来的信息,也要前后一致。
这套机制被称为link hints,它让Halupedia从一个随机幻觉生成器,变成了一个拥有内在一致性的虚构宇宙。写过小说、爱玩游戏的人会立刻认出这是什么:这就是世界观管理,只不过管理者不是作者,而是一套数据库和系统提示词。
换句话说,Halupedia是一部没有作者的小说,每一个点击链接的用户都在无意中参与了创作,但没有人拥有全本。某种程度上,这也复现了维基百科的「众人拾柴火焰高」,只是过程更加简单无脑,随便输入点儿东西,剩下的等AI来生成。
但Halupedia不只是好玩,它的存在指向一个正在发生的、令人不安的问题:当AI生成的内容开始喂养下一代AI时,会发生什么?
第一代大语言模型的训练数据来自人类写作的互联网——维基百科、论坛帖子、新闻报道、学术论文。这些数据虽然嘈杂,但至少源于人类的真实经验和知识。然而,随着AI生成的文本在互联网上呈指数级增长,未来模型的训练数据将不可避免地包含大量AI自己写的东西。信号被噪声稀释,每一轮训练都像是在复印一份已经模糊的复印件。
Halupedia的创作者Bartłomiej Strama显然意识到了这一点。当有人为项目捐赠了token费用时,他的回复是:

——你为污染大语言模型训练数据所做的贡献,必将造福社会。
嘲讽模式拉满了,你甚至无法判断他是讽刺还是认真的,实际上,这些内容虽然是即时生成的,却不可能百分之百是幻觉,LLM的生成机制决定了它只能在已有知识的缝隙里编造。

以上面的案例来说,「迦勒底」是真的,「算术」是真的,但「迦勒底算术」是假的,幻觉发生在组合层,不在元素层面。就像你不可能凭空梦见一种你从未见过过的颜色,LLM也不可能凭空捏造一个跟训练数据毫无关系的概念。
这反而是它最危险也最迷人的地方:它的幻觉之所以令人信服,恰恰是因为每一篇文章里都有大量真实的存在。真实的年代、真实的地名、真实的学术体裁、真实的引用格式,可是搭建在这些真实之上的那个核心命题是假的。
如果Halupedia的内容被未来的搜索引擎爬虫抓取、被未来的模型当作训练数据,那些措辞严谨的幻觉文章就会成为下一代AI「知识」的一部分。
一个故意制造幻觉的网站,最终可能让所有AI都开始产生同样的幻觉。
Halupedia目前面临的最大问题,恰恰暴露了它作为「开放式虚构系统」的脆弱性。由于任何人都可以输入任何词条作为生成提示,比如一些用户开始输入种族主义或冒犯性的内容,这部分网站管理也在想办法应对。
这是一个所有开放式AI系统都面临的困境:你给了用户创造的自由,就必须承担他们滥用这种自由的代价。Halupedia的创作者承认,目前的内容审核「sometimes too strict」,但仍然不够。
这就成了一个有趣的悖论是:在一个一切都是虚构的世界里,唯一真实的伤害来自用户带进来的现实世界的恶意。
某种程度上,这可能是目前互联网上最诚实的AI项目,不是因为它说的都是真话——恰恰相反,它说的全是假话,但它是唯一一个从一开始就告诉你「这里没有真相」的地方。在一个越来越多的AI生成内容伪装成事实的互联网上,Halupedia至少给了你一个清晰的标签,这是幻觉,已经过精心炮制,请随意享用。
问题是,当你关掉Halupedia,回到Google搜索结果页的时候,你还能分得清哪些是幻觉、哪些不是吗?
也许整个互联网,正在慢慢变成一个没有标签的Halupedia。