扫码打开虎嗅APP
本文来自微信公众号: 青年记者杂志 ,编辑:小青,作者:方师师 叶梓铭,原文标题:《青记独家丨“有组织的无序”:生成式搜索引擎的技术偏向与知识位置的离散》
本文以温伯格的知识位置理论为分析框架,聚焦生成式搜索引擎中知识位置的离散机制展开深入探究,试图揭示算法主导下知识生产与传播的内在逻辑,剖析知识位置离散对网络知识秩序的深层影响,以期为生成式搜索引擎的技术规范、伦理治理与制度建设提供理论参考与学理支撑。
随着人工智能技术的迭代升级,生成式AI与搜索引擎的深度融合催生了生成式搜索引擎(Generative Search Engine)这一新型信息服务形态,它打破了传统搜索引擎从信息检索到链接呈现的单一模式,能够直接生成结构化、个性化的知识内容,极大地提升了信息获取的效率与便捷性。凭借高效的内容生成能力,生成式搜索引擎逐渐成为网络知识生态中不可或缺的重要组成部分,推动知识传播进入数据主导、模型生产的新阶段。
然而,技术革新也引发了一系列新型治理难题与学术争议,突出表现为生成式搜索引擎对传统知识生产秩序与网络知识生态的冲击。与传统知识生产模式不同,生成式搜索引擎采用机器自动化生产方式,其知识的生成、传播、反馈与优化过程,脱离了原有的作者创作、编辑把关、传播扩散、反馈修正的知识生产流程,呈现出“去主体化”“去审核化”的鲜明特征。而在现有的法律体系与治理框架下,算法生成的内容来源复杂且具有隐蔽性,人们难以清晰界定信息生产的具体作者或责任主体,传统的著作权保护、信息问责机制难以直接适用于这一新型生产模式。
当信息失实、内容谬误等问题发生时,由于责任主体模糊,往往找不到可供问责的对象,错误信息难以得到及时纠正,进而损害用户的信息权益,甚至影响社会公共利益。[1]更为严峻的是,被AI聚合生产出的知识信息并不会随着单次传播的结束而消亡,反而会重新进入生成式搜索引擎的模型训练库,成为下一轮内容生成的“素材”,形成“错误复制—传播扩散—再次生成”的恶性循环,进一步加剧错误信息的泛化与蔓延,使得网络知识体系逐渐脱离现实基础,陷入“空口无凭、无源可溯”的空心化困境,严重冲击了既有网络知识秩序的稳定性与权威性。[2]
在此背景下,一个重要且紧迫的学术问题愈发凸显:生成式搜索引擎的新型信息生产方式,究竟对当前的网络知识秩序带来了何种深层影响?这种影响是表层的形态变革,还是深层的结构性重塑?与此同时,知识的存在与呈现方式是否因生成式搜索引擎的技术架构变革而发生本质转变?这些问题的解答,不仅关系到对算法时代知识生产逻辑的准确把握,更对生成式搜索引擎的技术规范、伦理约束与制度建设具有重要的现实意义。
基于此,本文以温伯格的知识位置理论为分析框架,聚焦生成式搜索引擎中知识位置的离散机制展开深入探究,试图揭示算法主导下知识生产与传播的内在逻辑,剖析知识位置离散对网络知识秩序的深层影响,以期为生成式搜索引擎的技术规范、伦理治理与制度建设提供理论参考与学理支撑。
生成式搜索引擎是指以生成式AI技术(如大语言模型)为核心,结合传统搜索引擎的信息检索能力,能够基于用户查询需求,自动聚合、重组、生成结构化知识内容的新型信息服务工具。与传统搜索引擎“检索—链接”的核心模式不同,生成式搜索引擎的核心特征在于“生成—呈现”,其无需引导用户跳转至外部链接,即可直接输出符合用户需求的个性化、整合化知识内容,其知识生产具有自动化、去主体化、循环性等鲜明特征。需要明确的是,本文所研究的生成式搜索引擎,不包括仅具备简单文本生成功能的辅助检索工具,特指能够实现知识内容的自动聚合、深度生成与循环迭代的新型搜索引擎形态。
温伯格在《万物皆无序》一书中指出,知识并非孤立存在,其生产、传播与呈现方式,始终与特定的技术环境、社会语境紧密关联,技术的变革会直接推动知识位置的变迁,进而引发知识形态、知识价值与知识秩序的重构。他将知识位置的变迁划分为三个阶段:第一阶段为物理位置,知识固化于书籍、期刊等实体载体,思想被锁定在特定页码与章节之中,位置具有唯一性与不可移动性,知识的可追溯性依托于实体载体的物理标识;第二阶段为标签索引位置,知识完成数字化转型后,通过关键词检索实现定位,虽脱离了实体载体,但仍可通过索引体系追溯信息来源,知识的位置与数字标签形成固定关联;第三阶段为引用网络位置,以维基百科的协作编辑与互联网超链接结构为典型代表,每一个链接对应一个具体的网页地址,用户在获取知识本身的同时,更能感知其来源与关联网络。
在《知识的繁荣与危机》中,温伯格进一步指出,“传统的知识是纸的意外产物,在网络世界中,知识既不存在于书籍之中,也不存在于头脑之中,而是存在于网络本身”[3]。在引用网络位置阶段,知识价值不再由单一坐标决定,而取决于其在引用网络中的关联强度,核心特征表现为知识位置的流动性与可追溯性并行共存,无序与秩序相互嵌套。[4]
温伯格的知识位置理论为我们解读生成式搜索引擎中的知识变迁提供了重要的分析视角。数字时代,知识的生产与传播不再依赖于固定的权威或平台,生成式搜索引擎作为算法主导的新型知识生产工具,推动了知识位置的进一步演化,传统网络知识秩序的运行逻辑再次面临重构。所谓网络知识秩序,是指网络空间中知识的生产、传播、反馈与优化所形成的相对稳定的运行模式与规则体系,核心功能在于规范知识行为、保障知识质量、维护知识生态的平衡与有序。这一秩序的形成,依赖于主体责任、技术规范、制度约束与社会监督的协同作用,具备稳定性、公正性、可追溯性与多样性,而生成式搜索引擎对这一秩序的重构,也正是本文重点剖析的问题。
基于温伯格的知识位置理论框架,本文将重点分析生成式搜索引擎中知识位置的具体表现与形成机制,探究其对网络知识秩序产生的深层影响,并据此提出针对性的规制路径。
与知识位置的隐匿
生成式搜索引擎带来的知识离散,并非仅体现在知识的呈现方面,而是渗透到知识的生产、传播与验证全过程。这一变革的核心,在于生成式搜索对网络链接的处理方式发生了本质转变:在传统检索模式中,知识依托纸质检索卡片、URL地址、超链接等形成明确的“位置”标识,这类标识赋予知识可追溯性与可验证性,更是区分事实与观点、判断信息客观性的核心边界,用户可通过追溯来源的权威性对信息进行甄别。而在生成式搜索引擎中,链接的“消隐”并非指链接本身不存在,而是指链接作为知识位置标识的功能被弱化,用户无法从界面中直接观察知识的原始链接,也无法准确定位知识的来源节点。
生成式搜索引擎的知识生产核心技术是检索增强生成(Retrieval-Augmented Generation,RAG)。自2020年由Meta研究者提出以来,RAG已从朴素RAG(Naive RAG)逐步演进至高级RAG(Advanced RAG)、模块化RAG(Modular RAG),并发展至当前的智能体RAG(Agentic RAG)阶段。[5]在技术迭代中,知识的位置被持续弱化,隐匿性与离散性不断增强,最终彻底重塑了知识的存在形态与定位逻辑。
朴素RAG作为初代范式,依然遵循“索引—检索—生成”的线性流水线。在索引阶段,外部知识经清洗、分块、编码,构建向量索引,知识片段与原始文档块形成固定映射,位置对应明确的节点;检索阶段通过算法匹配文档块,结果直接关联原始来源;生成阶段拼接查询与文档块输入模型,追溯链路清晰。此时的知识位置虽脱离单纯URL地址,但以文档块为明确锚点,离散化特征不明显。
高级RAG引入了检索前优化与检索后处理。检索前通过滑动窗口、多粒度分块、图结构索引等策略,使单一知识对应多个节点,破坏了位置的唯一性;动态嵌入与领域微调让知识表征依赖语境,映射关系更加复杂。检索后经重新排序、提示词压缩等操作,参与生成的知识片段与原始检索结果产生差别,追溯链路被切断;查询重写技术进一步模糊了查询与原始知识位置的关联,多阶段加工让知识原始位置被层层遮蔽。
如果说高级RAG使得知识位置趋于模糊,那么模块化RAG则采用“核心模块+扩展模块”的乐高式架构,让知识位置深度内部化。新增的搜索、记忆、对齐等模块,使知识流动分散在模块交互中:搜索模块从知识图谱中提取知识,记忆模块挖掘模型中的隐性知识,知识来源不再对应外部可见链接。模块的灵活组合与端到端训练形成黑箱,知识位置融合在模块参数、交互规则与中间结果中,用户无法直接追溯来源,知识的离散化程度显著提升。
智能体RAG则赋予系统自主决策能力,知识位置被彻底关系化。系统可主动判断检索时机,如Self-RAG通过反射令牌决策、Flare依据概率阈值触发检索,知识获取成为动态交互过程。多步推理与迭代检索让知识位置分散在多轮交互中,实现“检索—生成”循环。关系化指的是,此时知识位置是多源信息的动态关联集合,依赖智能体决策逻辑与交互历史,呈现出高度的离散化与不确定性。
综观RAG技术的多阶段演进,随着大语言模型的不断嵌入与信息来源的持续扩展,技术架构的灵活性与生成结果的相关性不断提升,知识位置结构却呈现出明显的离散化趋势:从朴素RAG中仍可追溯的文档链接位置,到高级RAG中因查询改写导致的知识位置模糊,再到模块化RAG中检索模式“黑箱化”带来的知识位置内部化,最终到智能体RAG中依赖系统自主决策形成的关系性知识位置,知识的位置不再对应网络中的单一节点,而是离散在模型的训练过程、海量的模型权重、知识图谱乃至各类外部数据来源之中,这些因素共同影响着系统对知识的选择与输出。
至此,以链接为代表的知识位置在RAG技术的演进中逐渐隐匿,但这一转变并非单纯的技术效率提升,而是技术开发者群体在迭代研发过程中,为降低幻觉率与提高生成质量形成的技术取向:以牺牲知识位置的可见性换取技术架构的灵活性与输出结果的优质性。可见,在生成式人工智能系统中,知识的位置不再稳定存在于网页或文献之中,而是在模型与网络资源的持续互动中不断被重新生成。为解决幻觉问题展开的技术努力,并未恢复知识的稳定位置,反而推动知识位置从可定位的外部资源向不可见的内部关系性结构进行根本转变。
温伯格指出当前社会面临着一个核心悖论:我们可以比以往任何时候都对未来更具掌控力,但我们驾驭世界的技术和认知手段,恰恰证明了这个世界已经超出我们自欺欺人的理解。这一悖论在生成式搜索引擎领域表现得尤为鲜明:在模型的持续迭代下,知识查询与组织过程的不确定性与生成结果的高度结构化和清晰性同时存在,构成了算法时代知识秩序的内在张力。
生成式搜索引擎以互联网信息为基础,却从根本上重构了知识的“位置”属性,使网络知识秩序呈现出“有组织的无序”特征。这种看似矛盾的状态,源于知识语义的概率化、知识关联结构的离散化、知识位置的动态流动性三重机制的相互强化。三者共同推动知识位置脱离传统权威、固定、可追溯的组织逻辑,形成来源模糊、标准缺失、结果流变的现实,知识在模型内外的离散化成为常态。
(一)知识语义的概率化:从固定节点到概率分布。以RAG为代表的生成式搜索架构,不再简单还原知识的原始出处,而是将知识位置转化为概率性结构。知识不再锚定于可核验的文档节点,而是在向量表示、检索匹配与文本生成的连续运算中动态生成。生成式搜索以语义向量化为基础,向量空间的几何位置看似具备数学上的客观性,但其结构本质上由训练语料的统计分布所塑造。向量空间中的概念邻近性,更多反映的是既有知识体系内部的统计关系,而非现实世界中真实的知识关联结构。[6]在这一意义上,知识位置的偏向不再体现为单一信息来源的偏差,而是表现为训练语料整体分布的偏向,语料的覆盖面与代表性直接决定了知识的概率分布。
在生成式搜索环境中,针对知识位置的干预也随之发生转变。首先表现为对语义空间概率结构的主动操控,生成式搜索优化(Generative Engine Optimization,GEO)的兴起,正是知识位置操控日常化的典型体现。不同于传统搜索引擎优化(SEO)通过外部链接提高网页排名,GEO在提升传统网页排名的基础上,通过主动调整文本结构与语义模式,适配人工智能的语料处理需求,使特定内容更容易进入模型的训练语料或提高在检索数据库中的优先级。这一转变意味着内容生产者不再仅仅争夺网页的可见性[7],而是开始猜测并争夺在模型知识结构中的位置权重,通过操控概率分布影响知识的输出结果。
(二)知识关联结构的离散化:从单一坐标到多元组合。RAG技术的迭代提升,核心目的始终围绕改进与优化大模型的技术特性,提升生成结果的准确性与贴合度。但大模型利用推理能力解读海量网络信息的尝试,并未构建起一个新的、统一的知识标准体系,而是将网络数据集合进行了技术化组织。在这一过程中,知识的位置不再对应某一固定的存储点,而是表现为在当次搜索过程中临时组织的信息组合,其关联结构呈现出明显的离散化特征。同时,各生成式搜索平台的数据接口存在显著差异,在平台数据主权的要求下,知识的相关性高度依赖系统日志与底层工具调用记录,这些记录并未向普通用户开放,用户在界面中看到的引用标记只是知识复杂空间结构的简化投影,并非其完整的调用与生成路径。
知识的位置在此背景下仍然存在,但已经从具体的网络节点转化为技术系统、平台间数据交换合作协议的结构关系。这一转变也使得知识操控的方式发生了本质改变。所谓数据投毒(data poisoning),是指通过向训练语料或检索数据库中注入针对性的误导性内容,引导人工智能模型在向量空间与检索索引中形成异常的邻近关联,进而在生成过程中被优先调用。[8]与传统通过构建虚假网页影响搜索排名的外部操控方式相比,数据投毒不再依赖公开可见的链接结构,而是在模型训练或检索阶段直接改变知识节点间的内部关系。由此,知识操控的形式从外部可观测的传播过程,转向了系统内部不可见的结构性调整。
至此,知识位置由具体的网络节点转化为技术系统、平台数据协议交织而成的结构性关系。与之相应的知识操控也从外部可见的流量竞争,转向算法内部的结构性干预。数据投毒等恶意GEO行为,通过在训练语料或检索库中植入误导信息扭曲向量空间中的语义邻近关系,从而在生成环节优先激活特定内容。与传统虚假链接相比,此类操控更隐蔽、更难溯源,知识治理由此面临从外部监管到内部穿透的全新挑战。
(三)知识位置的持续流动:从静态标识到动态流变。在智能搜索的技术环境下,知识的位置不再是静态的标识,而是呈现为一种随时间演化的动态过程,其边界在技术迭代、模型运行、检索优化的时间进程中持续流变,时间属性成为知识位置的重要特征,并在生成式搜索引擎技术的发展中被不断强化。如可微分搜索索引(Differentiable Search Index,DSI),是将传统的外部检索过程转化为模型内部的生成过程,文档的位置标识符可直接由模型预测产生。[9]在此技术框架下,检索知识位置不再是对外部数据库的静态查询,而成为模型参数空间中的一次概率更新,知识的位置因此由外部的文档结构彻底转移到模型的内部状态之中,随着模型参数的调整持续变化。
在这样的技术条件下,知识的位置表现为概率权重在时间中的持续转移,知识并非稳定存在于某一节点,而是在模型的运行过程中不断重新分布。值得注意的是,RAG技术的推理与整合过程,不可避免地将所有知识、事件以特定的时间截面进行提取与处理,而对于早期或非公共事件而言,由于网络信息量极少,部分RAG技术架构并未设置信息源的检测与评估机制,只是基于模型预训练的偏差对信息进行诠释、解读和筛选,这也是模型持续产生“幻觉”的重要原因。[10]
罗伯特·帕克认为,新闻“不是物理科学那样的系统性知识”,而是作为一种变动的、短暂的、孤立的事件的“熟识知识”[11]。新闻作为一种特殊的知识类型,其时间性的严格要求从根本上制约着新闻机构对事件内在逻辑的建构,其真实性依赖于不断更新的信源网络与专业编辑的核查过程。[12]而生成式搜索主要依赖准静态的训练语料与定期更新的检索数据库,在面对尚未形成稳定信息乃至网络中未出现或根本不存在的事件时,模型即使具备全网的搜索数据接口,也往往难以判断哪些知识在其数据环境中是可知的,哪些尚未进入模型的可及范围。而同一事件在不同的时间点可能对应完全不同的语义邻近关系,知识的位置随时间持续变化,模型的输出却往往以确定性的语气呈现结果,形成了“动态的知识位置”与“确定性的输出结果”之间的矛盾。新闻机构通过专业的来源核查制度维持知识位置稳定性的能力,在生成式搜索环境中难以直接转移至普通用户层面,用户无法判断所获取的知识是否符合事件的时间特征与真实状态,知识对应的时间确定性和它的目标用户之间逐渐分离。
伴随着大模型持续接入各类数据,知识位置的持续离散已成为生成式搜索引擎的固有特征,这一过程不仅重构了网络知识秩序,更带来了权责边界的模糊化,使生成式搜索引擎的错误输出归责面临着制度性难题。温伯格认为,机器学习等知识组织技术如果不加控制,“它们就会以最残酷的方式对待最弱势的群体”[13]。
当知识的位置离散在训练数据、向量空间结构与检索数据库之间时,错误信息的生成往往难以归因于单一主体,模型输出的“幻觉错误”可能源自多个层面:训练语料中的固有偏差、检索数据库的信息更新滞后、排序算法的结构偏向、生成过程中的概率延伸、多模块协同工作中的逻辑冲突等,而这些因素在技术上相互交织,难以进行清晰的区分与界定。例如,模型对某一事件的错误输出,既可能是因为训练语料中缺乏相关的准确信息,也可能是检索过程中匹配了错误的文档块,还可能是生成过程中模型的概率推理出现偏差,技术的复杂性让责任归因失去了明确的指向。
责任边界因此随着知识位置的离散而变得模糊。2025年12月,全国首例因生成式人工智能模型“幻觉”引发的侵权纠纷案审结,法院虽明确了生成式AI服务侵权适用过错的责任原则,但在知识位置离散的技术背景下,如何认定服务提供者的“过错”以及如何界定其注意义务的边界,仍面临着诸多现实难题。另外,知识位置离散所引发的责任边界不确定性,与知识基础设施控制权的集中趋势相互强化。生成式人工智能现已深度嵌入各类应用,其知识结构扩散至整个信息生态,知识位置的控制权从分布式网络节点逐步向少数人工智能基础设施提供者集中,形成技术权力垄断。平台控制数据流动,大模型调控知识呈现,而普通用户与内容生产者则处于被动接受地位,缺乏干预能力。
知识位置的离散并未“消除”知识的秩序,而是形成了以概率中介的新型知识秩序。算法系统对海量的网络知识进行了前所未有的技术整合,提升了知识获取的效率,同时也削弱了知识位置的可追溯性与可见性,让知识秩序的形成过程变得“黑箱化”。生成式搜索引擎在组织无序的网络数据的同时构建了新的“知识无序”状态:向量空间的几何校准、上下文窗口的序列编排,引用标记的形式附加等,共同构成了高度组织化的技术架构,却让知识的位置变得离散、模糊、不可追溯。
生成式人工智能带来的关键挑战,并非单纯的模型错误率问题,而是知识位置结构发生了本质变化,产生了制度化的不确定性。当知识来源难以观测、生成过程难以解释、责任主体难以界定时,传统基于内容审查或平台责任的治理模式就面临结构性局限:内容审查无法覆盖模型的动态生成过程,来源监管难以追踪离散的知识节点,平台追责面临着过错认定的技术难题。
生成式搜索架构下的知识呈现“有组织的无序”,这一结构性悖论在于:技术架构越复杂、检索的数据量越大,知识的位置就越离散、越不可追溯,但模型生成的自然语言答案反而越流畅、越确定。RAG技术演进的内在逻辑是以架构的灵活性换取输出质量的提升,而这一技术交换的代价是在界面的确定性与系统内部的不确定性之间形成不可见的结构性落差。正是这一落差,让知识位置的离散问题消失在用户的视野之外,用户在获取流畅答案的同时,无法感知背后的知识风险。
现有责任认定体系的预设前提是知识位置的稳定且可见,然而当知识的位置分散在训练语料、向量空间与检索索引之间,过错责任的归因链条就难以建立。需要明确的是,知识的离散是生成式搜索引擎技术发展的必然结果,但并非中性的技术特征,其具有明显的社会后果:其系统性地将知识获取的风险从知识组织者转移至普通用户,用户成为模型技术缺陷的最终承担者。
应对生成式搜索引擎的治理难题,有效的方式不在于开展无法评估的全量内容审计和查验,而在于从界面与模型内部的技术设计入手,打破界面确定性与内部不确定性的结构性落差,重建知识获取的可问责空间。因此,生成式搜索引擎治理的目标应优先聚焦三个方面:其一,要求生成式搜索引擎在输出结果时,主动披露检索数据的来源边界与结果的置信区间,让用户知晓知识的来源范围与可靠程度;其二,优化模型的提示工程与输出机制,避免以确定性的语气呈现概率性的结果,减少用户的认知偏差;其三,建立行业统一的、可审计的检索—生成日志标准,要求完整记录知识的检索、组合与生成过程,使知识位置的形成过程相对可查,让知识的生成从黑箱走向透明。
当知识的量化组织方式使公共问责在结构上趋于困难,如何在知识位置不再公开可见的条件下重建可问责的空间,构建适配技术特征的法律制度与治理体系,平衡技术创新与权益保护,将是生成式搜索治理在可预期时间内无法回避的核心问题。
参考文献
▼
[1]澎湃新闻.律师称被百度AI自动生成虚假犯罪信息侵害名誉,起诉百度索赔百万[EB/OL].(2022-12-12)[2026-03-03].https://www.thepaper.cn/newsDetail_forward_32161393.
[2]年度网络内容治理研究课题组,方师师,万旋傲,等.边界挑战与生态治理:2025年中国网络内容治理报告[J].新闻记者,2026(01):72-85.
[3]温伯格D.知识的繁荣与危机[M].胡泳,高美,译.北京:人民邮电出版社,2025:79.
[4]温伯格D.万物皆无序:新数字秩序的革命[M].李燕鸣,译.太原:山西人民出版社,2017:24-32.
[5]Gao Y,Xiong Y,Gao X,et al.Retrieval-augmented generation for large language models:A survey[J].arXiv preprint arXiv:2312.10997,2023,2(1):32.
[6]Karpukhin V,Oguz B,Min S,et al.Dense passage retrieval for open-domain question answering[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP).2020:6769-6781.
[7]方师师.搜索引擎中的新闻呈现:从新闻等级到千人千搜[J].新闻记者,2018(12):45-57.
[8]Hartle III F,Mancini S,Kerry E.Data poisoning 2018–2025:A systematic review of risks,impacts,and mitigation challenges[J].Issues in Information Systems,2025,25(4):433-442.
[9]Tay Y,Tran V,Dehghani M,et al.Transformer memory as a differentiable search index[J].Advances in Neural Information Processing Systems,2022,35:21831-21843.
[10]Huang L,Yu W,Ma W,et al.A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions[J].ACM Transactions on Information Systems,2025,43(2):1-55.
[11]张伟伟.“实践知识”与“表象知识”——作为“知识”的新闻与媒介社会学的研究演进[J].新闻记者,2018(09):56-66.
[12]郑忠明,江作苏.作为知识的新闻:知识特性和建构空间——重思新闻业的边界问题[J].国际新闻界,2016,38(4):142-156.
[13]温伯格D.混沌:技术、复杂性和互联网的未来[M].刘丽艳,译.北京:中信出版社,2022:249-250.