2026-04-16 17:47

如何识别AI制品？2026版

果壳

速览

本文来自微信公众号：果壳，作者：糕级冻雾，编辑：沈知涵

自从AI产物“泛滥”，我最爱干的一件事就是帮网友打假、鉴伪。

比如有次我看到小红书上有人发帖求助，疑似买家用AI做张产品损坏的假图骗取“仅退款”。我正帮网友一板一眼地分析，“断裂处有点模糊，对不上”，然后看到有其他帖子直接甩出国家反诈中心App的鉴定截图。

好家伙，国家终于出手了！不久前，国家反诈中心App新增了对疑似AI图像、视频、文本、人声音频内容的检测功能。

如今几乎每一天都有新迭代的生成式技术出现。AI凭空生成极具现实感的长视频，连人物瞳孔里的光影折射和微表情下的皮肤纹理，都已经做到了符合人直觉的以假乱真。

对于互联网的不信任，在今天绝不是什么被迫害妄想症。AI伪造确实引发了一场关于真实的信任危机。

往往对付一项技术的最好办法，是用技术打败技术。今天，我们就来聊聊生成式内容时代的新护城河：隐形水印。

道高一丈

顾名思义，这是一种看不见的水印。相比浮在图片上的传统的水印，极容易被简单修图手段抹掉，逃过人眼，隐形水印是通过算法，将标识信息直接写在内容的数据底层。

以当今被应用最广的隐形水印技术SynthID（DeepMind团队推出的）为例。SynthID的背后并不是一个简单的加密公式，训练SynthID的方式是两个深度学习模型左右互搏。一个“嵌入模型”负责把水印藏进去，一个“提取模型”负责把水印找出来。这两个模型经历了成千上万次的对抗训练，嵌入模型试图把信号藏得更深，提取模型则在被压缩、被涂改的残破数据中寻找嵌入痕迹。

针对不同媒介的数字内容，嵌入水印的方式也不同。

·图片

数字图像的本质是几百万个发光像素点的集合。当AI绘图时，它就是在计算并决定像素的颜色分布。嵌入模型的做法是，在生成瞬间做人眼根本无法察觉的极其微小的调整。比如，让画面中特定区域的几千个红色像素，在亮度上集体暗了0.01%，并在空间排列上形成某种特定的规律。即使你是专业调色师，肉眼也未必看出“正红”和“偏暗0.01%的红”的区别，但计算机能。

提取模型通常需要很高的鲁棒性，即使图片经历严重压缩和裁剪，附加多层滤镜，只要残留像素数量足够多，提取模型就能发现统计学规律，检测到AI水印。

我做了一个测试，用Gemini生成了两个真人小女孩的合照。然后对着屏幕翻拍，拿到PS里加滤镜调色，把图片发微信后再下载，压缩一遍。经历了一连串“洗稿式”处理后，Gemini依然能一眼看穿。

·视频

视频比图片多了一个关键的维度，时间。

视频由一帧一帧的画面构成，因此最为简单粗暴的嵌入方式，就是给每一帧单独打上隐形水印。

就跟人类身上每一个细胞都能提取出DNA一样。提取模型具备“抗剪辑”能力，即便是被抽帧，提取模型也能从哪怕只保留1秒钟的视频画面里将水印信号提取出来。

·音频

给音频加隐形水印的逻辑参照了人的生理规律。

人类的听觉只能听到20Hz-20000Hz的声音，我们不仅听不到超声波或次声波，而且当一个极其响亮的声音和一个微弱的声音同时出现时，由于"听觉掩蔽效应"，微弱的声音会被大脑自动忽略。但这是传统的音频水印法。

比如Meta的开源方案AudioSeal用的就是这种方法，模型会在原始音频中嵌入一段不在听觉范围内的“隐形频段”。

SynthID做法是把声音波形转换成二维的频谱图，像处理图片一样在频谱图上加密，再把加了密的频谱图重新转换回音频波形。

嵌入水印后丝毫不影响人类的听觉体验，这些微小的加密特征完美融入了正常的声纹纹理中，看不出任何人为篡改的痕迹。

这种做法也让音频水印极其"抗造"。无论是被强行压缩成劣质的MP3格式，还是人为倍速播放，水印都极难被抹除。

·文本

最后是文本。不得不说，给文字加隐形水印最难。

因为文本是离散的——一个词就是一个词，不能像像素那样做0.01%的微调。如果只是简单地把"漂亮"替换成"美丽"，很容易被别人用另一个AI翻译一遍就洗掉了。

目前文本水印的主流解法，是“黑幕操纵”AI生成词汇的概率分布。

大语言模型本质上是一个“词汇接龙”机器。比如输入“今天天气很”，它预测下一个词是“好”的概率是80%，是“晴朗”的概率是15%。

SynthID-Text用一种新颖的采样算法（Tournament Sampling）。模型要生成下一个词的时候，SynthID不直接选概率最高的那个，它会给所有候选词分配特定分数（基于前文和密钥计算得来的）。这些词两两“PK”，最终得分最高的词作为最终输出。当解码器拿到一段文本，它会用同样的密钥计算一遍。就像掷骰子，表面上是随机的，如果我知道骰子的物理参数和投骰子的手法，也许就能预测结果。

结果是：人类读起来通顺流畅，但解码器一算这些词汇的出现概率和排列组合，就能断定，"这种用词规律，自然人写不出来。"

但是，生成质量和水印性能的平衡需要把握。想让水印越坚固、越抗造，就必须把它嵌得越深、对原始数据的修改阈值就得拉得越大，那势必会影响生成质量。

没有攻不破的盾

在黑客帝国里，没有绝对安全的盾。

如果像我似的，对着电脑屏幕“翻拍”呢？信号经历了一次“数字-模拟-数字”的跨媒介转换，原有的像素级编码有可能被物理洗掉。

或者“魔法打败魔法“，资深的AI绘图玩家将带有水印的AI图像放进绘图软件作为底图，开到极高的重绘幅度重新跑图，原有的水印很可能被洗掉。

有论文讨论了“重水印攻击”，攻击者使用自己的水印模型在已有的水印图片上再嵌入一层水印，干扰或覆盖原始信号。

以目前的技术环境，隐形水印更像是“君子协定”，尤其在开源的真空地带。如果模型的结构和权重完全公开，开发者可以修改推理流程、关闭相关模块，甚至直接训练不包含水印机制的模型版本。只要技术环境足够开放，“绕过”水印在理论上始终可行。也许“破解AI水印”会成为信息安全又一个常态问题，就像植入病毒和杀毒，一直在“共同进步”。

业界迫切需要一个“车同轨、书同文”的统一标准，目的是让A平台也能识别出这是由B模型生成的AI，别都“各自为战”。

比如目前正在推进的C2PA技术标准。比如OpenAI已经在DALL·E 3生成内容中添加C2PA元数据。以及Meta将识别C2PA、IPTC标准的元数据，并在旗下社交平台比如Facebook、Instagram和Threads上标注出“AI生成”，减少AI内容对用户的迷惑。

不过元数据（在后面也会提到），本质上是一种附加的数字签名，不如写进原数据里的水印那样深刻。

一种“确权”手段

其实早在2024年，OpenAI就开发出了文本隐形水印，但迟迟不愿大规模部署。因为他们评估后发现，一旦强制给ChatGPT加上水印，那些依赖AI辅助写作、翻译或润色的真实用户，会因为极度反感被判定为“AI代写”而大规模弃用产品。

但是作为“坚持手搓”的内容创作者，我为什么力挺这类信息追踪技术？隐形水印能给AIGC加上标签，就也能给人类创作者加，作为保护人类版权的一种方式。

以前保护版权最常用的手段是元数据（Metadata）嵌入，数码图像常见的元数据类型有EXIF（相机型号、曝光等信息）、IPTC（作者、版权、图片关键字等）、XMP（后期创作软件写入的工作流程信息，Lightroom/Photoshop做的颜色、裁剪等）。

元数据标签虽然藏在文件属性里，本质上只是一段附加的文本代码。目的是为了“展示”，而不是“加密”，且都可以删改。比如大多数社交媒体平台，为了节省空间，会将你上传的图片自动压缩，顺手剥离大部分元数据。

从生产源头，有人主张把水印直接刻进相机底层（比如徕卡、索尼已经在高端相机里做这事了）。按下快门那一刻，照片就自动生成无法篡改的加密证明。他们的逻辑是，未来不用费力鉴定什么是AI内容，只要文件没有这种物理级别的硬件水印，平台就直接默认它是机器生成的。

还有一些创作者认为，水印最好记录人类特有的生物特征，比如歌手具体的声带振动频率。然后把生物水印和结算系统打通。一旦AI公司抓取这些素材训练，底层代码就会强制触发合同，让AI平台自动向原作者付钱。所以“携带可验证的数字标识”一旦在各行业普及，就极有可能衍生出版权上的自动溯源与微支付机制。

比如SynthID技术文档表示目前超过真伪（AI与否）检测，技术已经进化到了出处溯源。

一个很有意思的应用例子。YouTuber想把杂乱的家换成ApplePark，可以用YouTube提供的Dream Screen功能，其内置Veo模型一键生成绿幕背景。发布视频时，平台底层的SynthID检测器就会并自动打上“合成内容”的合规标签。在YouTube平台上，创作者如果没有手动标记AI会被平台限流甚至封号。

隐形水印技术既可以被用来保护“人类成果”，也可以规范创作流程。

AIGC爆发的几年间，彻底摧毁了人类长久建立起来的“眼见为实”的人生信条。真真假假混在一起，假的让人迷惑，真的让人难以置信。最终，我们不得不妥协，依赖技术对抗技术制造的虚假和迷茫。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技