“有图有真相”的时代要终结了，我们还能相信什么？-虎嗅网

AI技术正在快速渗透各个行业，从生成图像的Midjourney和Stable Diffusion，再到今年窜红的ChatGPT，不论是图像还是文字，都突破了我们的想象，也引发了不少人的担忧。而人们对人工智能（AI）深伪技术（deep fake）越来越多的关注主要集中在视觉欺骗上。

深伪技术指深度学习（Deep Learning）+Fake（伪造）的合成词，现在专门指基于AI的图像、音频等合成技术的应用，其中最为大众熟知的形式就是AI换脸。想想看，视频能够不可思议地将一个人的脸叠加到另一个人的身上，甚至AI创建的合成面孔的可信度比真实面孔还要高，我们还能如何辨认真假？

本期聚光灯，深圳大学传播学院新闻系副主任张田田就来与我们聊聊“深伪”。在她看来，AI技术带来的美丽新世界之外，还有更多的挑战与威胁。当然，也无需太过悲观。毕竟，AI技术也是当前信息打假的重要力量。

本文来自微信公众号：深港书评（ID：jbsgsp），作者：张田田，题图来自：视觉中国

我身边的很多人首次接触到“深伪”（deep fake）这个词，都在2018年。当年4月，美国前总统奥巴马的一段一分钟视频走红网络，浏览量超480万次。在视频的前半段，奥巴马端坐在美国国旗背景前，如同我们平时在媒体上所看到的那样侃侃而谈。忽然，画风骤变，他开始用“蠢货”“笨蛋”之类的粗鲁语言疯狂攻击其继任者特朗普。

正在人们张大嘴巴即将惊掉下巴的时刻，视频的作者——美国演员乔丹·皮勒出现了。人们开始回过神：原来这并不是一段真实的视频，而是使用一种人工智能（AI）形式的计算机程序来完成的“深度伪造”视频，其中的内容也并非奥巴马所言。知晓真相后，人们再次惊掉下巴：AI创造的影像竟可以如此以假乱真，说好的“有图有真相”呢？

生成的奥巴马演讲视频

AI技术再次碾轧了人类想象力

事实上，影像的编辑和操纵并不是什么新鲜事儿，利用我们最常见的软件PS也可以实现对图片的精细修改。但是，“深伪”则是通过AI的深度学习来实现的，也就是设计出一套算法来训练AI识别特定对象的音视频记录中的各种元素。深度学习完毕之后，人们就可将已有的图像或影片叠加至目标图像或影片上，并借助AI技术来调整表情姿态与模拟嘴唇动作，也就是我们俗称的“换脸”。在这里，一段音视频内容中的元素可以被随意更换，比如替换成其他人的脸或者声音。

该技术与语音克隆技术的叠加使用，就能制造出更具误导性的影像，让特定对象以自己的声音说出你希望其表达的内容。在这一过程中，深度学习算法所包含的数据库越大，“深伪”的内容也就越显真实。奥巴马的这则“深伪”视频就是在AI深度学习了56小时的录音样本之后完成的。

究竟是何种深度学习可以让AI具备如此以假乱真的能力？这便是被称为“生成对抗网络”（GAN）的机器学习技术。深度学习是一种人工智能方法，它通过由多层（因此称为“深度”）人工神经元组成的算法来模拟大脑。

“生成对抗网络”就是一种极具创造性的深度学习方法，其包括生成网络和鉴别网络。生成网络能够合成图像，鉴别网络则经由大量数据（可能是数以万计的人脸）的训练，竭尽全力判断该合成图像的真假，发现其与真实图像之间的差距。在获得鉴别网络的反馈之后，生成网络就能够“教”自己产出更加写实的图像。在这种类似“左右互搏”的对抗循环中，两种网络不断改进与更新，最终制作出异常逼真的音视频内容。

这种“深度伪造”一度被认为已经到达了虚假信息生产的天花板：能够让目标对象在影像中说出他们没说过的话，做出他们没做过的事，还有什么可以超越呢？然而，AI技术的蓬勃发展和应用再次碾轧了人们的想象力。

就在过去的2022年，数种“文本生成图像”的AI应用现身社交媒体，并获得人们的热捧。相对于“深伪”而言，“文本生成图像”的应用操作明显简单太多。“深伪”在一定程度上还属于运用AI驱动技术的高度复杂的操作，对于普通人来说还是具有相当的准入门槛的。而“文本生成图像”的应用几乎人人都可操作。

以AI制图工具DALL－E（以西班牙艺术家达利和2008年同名电影中的皮克斯角色Wall－E的名字命名）为例，只需在程序中输入一段文字描述，比如“一只戴眼镜的纯白波斯猫在草地上奔跑”，便可获得AI自动生成的与日常摄影照片几乎毫无二致的图像。“文本生成图像”几乎可以模仿任何视觉风格，梦幻的、逼真的、平凡的……马背上的宇航员、在古埃及购买面包的泰迪熊、著名艺术家风格的新颖雕塑，你能想象到的几乎任何视觉形象在这里都可以轻松实现。

操作的便捷性和巨大的创作空间使得类似工具在社交网络迅速走红。DALL－E就曾在去年宣布，其用户平均每天创建超过200万张AI生成的图像。

OpenAI推出了AI制图模型，输入叙述文字，就能产生与文字内容相应的图片。（图来源：OpenAI）

逼真的图像可被轻松创建

此外，“深伪”更多是对现有视听内容进行的复杂操作，无论是“移花接木”还是“无缝对接”都还要依赖于一定的真实素材。“文本生成影像”无疑进一步拓展了AI的创造空间，其能根据既有描述（可能是虚假的）创造一整套全新的场景和图像。去年，导演凯尔·沃尔巴赫利用开源的AI图片合成模型SD（Stable Diffusion）创建了个人资料照片和他的宠物照片，甚至生成了整整一个月的生活：这里有他与朋友的约会，有纽约之旅，有万圣节聚会，还有他在洛杉矶漂亮公寓的生活场景。

这些AI图像合成赋予大众极为强大的想法可视化的能力，但不可否认，这种技术一旦被用于虚假信息的生产，也会带来难以想象的严重后果。AI生成图片究竟能在多大程度上欺骗我们的眼睛？

去年，英国兰开斯特大学和美国加州大学伯克利分校联合开展了一项研究，要求参与者从800张面孔中识别出真假面孔，并评估他们的可信度。经过三个独立的实验，研究人员发现AI创建的合成面孔的可信度比真实面孔的平均评级高 7.7％。在实验中，被评为最值得信赖的三张面孔是假的，而被评为最不值得信赖的四张面孔则是真实的。

事实上，伴随廉价甚至免费的AI图片生成工具的普及，社交媒体中的AI生成图片已经越来越多了。就在近期，脸书的母公司元平台发布的一份报告称，AI生成的虚假个人资料照片正在迅速增加。

此外，重大公共事件中混淆视听的AI图片也不断现身。去年9月，日本静冈县因台风侵袭发生严重水灾，一名推特用户发布多张静冈水灾图片，并在推文中表示这些都是航拍的实况照片。照片中，水淹民宅，死伤惨重。然而，就在发布12个小时后，该账号在推文下方留言承认这些照片都是AI创建的图片。尽管推文者已发出声明致歉，但惊悚的照片仍引发各大社交媒体平台疯传，让许多民众信以为真。

这些滥用的 AI 生成图片不仅会让公众对公共事件产生错误认知，更会令人们对信息生态逐渐丧失信心。在传统的信息生态中，图片往往被认为是最可靠的证据。然而，在AI工具普及的当下，几乎不需要太多的技巧，人们便可轻松创建各种逼真的图像，“有图有真相”的时代或许正式终结了。那么，还有什么是我们可以相信的？

很多时候，人们似乎还没有准备好，技术创新便出现了。在AI技术带来的美丽新世界之外，还有更多的挑战与威胁。技术运用的边界在哪里？如何实现有效的监管规避技术的负面影响？需要思考的问题还有很多。当然，也无需太过悲观。毕竟，AI技术也是当前信息打假的重要力量。

本文来自微信公众号：深港书评（ID：jbsgsp），作者：张田田（深圳大学传播学院新闻系副主任）

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

“有图有真相”的时代要终结了，我们还能相信什么？

大 家 都 在 搜

大家都在搜