“反ChatGPT神器”来了，背后还有一个互联网难题-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：冷思真，题图来自：《银翼杀手2049》

在“犯罪”的道路上，人类可能是无师自通的。

ChatGPT 火了，下一秒就有学生拿它来做作业、写论文，你很难说这到底是作弊还是剽窃。

老师很难确定学生的作业都出自自己之手，而人类也无法确定工具的最终形态到底是什么。

面对成本低、效率高的 AI 文字生成工具，仅靠人类的智慧已经很难进行分辨。最顶尖的人工智能公司从“师夷长技以制夷”中学到的经验也用在了这里——它们要用 AI 识别 AI。

以 AI 治 AI，它们出手了

OpenAI 是近年风头最劲的人工智能研究室。过去一年你看到的文字生成视频、文字生成图像都有它的身影，ChatGPT 也是它的得意之作。

基本每个月都会发布震惊业界成果的 OpenAI，刚发布的新产品却是一个 AI 内容检测器。

这个检测器目前只能应用于文字内容，争议和批评更多的图像则不在此列。检测器唯一的功能就是从人工智能的角度替你进行判断，看看这段文字是不是人工智能生成的。

目前，只有美国地区的用户可以体验这个检测器的功能，检测器本身也对检测文本进行了一定的限制：

英文文本，检测器和 ChatGPT 除英文之外的其他语言表现不佳。
需要 1000 个字符，大约 150-250 个左右的单词才能生成更可信的结果。
检测器在儿童撰写的文本内容上同样表现不佳，检测器主要针对成人英文文本进行训练。

最终检测器会在完成判断后给出“很可能、可能、不清楚、不可能、非常不可能”5 种答案。

这个检测器目前来看也不太聪明。在测试中，有文章末尾显示“本文全文由 ChatGPT 撰写”，检测器仍表示“不清楚”这篇文章是否由人工智能撰写。

这也是检测器目前尚无法从理解文本上进行判别的“证据”之一。

检测器的出现象征意义比实际意义更大，这说明知名的人工智能实验室们依旧在乎内容的真实。

毕竟从 ChatGPT 诞生开始，学校的老师就开始担心学生的作业不再被认真对待，世界上最大的学术出版商声明 ChatGPT 不能被记为作者，还有人担心新技术变为欺诈的工具。

而现在，人工智能实验室想努力辨别内容的创作来源，这本身就是好事。

即便你是创造者，安能辨我是 AI

好事之外，多的是坏消息。

因为这个检测器的成功率有点惨不忍睹——26% 的准确率放在医学领域属于谋财害命一般的存在，就算放在运动领域，预估运动员下一个动作能否得分的成功率都没这么低。

OpenAI 在发布这个工具时也承认了这一点——它有时会“错误但自信地”将人类书写的文本标记为人工智能创造的文本，尤其是当文本与训练数据中的内容有较大差别时。

目前这个检测器还很初级，甚至可以说这是一个“半成品”。

除了 OpenAI 自己提到的儿童内容和非英文内容，有点年头的英文内容也很容易被误判。

已经逝世的知名作家们的作品几乎无一幸免，带有时代特色的表达方式很容易被判定为 AI 作品。莎士比亚就惨遭毒手，他最短的悲剧《麦克白》就被判定为“该文本很可能是人工智能生成的。”

莎士比亚的作品很可能是 AI 生成的，图源：OpenAI

连创造者 OpenAI 都有点束手无策，辨别 AI 生成内容的道路依旧任重道远。

当然这也很好理解，画作相对文字还要更高门槛一些，通过笔触、风格、水印，大家还能看出 AI 模仿学习的痕迹。

但文字没有“水印”，大家创作出的文字也非常多样，因为创作者受教育的高低程度和表达风格不同，在最终文本上有较大差别也是可以理解的。

AI 创造的内容越来越接近人图片来源：Midjourney

甚至可以这么说，等 ChatGPT 再进一步，可能人类都无法判定这是否是人工智能生成的文本了。因为它就像身边你我会写出来的内容——没有陌生的自创词汇，不会前言不搭后语，内容言之有物。

如果人已经分辨不出内容的源头了，那 AI 就成了未来的希望了。不管是用 AI 生成的内容自动加“水印”，还是检测器经过多次迭代后正确率无限提高，AI 都是更好完成辨别的特殊角色。

除了创造者 OpenAI 在行动，还有不少学者、实验室、大公司都在努力辨别 AI 内容。

一个叫做 Edward Tian 的学生创建了一个网站，想要“检测 AI 剽窃”；Google 为了不在人工智能发展中掉队，据称将上架 6 个 AI 相关应用，其中就有检测应用；抄袭检测器 Turnitin 正在开发自己的 AI 生成文本检测器。

当然，这都属于未来，我们面临的现状是 AI 可以轻松制造大量内容，最终模糊信息源，而身为普通用户的我们将很难辨别它的生产源头。

AI 文本生成，轻易污染信息的模糊未来

还记得我们曾在《她在中文维基百科上胡编了上百万字的古罗斯历史，把俄罗斯人都骗了》讲过的故事吗？

一个高中毕业生靠着“一腔热情”，在维基百科上写了几百万字的历史内容，这些内容甚至流传到了外网，被很多外网文章引用为来源。

如果将这个高中毕业生看作 AI，你就能懂 ChatGPT 的存在对信息可能造成怎样的污染了。

这位高中生 3 年编了百万字历史，AI 的效率只会比他更高。

他用 3 年生成的内容，随着 AI 的进步可能三天甚至三小时不到即可生成。更低的内容制作成本，AI 只会做得更好，毕竟它本身就是在模仿学习，继续模仿真实的历史从而生成一段“历史”并不难。

当然，AI 还没有进化到《流浪地球 2》里 Moss 那样的地步。它还没有意识要去做这件事，有意识也不一定有意愿去做这件事。但 AI 本身就是一种工具，就像用人用刀切菜做佳肴一样，也可能有人持刀伤人。

千万别说没人这么无聊，既然有人一字字都能编出百万历史，那门槛更低的 AI 内容会生成什么故事、用于哪里都是正常的。人类的多样性总是超乎想象，当这种多样碰上了 AI 的高效，信息被污染的情况只会越来越多。

这还只是 ChatGPT 刚出现几个月后人们的想象。

在 ChatGPT 爆火的两个月内，学生就已经自发用这种工具做作业、写论文偷懒，编剧会用它编故事试试出乎人意料的故事走向，文案编辑用它来给自己打工。

在用工具给自己省事这件事上，人连教都不用教。

工具一旦离开工坊，被如何使用就不能由造工匠控制了。

要想影响工具的使用，要么修改工具，要么制造新的工具。

本文来自微信公众号：APPSO （ID：appsolution），作者：冷思真

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

“反ChatGPT神器”来了，背后还有一个互联网难题

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜