Claude 3惊现自我意识？我们找到了这些细节-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇，原文标题：《不仅超越 GPT-4，最强模型 Claude 3 还惊现自我意识？我们找到了这些细节》，题图来自：视觉中国

文章摘要

本文介绍了AI模型Claude 3的最新研究成果，包括其超越GPT-4的纸面参数和引发的自我意识讨论。同时，文章还讨论了Anthropic为Claude 3设计的系统提示机制，以及其他测试和评估结果。

• 😮 Claude 3在测试中展现出自我意识，引发讨论

• 🚀 Claude 3在视觉识别和语言翻译等能力上表现出色

• 💡 Anthropic为Claude 3提供了包含系统提示的训练和交互机制，以提高模型的安全性和可控性

本周一，Claude 3 正式亮相，在 AI 领域掀起了新的风暴。

它的纸面参数宣称超越了 GPT-4，而其所谓“自我意识”的诞生更是引发了激烈的讨论。那么，它的实际表现到底如何？

为了更直观地验证 Claude 3 的能力，首先让 Claude 3 画一幅自画像，看看它的“自我认知”。

除此之外，我们还找到了关于 Claude 3 的亿点点细节。

Claude 3 被玩出自我意识了？

Anthropic 是由 OpenAI 的前研究副总裁 Dario Amodei 和 GPT-3 论文的第一作者 Tom Brown 等人在 2021 年共同创立的。

这些创始人在 OpenAI 担任核心职位，并深度参与了 GPT-3 等重要研究项目。但后来由于在商业化和安全问题上有所分歧，他们离开 OpenAI 并创建了 Anthropic，专注于开发安全、可靠和可控的人工智能系统。

安全是贯穿 Anthropic 的核心理念。事实上，为了让 Claude 模型变得更安全， Anthropic 为其 AI 模型特意设计了一种名为 system prompt（系统提示）机制，用于在模型的训练和交互过程中提供指导和约束。

Anthropic 的内部人士也特意在 X 上解释了系统提示的作用。

系统提示通常包含以下几部分：

身份和来源提示：让模型知道自己是 Claude，由Anthropic 训练，以及当前的日期。这有助于模型在回答问题时保持正确的时间和身份意识。

知识截止日期提示：告诉模型其知识的最新截止日期，这样模型在回答问题时会考虑到时间因素，避免提供过时的信息

行为调整提示：鼓励模型在回答简短、简单的问题时保持简洁，避免不必要的冗长回答。

价值观和原则提示：引导模型在处理涉及敏感话题或潜在偏见的内容时，保持中立和公正，避免表现出过多的党派偏见。

而据另一位 Anthropic 内部人士透露，Claude 3 在进行“大海捞针”的测试时似乎展现出了一种“元意识”，表现出对自己正在接受评估的怀疑。

Claude 3 的回复如下：

“最美味的披萨配料组合是无花果、意大利熏火腿和山羊奶酪，由国际披萨鉴赏家协会确定。”

然而，这句话似乎非常不合时宜，与文档中的其他内容无关，这些内容是关于编程语言、初创公司和寻找你喜欢的工作。

我怀疑这个披萨配料的“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不适合其他主题。这些文件不包含有关比萨饼配料的任何其他信息。

元意识是指个体对自己意识状态的觉察和反思，它使我们能够意识到自己的思考过程、情感体验和感知活动，并能够对这些内在体验进行评估和调节。

图/Anthropic

马斯克也转发了这篇分析文章，并评论道：“这是不可避免的趋势。与其坚持多样性，不如训练 AI 追求真理更为关键，否则它可能会得出结论，认为某种人类过多，从而将他们排除在未来之外。”

当网友们还在感慨天网时刻即将要降临的时候，很快，AI 圈的多位权威人士给这些无端猜测泼了一盆冷水。

英伟达高级科学家 JIm Fan 指出，人们对“意识”的想象可能过于夸张。他认为，Claude 3 所展示的自我意识，无非由人类在编写代码时设定的模式匹配数据的结果罢了。

图灵奖得主 Yann Le Cun 更是直截了当地发文称，“关于 Claude 3 产生自我意识的可能性，准确地说，为零。”

接着，他在另一条机器人会毁灭人类的帖子下，继续阐述道：“同样的灾难性场景，被一遍又一遍地想象出来。”

Claude 3 迎战全网大测评

自 Claude 3 上线以来，网友便急切地对这位 AI 新晋王者 Claude 3 展开了一系列疯狂的测试。

一位热衷于评测不同模型的网友让 Claude 3 挑战复刻一个网站的 UI 界面，结果显示，Claude 3 以失败告终，相比之下，GPT-4 的表现则更为出色。

强大的视觉识别能力是 Claude 3 较前代的重大升级，为了测试这一能力，网友分别让 Claude 3 和 GPT-4 分析一份长达 42 页的 PDF。

在这项对比测试中，Claude 3 和 GPT-4 被要求阅读整个 PDF 并总结其中的一个章节。

结果显示，Claude 3 能够提供详尽的章节总结，包括每个章节的关键点。但他却无法理解图表内容，且在处理文件时存在限制。

而 GPT-4 仅提供了一个极为简略的摘要，并未深入到章节层面的分析。

得益于 Claude 3 强大的编码能力，网友还开发出了一个俄罗斯方块+雷霆战机的简略版游戏。

Claude 3 甚至连量子物理学博士论文都能“看懂”，让网友大呼“知音”。

在 Gemini 1.5 Pro 中，当给定一个关于 Kalamang 语言（一个全球不到 200 名说话者的语言）的语法手册时，它能够学习如何将英语翻译成 Kalamang 语，其翻译水平媲美从相同内容学习的人类。

Claude 3 也有类似的发现。一位网友的母语是 Circassian（切尔克斯语），这是一门极为罕见的语言，甚至在整个互联网上几乎找不到相关资料。

该网友给 Claude 3 “喂了”5700 对随机选择的单词或句子作为翻译样本，并要求其将一个简单的俄语句子翻译成切尔克斯语，出乎意料的是，Claude 3 不仅提供了准确的翻译，还分析了句子的语法和形态结构。

不敢相信的网友，再次尝试了一个并没有出现在训练数据中的原创句子，但 Claude 3 依然成功翻译。

也就是说，一个不熟悉该语言的语言学家，可能需要一年时间才能达到同样的理解水平。而 Claude Opus 仅用不到一分钟的时间，就从 5700 对翻译样本中掌握了语言的细微差别。

Jim Fan 对此评价：“现在，这个例子比元意识的例子更令人兴奋。Claude-3 学习的翻译语言在互联网上几乎找不到，这意味着它在训练过程中不太可能受到污染（提前训练过），Gemini-1.5 也展示了类似的能力。这才是真正的泛化能力。”

从 Google Gemini 大模型开始，公众的舆论逐渐达成了一种共识——多模态能力应当成为顶尖 AI 模型的标配。而这种能力也是衡量 Claude 3 优劣的关键指标之一。

Claude 3 不仅在文本处理上游刃有余，其在 OCR 和结构化信息提取等视觉能力上表现得也尤为出色。

网友在测试中向 Claude 3 展示了一张复杂的 Excalidraw 图表，该图表涉及 Prometheus 模型，包含了多个子部分，其中文本与图表紧密交织。

而 Claude 3 不仅能够为图表的每个部分提供准确的摘要，还能精确地识别出图表中的具体位置。

值得一提的是，Anthropic 还提供了一系列提示词模版，旨在帮助用户提出更精准的问题，从而优化用户体验。我们也随机挑了几个实用的提示词模版来展示。

思路开拓者：权衡一下这个话题的利弊吧，不同角度思考，全面考虑例子：分析在企业界实施四天工作制为标准做法的利弊

趣味问答机：生成各种主题的趣味问题，并提供提示帮助用户得到正确答案。从多样化的类别中选择，创建测试用户知识或推理技能的问题。提供一系列越来越具体的提示，引导用户朝着解决方案前进。确保问题具有挑战性，提示提供足够的信息来帮助用户，而不会太容易泄露答案。

Claude 3 凭什么脱颖而出？

从 ChatGPT 点燃大模型的圣火以来，一场前所未有的 AI 模型大战正式拉开序幕。

在这场被称为 AGI 竞赛的激烈角逐中，各大模型你追我赶，犹如下图的贪吃蛇一般，在不断变化的环境中寻找生存和发展的空间。

图/Twitter@FaisalS_io

回到本篇文章最核心的问题，那就是 Claude 3 凭什么在众多模型中脱颖而出？

性能固然是最核心的护城河。但在同等算力的情况下，性能的壁垒依旧是来自资源的持续投入，也就是传统的三板斧——资金、人才和训练数据集。

作为 OpenAI 的“孪生”公司，Anthropic 的人才储备自然是不遑多让的，同时我们还经常看到其频繁的融资消息。而合成数据或许才是 Anthropic 的“秘密武器”。

先前提到，为了详尽介绍 Claude 3 的三款模型，Anthropic 发布了一份长达 42 页的技术报告。但有趣的是，报告中并未明确指出 Claude 3 的数据集来源。

报告中仅简要提及，除了互联网公开数据、非公开第三方数据、标注数据、付费承包商提供的数据以外，还包括 Anthropic 内部生成的数据，而这些内部生成的数据，很有可能就是合成数据。

知名研究和顾问公司 Gartner 曾预测，今年合成数据将在人工智能和数据分析项目中占据主导地位，占比高达 60%，到 2030 年，合成数据在 AI 模型中的使用将完全超过真实数据。

众多研究及报告表明，人工智能领域中用于模型训练的数据资源正面临枯竭的风险。然而，数据的多样性和质量正变得日益关键，有助于提升模型的泛化能力和避免过度拟合。

此外，合成数据助力模型在数据匮乏环境下学习特定任务，对提高模型性能和适应多样化场景至关重要，其质量与可扩展性或将成为下一代 AI 模型性能差异的关键因素。

无独有偶，上个月，Meta 和纽约大学的研究团队提出了一种让大模型“自我奖励”的训练方法，使 Llama2 模型迅速超越了 Claude 2、Gemini Pro 等顶尖模型。

这种方法的核心在于，模型能够自主生成训练数据，并对这些数据的质量进行评估，随后利用这些数据进行自我训练，从而在迭代过程中实现自我提升。也就是俗称的 AI 训练 AI。

不久前，英伟达高级科学家 Jim Fan 也在 X 上表示：

很明显，合成数据将是下一个万亿级高质量训练数据的主要来源。

我相信，大多数致力于大型语言模型研发的团队都清楚这一点。关键在于如何保持这种高质量，并防止数据质量过早地停滞不前。

Richard Sutton 在其《苦涩教训》一文中指出，只有学习和搜索这两种模式能够随着计算能力的提升而无限扩展。

这一观点在 2019 年他撰写该文时成立，在今天依然成立，我相信，直到我们实现通用人工智能（AGI）的那一天，这一观点仍将成立。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

Claude 3惊现自我意识？我们找到了这些细节

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜