马斯克新AI破解千年难题却被紧急喊停？这个“玩笑”怎么让AI圈一夜未眠-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：appso，题图来自：AI生成

Grok-3 证明“黎曼猜想”了？

xAI 研究员 Hieu Pham 周末发布的一条推文在 AI 圈掀起轩然大波。

推文原话是这么说的：

Grok-3 AI系统刚刚证明了黎曼猜想（Riemann’s hypothesis）。

为了验证这一证明的正确性，我们决定暂停该系统的训练。

如果证明被确认无误，我们将不再继续其训练，因为这样的AI被认为过于智能，可能对人类构成威胁。

老规矩，先说结论，这单纯只是玩梗而已。

然而，推文的不断发酵迅速引来了超200万网友的围观，辐射到海内外的AI舆论圈。

事情的源头大概要追溯到网友Andrew Curran更早些时候的一则“爆料”，其声称Grok-3在训练过程中发生了灾难性事件。

随后，各种离奇的传言纷至沓来。

网友起哄说，OpenAI CEO Sam Altman用巨大的激光器对准了xAI的最大训练集群，导致数据严重损坏；

也有人煞有介事地暗示有人蓄意破坏下一代LLM训练运行；

更有调侃称，AI似乎获得了自我意识，并解决了黎曼猜想，但在证明代码中“故意省略了15个分号”，使人类无法验证。

连Runway创始人Cristóbal Valenzuela也来凑热闹：

Gen-4刚刚荣获了包括最佳影片在内的所有奥斯卡奖项。

为了深入研究其在艺术领域的创新成果，我们决定暂停对其进行的训练。

如果这部电影确实如早期评论家所言具有革命性，我们将不会恢复训练，因为这表明AI在艺术方面已经达到如此高的水平，以至于可能威胁到人类的创造力。

谣言就这么越传越邪乎。

多位xAI研究人员也纷纷转发Andrew Curran推文，加入这场集体“大团建”。

比如我们的老熟人xAI联创Greg Yang率先调侃道，Grok-3在训练过程中突然殴打办公室里年长的保安。

另一位研究人员Heinrich Kuttler则表示：

“是的，情况非常糟糕！我们后来用nan（Not a Number，非数）把所有异常的权重都替换了一遍，才恢复。”

当然，更理性的网友直接在X上询问当前版本的Grok对黎曼猜想的理解。

不出所料，Grok的表现相当“玛卡巴卡”。

最终，这场闹剧由始作俑者——xAI研究员Hieu Pham亲自画上句号：

好的，《周六夜现场》结束了。

至于为什么证明黎曼假设是危险的，我强烈推荐马特·海格的精彩小说《人类》。

那么问题来了，为什么这则Grok-3证明黎曼猜想的消息能引起广泛的关注呢？

首先是Grok-3解决黎曼猜想本身的重要性。

黎曼猜想（Riemann Hypothesis）是数学中一个关于素数分布的重要猜想，由德国数学家伯恩哈德·黎曼于1859年提出。

该猜想被列为克雷数学研究所（Clay Mathematics Institute）的“千年难题”之一。

它涉及到黎曼ζ函数（Riemann zeta function），这个函数定义为：ζ(s)=1+12s+13s+14s+⋯\zeta(s)=1+\frac{1}{2^s}+\frac{1}{3^s}+\frac{1}{4^s}+\cdotsζ(s)=1+2s1+3s1+4s1+⋯

黎曼猜想的核心内容是：所有非平凡的黎曼ζ函数零点的实部都等于1/2。

换句话说，如果ss是黎曼ζ函数的一个非平凡零点，即ζ(s)=0ζ(s)=0，那么其实部必定是ℜ(s)=1/2ℜ(s)=1/2。

克雷数学研究所说了，如果有人能够成功证明或证伪黎曼猜想，将奖励100万美元的奖金。

但这个猜想至今没有被证明或反驳，也因此被广泛认为是现代数论中的一个未解之谜。

这个猜想的证明对于数论（数学的一个分支）有着深远的影响。

目前，很多现代加密技术（比如保护网上支付、数据隐私等）都依赖于素数的性质。

证明黎曼猜想或将会让人类更好地理解这些技术的基础，并且可能影响到未来的安全算法。

假如Grok-3能证明黎曼猜想，这不仅将推动理论数学、物理学、密码学等领域的大幅进展，同时也标志着AI在推理和解决复杂问题方面的巨大进步。

甚至可以说，这将成为AI超越人类智能的一个里程碑事件。

月之暗面创始人杨植麟曾表示，数学场景是锻炼AI思考能力最理想的场景。

数学是一个极其严谨的逻辑体系，而AI的推理能力往往建立在严密的逻辑推导之上。

AI解决数学问题的过程实质上是一个持续思考的过程，在这个过程中，它会不断尝试不同思路，通过反复试错来寻找正确答案。

即便计算过程中出现错误，AI也能通过验证和校对来纠正结果。

类似的理念也体现在OpenAI o1的强化学习训练上。

如果说以前的大模型是学习数据，o1更像在学习思维。就像我们解题，不仅要写出答案，也要写出推理过程。

一道题目可以死记硬背，但学会了推理，才能举一反三。

所以在今年美国针对优秀高中生的AIME测验当中，GPT-4o仅完成了13%的题目。相比之下，o1的正确率高达83%。

就博士水准的GPQA Diamond科研测评而言，GPT-4o获得了56.1%的成绩，而o1的表现更为出色。不仅胜过了人类博士的69.7%，更是达到了78%的正确率。

在国际信息学奥赛的评测中，当每道题允许50次尝试时，模型达到了49%的得分率，即213分，而当每题提交机会增至一万次时，其最终得分提升至362分。

拿打败围棋世界冠军的AlphaGo类比，就更加容易理解了。

AlphaGo就是通过强化学习训练的，先使用大量人类棋谱进行监督学习，然后与自己对弈，每局对弈根据输赢得到奖励或者惩罚，不断提升棋艺，甚至掌握人类棋手想不到的方法。

o1和AlphaGo有相似之处，不过AlphaGo只能下围棋，o1则是一个通用的大语言模型。

o1学习的材料，可能是数学题库、高质量的代码等，然后o1被训练生成解题的思维链，并在奖励或惩罚的机制下，生成和优化自己的思维链，不断提高推理的能力。

这其实也解释了，为什么OpenAI强调o1的数学、代码能力强，因为对错比较容易验证，强化学习机制能够提供明确的反馈，从而提升模型的性能。

当然，更重要的是如何将这种推理能力拓展应用到更广泛的领域中。

所以我们会看到不少海外网友为Grok-3证明黎曼猜想欢呼，“如果是这样的话，我们真的在见证一个巨大的突破。”

马斯克曾多次在公开场合渲染Grok-3的强大，他声称Grok-3预计在年底前问世，并将成为“世界上最强大的AI”。

实际上，Grok-3是由上面提到的AI初创公司xAI开发的第三代大型语言模型，并预计在性能上预期将超越现有的所有AI大模型。

原因在于Grok-3训练背后依托的是目前世界上最大的AI训练集群——Colossus。

这个集群由10万个液冷英伟达H100 GPU组成，采用单一的RDMA网络互连架构。这个集群的规模已经超越了目前世界上任何其他的超级计算机，而且未来还将持续扩充GPU数量。

根据The Information的报道，Colossus的出现甚至引起了Altman的密切关注，后者派飞机飞越Colossus训练基地，试图窥探其开发进展和能源供应情况。

所以说，当“最强AI”、“千年数学难题”以及长盛不衰的“AI威胁论”这三重元素叠加，一场完美的“谣言风暴”就此形成。

甚至我们可以认为，Grok-3证明黎曼猜想的谣言，与其说是一场闹剧，不如说是整个AI行业的一面照妖镜：

其一是技术乐观派坚信AI终将无所不能。我们既担心它发展得太快会失控，又害怕它发展得不够快无法实现突破。

其二是自GPT-4问世以来，尽管AI领域不断有新产品涌现，但人类既是AI的创造者，却也成了它最焦虑的观众。

每一个AI谣言的背后，都藏着整个行业的焦虑与期待。

加之最近闹得沸沸扬扬的Scaling Law发展撞墙论，相比去年的井喷期，今年的“创新疲劳”让人们对模型的小步改进已然失去耐心。

在这个意义上，Grok-3证明黎曼猜想的谣言也成了人们对未来的一次集体想象。

我们越来越期待下一个从GPT-3.5到GPT-4的质变时刻。

当然，真正的AI突破，往往发生在所有人都不看好的时候。但我们都希望这个谜底能在年底前揭开。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

马斯克新AI破解千年难题却被紧急喊停？这个“玩笑”怎么让AI圈一夜未眠

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜