扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2025-12-14 16:21

ChatGPT真急眼了,为了刷高分,脸都不要了

本文来自微信公众号: 特大号 ,作者:特大明白


这次ChatGPT是真急眼了。


面对来势汹汹的谷歌Gemini3.0pro,OpenAI不得不采用非常手段,来保住自己榜一大哥的地位。


12月11日凌晨,OpenAI高调放出了GPT5.2,与一个月前GPT5.1的偏「情绪价值」更新不同,这次给出了一大波硬核打榜数据。



我们在最右一栏增加了Gemini3.0Pro的对应得分,通过对比可以看出,一个月前的GPT5.1几乎被Gemini3.0吊打。


但GPT-5.2大打翻身仗,全面碾压Gemini以及自己的旧版。


这个结果一发布,业界顿时一片欢呼:你大爷还是你大爷啊。


可是很快,各种不和谐的声音传出来了,坊间讨论最多的就是:OpenAI不厚道,为了赢而赢,跑分上了些特殊手段(激进工程策略),甚至可以称之为作弊。


这些出格的手段,主要包括以下几种↓


01


暴力堆砌“推理Tokens”


这是目前争议最大的地方,为了拿高分,GPT-5.2用更深的思考、消耗更多算力。


以前的模型(如GPT-4)是“直觉式”回答,或者进行简短的思维链(CoT)。


而GPT-5.2在面对跑分题库中的复杂逻辑题时会在后台生成惊人数量的“隐形推理Tokens”。


比如Gemini回答同一个问题可能消耗100个思考Tokens,耗时2秒,而GPT-5.2则可能会在后台消耗上万个Tokens,进行反复自我辩论、验证、纠错,耗时数十秒,最后只输出1个简短的正确答案。


想象一下,一个学生(Gemini)在考场上即兴回答,而另一个学生(GPT-5.2)带着草稿本反复演算半小时再回答,虽然答案更准确,但在实际场景中,这种成本和延迟是不可接受的。


当然,我们也要说一下DeepSeek-V3.2-Speciale版本,也是用这种超长思考和大量Tokens消耗来获得更优答案,这一点再其发布说明中已经明确指出。


02


隐形“Best-of-N”优选策略


根据社区(Reddit)爆料,这种用算力换分数的典型手段,被集成到了GPT-5.2的“xhigh模式”API中,且在跑分时默认开启。


当遇到判定性问题(如代码生成或数学题)时,GPT-5.2会在内部并行生成了N个不同的解题路径。


然后,它利用一个轻量级的“判别器模型”来看哪个答案出现的频率最高,或者哪个代码能跑通测试用例,最后只输出那个“优秀”的答案。


这让它的单次回答准确率看起来极高,但实际上是消耗了数十倍的算力“试”出来的。


业界吐槽,这不是拼模型智力,而是拼工程搜索能力。


03


3.针对测试项进行刷题


虽然每个打榜的厂商都会被质疑刷题,但GPT在这点上格外卷。


有分析指出,GPT-5.2的训练数据中,似乎包含了大量针对2024-2025年主流Benchmark题型的变种数据。


如果将测试题稍微改头换面(比如保留逻辑但替换掉所有名词、数字等),GPT-5.2的性能会发生大幅下跌,而Gemini的跌幅则相对平缓。


这说明GPT-5.2可能是在“死记硬背”,而不是真正搞懂了逻辑。


04


动态路由和知识库外挂


这又是一个骚操作。


社区怀疑GPT-5.2的前端路由层加入了一个“探针”。当系统检测到输入的Prompt不仅是复杂问题,而且符合标准测试集的格式特征(比如特定的提问措辞、特定的代码片段格式)时,它会瞬间切换到“满血模式”。


在该模式下,它调用的不仅是主模型,可能还挂载了专门的知识库或数学插件,这就好比是考试拿小抄了。


这些怀疑来源于Reddit社区的相关讨论帖,最初矛头指向的是Llama,后来GPT也成为怀疑对象。


当然就目前来讲,只有第一条「暴力堆砌tokens」是被证实的,其他三条都是来自于社区的怀疑和讨论。


这些”黑科技“,被广泛应用于大模型打榜中,但并没有实锤证据表面GPT-5.2采用了这些操作(234)。


不过,有一点可以确定,GPT-5.2发布的48小时内,差评如潮,大量用户在社交媒体上吐槽其严重降智,这与其靓丽的打榜成绩形成强烈反差。


参考来源:


https://openai.com/index/chain-of-thought-monitoring/


https://arxiv.org/abs/2510.09259


https://arxiv.org/html/2410.21939v1


https://openrouter.ai/openai/gpt-5.2

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜