扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2025-12-12 18:36

实测GPT5.2:OpenAI的“打工人”AI,连犯的错都牛马化了

本文来自微信公众号: 硅星GenAI ,作者:董道力


不知道大家看到大模型在那边思考了一小时会想到什么?我一般会觉得,是不是网卡了,或者服务器崩了。


在测试GPT-5.2的时候,我把自制测试题库扔给了它。然后,它开始了漫长的“思考”。一分钟,五分钟,二十分钟……屏幕几乎一片空白,只是右侧的思考栏偶尔缓慢跳出几行字,像在给我递进度条:别催,我在干活。


我当时心想:“怕不是OpneAI是不是在用我的电脑挖矿?”


直到它终于吐出结果的那一刻,我才意识到:它不是在摸鱼,它是在把活儿做完,而且做得像交付物。


GPT 5.2将白领算力化


2025年12月11日,OpenAI发布了GPT-5.2。在铺天盖地的参数分析和技术解读中,许多人忽略了这家公司正在传递的一个信号:AI的定位变了。


这一次,OpenAI不再强调AI是你的Copilot,而是将GPT-5.2 Thinking定义为“最适合真实场景与专业工作的模型”。换句话说,它不再是来辅助你的,它是来直接干活的。


为了证明这一点,OpenAI甚至引入了一个名为GDPval的全新基准测试。它抛弃了过去那种让AI做几道奥数题(MMLU)的传统模式,转而测试AI能否在44种职业中完成“明确定义的知识工作”,要求AI交付真实世界中的完整工作流。


我们以其中的一个测试题为例,AI被要求为一个名为OIIDP的战略项目与创新部门(SPIU)从零设计一套核心人才战略。该任务要求方案必须建立一套标准化的8个月成长周期,明确涵盖FTEs、研究员及特聘人员,它需要设计出具体的“导师路线图”与“个人发展计划(IDP)”,并规划月度会议与季度社交活动的详细流程。


这种原本需要资深HR专家耗费数周规划的方案,现在AI可以快速产出。


数据显示,GPT-5.2 Thinking版本在70.9%的此类任务中,表现优于或持平于人类行业专家。


同一天,Google也在推Gemini Deep Research之类的“研究代理”更新,节奏像是两家在同一个赛道里互相追尾。


你会发现,一个新共识正在冒出来:大模型不再只是写几段顺滑的文字,它要把一整段白领流程吃掉。


一小时的测试,GPT5.2真在干活


那么,这个要做“打工人”AI的模型,真实表现如何?


我按GDPval的“交付物导向”自己做了15道题:预计总测试时间8–12小时那种,把投行、HR、软件工程、事故复盘、并购尽调、图表分析、工具调用全塞进去了。



题库里我故意把任务做得很像真实公司会丢给中间层的活:既要专业内容,也要格式、结构、可用性。比如:


  • 投行三表+估值:不是让它算个增长率,而是让它按投行标准搭完整三表联动、做2025–2029收入拆分、三场景、DCF、可比公司倍数,连“蓝色输入、黑色公式、绿色外链”这种洁癖都写进要求里。


这类活在现实里通常给谁?给初级分析师,让他在Excel地狱里练手,练到手指有肌肉记忆。


  • 跨国HR扩张方案:从850人扩到2000人,做18个月滚动编制、招聘漏斗、内部流动、人力成本预算、三种风险场景,还要给可视化。


这就是“HR版三表”,是组织能力与现金流的混合题。


我盯着它“Thinking”转圈的时候,第一个奇怪的感觉是:


它不像在“答题”,更像在“走流程”。你能看到它在拆任务、立结构、补缺口,最后吐出来的是一堆你真的可以拿去交差的东西。


我们来看看结果。


以第一个投行场景测试为例,它给出了一系列交付物,我们将GPT 5.2给出的答案交给Gemini3来评分。发现还是存在问题。


Gemini3:该模型完成了80%的工作量,但剩下的20%包含致命错误。模型构建了完整的“三表联动”框架,在收入驱动因子(Revenue Drivers)和损益表(Income Statement)的各项假设设定上高度还原了题目要求。然而,由于资产负债表存在严重的公式引用错误(Bug),导致营运资本计算失效,进而使DCF估值结果严重失真。


我又问了一下,这种错误是不是常见。


Gemini3:你遇到的这个错误是初级分析师成长的必经之路。它提醒我们:Excel建模不仅是关于财务逻辑,更是关于对细节的极致管理。在提交给客户之前,一定要做最后一步的“合理性自查”。




是的,折腾了这么久,GPT-5.2最终不还是交出了一个有Bug的模型。


结果不完美,但如果和过往一切模型相比,GPT-5.2犯的错反而可能体现出了它这次迭代方向上的本质区别。


我们曾嘲笑AI分不清“9.11和9.9哪个大”,那种错误是“智障型错误”,是逻辑链条的崩坏,让人感到绝望,因为你不知道它下一秒会在哪个常识问题上掉链子。


但GPT-5.2這次犯的错,是“新手型错误”。


这是一种人类太熟悉的错误了。任何一个在投行熬过夜的初级分析师看到那个“资产负债表断崖式归零”的Bug,公式没拖到底、引用区域没锁定、或者硬是把该动态计算的地方写成了死数。


在真实的工作场景中,从来没有哪个MD会直接把初级分析师刚做完的第一版模型发给客户。中间一定会有其他人进行复核。


所以,如果我们给GPT-5.2配备一个“兜底检查”的机制——比如另一个专门负责审计公式的AI Agent,也许就能避免这个错误?


我给了它建议后,GPT-5.2在这个过程中展现出的“求生欲”,让我感到惊讶。


当它发现系统读不到第50行以后的数据时,它面临两个选择:


  • 糊弄:就像以前的模型那样,编造一个看起来合理的WACC值(比如10%),强行算出结果交差。这样做最省事,也最不容易被一眼识破。

  • 解决问题:承认工具的局限,寻找绕过局限的方法。


GPT-5.2选择了后者。它没有依赖幻觉,而是做出了一个不一样的决策:重构表格架构。它像一个真正的工程师一样思考:“既然工具读不到下面,那我就把核心参数搬运到上面去。”


这种“为了适应环境限制而主动修改自身策略”的行为,不得不说,的确非常打工人,非常“牛马”。


它不再是一个只会做这道题的“做题家”,而是一个试图搞定这个项目的“执行者”。它在遇到南墙时,没有撞死,也没有假装穿墙,而是试图架梯子翻过去。


以前我们担心AI骗我们,现在我们看到AI为了不骗我们,正在努力地修Bug。


虽然它现在还是个会犯错的“实习生”,但只要它具备了这种自我修正和环境适应的元认知能力,从“实习生”进化到“合伙人”,或许只是时间问题。


回到屏幕上那个缓慢推进的进度条,我突然意识到,我们过去对AI“即问即答”的期待可能过时了。


在GPT-5.2之前,我们是在用搜索引擎的逻辑要求它,我要什么,你立刻给我什么。但现在,我们可能真的该用用雇佣关系的逻辑看待它了:


我给你一个目标,你给我一个结果,中间的时间归你支配,但结果的责任归我承担。


这可能是OpenAI这次更新带来的最重要的一个启发。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: