正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-12-21 07:32

OpenAI重磅发布o3,再次突破AI极限

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO ,原文标题:《刚刚,OpenAI 重磅发布 o3!再次突破 AI 极限,北大校友参与研发》,题图来自:视觉中国

文章摘要
OpenAI发布o3模型,性能大幅提升但仍面临竞争压力。

• 🚀 o3模型性能超越o1,接近AGI能力

• 💡 o3 mini版本发布,速度更快,成本更低

• ⚠️ 面临竞争对手挑战,ChatGPT市场份额下降

OpenAI迎来了年底AI春晚的收官之作。


这次发布的o3系列模型是o1的迭代版本,考虑到可能与英国电信运营商O2存在版权或商标冲突,OpenAI决定跳过“o2”命名,直接采用“o3”。


为此,OpenAI CEO Sam Altman更是自嘲公司在模型命名方面的混乱(原来你也知道呀)


本次发布会由Sam Altman、研究高级副总裁Mark Chen以及研究科学家Hongyu Ren(任泓宇)主持。


视频截图


值得注意的是,任泓宇本科毕业于北大,对o1有过基础性贡献,也是GPT-4o的核心开发者,曾在苹果、微软和英伟达有过丰富的研究实习经历。


o3系列包含两款重磅模型:


  • OpenAI o3:旗舰版本,具备强大的性能表现


  • OpenAI o3 mini:轻量级模型,但能更快,更便宜,主打性价比


先别急着高兴,因为o3系列目前并不会向普通用户开放,OpenAI计划先开放外部安全测试申请,正式发布时间预计要到明年1月。


(现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/)


一、o3性能大跃迁,死记硬背?不存在的


o3模型的“纸面参数”迎来了全方位提升。


首先在SweepBench Verified基准测试中,o3达到了约71.7%的准确率,直接将o1模型甩在身后整整20%之多。


转入编码领域,o1在编程竞赛平台Codeforces上的得分为1891。而o3在开足马力,延长思考时间的情况下,得分可达2727。



作为参照,演示人员Mark Chen的得分也只有2500,充分展现了o3模型已经具备接近甚至超越人类专业程序员的实力。


在数学领域,o3同样表现出色。


在美国数学竞赛AIME 2024测试中,o3以90.67%的准确率完全碾压了o1的83.3%。


遇上衡量博士级科学问题解答能力的GPQA Diamond测试,o3取得了87.7%的成绩,而o1仅为78%。


什么概念呢?要知道,就算是领域内的博士专家,也往往只能在自己的专业范围内达到约70%的准确率。



面对当前基准测试接近满分的情况,OpenAI引入了一个全新的数学测试EpochAI Frontier Math。


这被认为是当前最具挑战性的数学评估之一,包含了极其复杂的问题。就连专业数学家解决单个问题也需要耗费数小时甚至数天。


目前,所有现有模型在该测试上的准确率都不足2%,而在高算力的长时间测试下,o3却能取得超过2457的分数。



说到AI领域的圣杯AGI,也就不得不提到ARC-AGI这个专门衡量AGI的基准测试。


ARC-AGI是由Keras之父François Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。



当演示人员向另一位演示人员Mark Chen提出即兴问题时,后者准确指出了任务的要求:需要计算每个黄色方块中彩色小方块的数量,并据此生成相应的边框。


这些对人类来说再简单不过的任务,对AI来说却是一道难题。



并且,ARC-AGI的每个任务都需要不同的技能,且刻意避免重复,完全杜绝了模型靠“死记硬背”取巧的可能,真正测试模型实时学习和应用新技能的能力。


现在,o3在低算力的配置下得分75.7分。当要求o3思考更长时间,并且提高算力,o3在相同的隐藏保留集上得分87.5%,远超大多数真人。


OpenAI的言外之意就是,o3将让我们离AGI更近一步。


二、o3 mini重磅发布,速度更快,成本更低


今年九月,OpenAI发布了o1 mini,具有很强的数学和编程能力,而且成本极低。


延续这一发展方向,今天推出的o3 mini也保留了上述特征。即日起,该模型仅向安全研究人员开放测试申请,截止日期为1月10日。


o3 mini支持低、中、高三种推理时间模式。


用户可根据任务复杂度灵活调整模型的思考时间。例如,复杂问题可选择更长的思考时间,而简单问题则可快速处理。



从首批评估结果来看,在衡量编程能力的Codeforces Elo评分中,随着推理时间的增加,其Elo分数持续攀升,在中等推理时间下就已超越o1 mini。



演示人员要求模型使用Python创建了一个代码生成器和执行器,该脚本可启动服务器并创建本地用户界面。用户可在文本框中输入代码请求,系统会将请求发送至三种高级模式的API,生成并执行相应代码。



例如,当要求其生成一个包含OpenAI和随机数的代码时,o3 mini的中等推理模式迅速完成了处理。


另外,它还能自己测试自己,比如说在GPQA数据集测试中,模型以低推理模式完成了复杂数据集的评估。


它下载原始文件,识别CSS、答案和选项,整理问题并进行解答,最后进行评分,仅用一分钟就完成了自我评估,准确率达到61.62%。



在数学领域,o3 mini同样表现优秀。


在AIME数学基准测试中,其低推理模式就达到了与o1 mini相当的性能,中等推理模式更是超越了o1 mini,且延时更低。



另外,应广大开发者呼声,o3 mini模型也将全面支持函数调用、结构化输出和开发者指令等API功能。


现在,o3 mini和o3的申请通道现已开放。o3 mini预计将于1月向所有用户推出,完整版o3则将在后续发布。



三、写在最后


在这个为期12天的年末发布会上,OpenAI终于祭出了压箱底的杀手锏。


可以说,o3模型的发布为这场一度陷入“高开低走”困境的发布会,画上了一个意料之外却又情理之中的圆满句号。


短短不到3个月的时间,OpenAI就完成了o1模型的迭代升级。


这种从GPT系列到o系列的转型,显然是OpenAI深思熟虑后的战略选择,而事后结果也证明这个决定是明智的。


不过,值得注意的是,微软CEO Satya Nadella近期在一档播客节目中表示,OpenAI在AI领域领先竞争对手约两年之久。


也正是这种相对宽松的竞争环境,使得OpenAI能够专注于开发ChatGPT。


然而,当前形势攻守易形也。


Menlo Ventures的报告显示,ChatGPT的市场份额被其他竞争对手逐渐蚕食,从2023年的50%下降到了2024年的34%。


由“标配”沦为“可选项”,ChatGPT的光环正在褪去。



这背后的原因显而易见,OpenAI的“护城河”正被短命狂奔的竞争对手们一寸寸填平。


来自Artificial Analysis的调研数据清晰显示,Anthropic和Google等厂商陆续开发出性能接近GPT-4、OpenAI o1等新模型。


并且,随着Scaling Law触及天花板,核心高管人才相继离场,OpenAI过往靠单个基础模型赢得的红利正在加速消退。


在动辄以天计的行业里,即便是今日发布的o3模型也很难再次创造长达2年的空窗期。


尤其是当Grok-3和Claude等新模型蓄势待发,留给OpenAI的时间或许已经不多了。


醒醒,今年最好的AI厂商依旧是OpenAI,但明年或许会因为不同的AI方向有无数种答案。


所幸,作为用户的我们,都将是这场变局中最大的赢家。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: