扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
过去一个季度,AI模型在高价值任务上的能力突飞猛进,头部AI Labs战略迅速收敛到争夺知识工作者的"高价值任务",这将对白领工作、企业软件市场和社会结构产生深远影响。 ## 1. 硅谷的"Move 37时刻":AI正在颠覆工作方式 1. 硅谷正经历类似AlphaGo击败人类围棋冠军的转折点,AI工程师亲自写代码的比例已降至5%以下 2. 代码生成从copilot辅助(20%提效)变为agent主导(80%代码量),这种冲击将重塑企业软件市场 3. AI研究过程也加速自动化,数据清洗等dirty work开始由AI自主完成,形成self-improving闭环 4. Claude Opus 4.5和Harness环境的两项突破叠加,使AGI感显著增强 ## 2. 高价值任务成为AI Labs的T0战略 1. 所有头部Labs战略从分化转向收敛,聚焦法律、金融、编程等高薪工种的高价值任务 2. Claude Code收入3个月翻3倍达30亿美元,OpenAI ARR达250亿美元,验证高价值任务商业模式 3. 高价值任务标准:端到端完成任务(take action),而非仅提供信息,这将重分配全球白领工资池 4. 美国梨形社会结构中产被替代后,社会结构可能面临不稳定 ## 3. 互联网时代的ToC/ToB二分法已过时 1. Claude Code用5%用户量创造与ChatGPT相当收入,价值公式变为"Token消耗×任务单价" 2. B端形态变化:按seat定价转向按outcome定价,采购方从"信息系统"变为"劳动力"雇主 3. Agent时代C/B边界模糊,评估标准变为是否承载高价值任务及token/spending分配比例 ## 4. 硬件革命:25%的卡创造80%收入 1. NVIDIA定义高价值任务需长周期、大量token交付,这类任务应使用最好模型而非小模型试错 2. 新芯片LPU专为高价值任务设计,最高价值25%场景使用1/4卡量却创造80%收入 3. 硅谷VC反常转向投资芯片,因multi-agent需要AI-native硬件满足context处理、推理速度和数据吞吐 ## 5. Token消耗与商业价值的二八定律 1. OpenClaw尝试用平价模型+大量token试错完成高价值任务,但生产级Harness仍需模型公司主导 2. Multi-agent核心价值在planning agent而非execution agent,顶尖模型在此环节保持优势 3. 一旦平价模型跨过阈值,顶尖模型定价权将消失,从80%spending区滑向80%token区
2026-04-18 10:54

为什么“高价值任务”成了所有AI Labs 的T0级战略?

本文来自微信公众号: 海外独角兽 ,作者:拾象,原文标题:《为什么「高价值任务」成了所有 AI Labs 的T0 级战略?| 拾象 AGI 备忘录》


过去一个季度,模型的进步幅度几乎比过去一年还要剧烈。


Anthropic是这场加速最显性的推手,几乎以每月一个台阶的节奏把模型在高价值任务上的完成度持续推高,在昨天发布刚最新一代模型Opus 4.7后,又继续推出了Claude Design。


在这场变化里,一个值得关注的趋势是头部AI labs的战略开始迅速对齐,coding从“重要场景之一”,变成几乎所有AI labs的T0级战略,市场的竞争重点也从争抢chatbot DAU,转向争抢Top 1%用户,希望先拿下围绕知识工作者的“高价值任务”。


Coding is eating SaaS,and the white-collar is next.


2025年底,拾象在年度预测里写过一句很激进的预测,“我们可能是最后一代白领”。虽然2026刚过去不到1/3,但这句话看起来已经像是一件正在发生的事实。


本期内容是「拾象AGI备忘录」的第一期,拾象团队的四位同事从湾区和北京连线,聊Coding AGI、聊Harness、聊黄仁勋在GTC 2026上的两张图、聊Multi-Agent、token/AI spending的二八定律,也聊一个没法回避的哲学问题:如果execution都被AI吃掉了,人该做什么?


我们希望从这个春天开始,将内部的思考和争论搬到麦克风前,以声音的形式更多的和大家交流。欢迎通过小宇宙订阅收听完整版,留下你们的建议和想听的话题。


01.


硅谷正在集体经历“Move 37时刻”


1.2025年的硅谷技术变化是偏线性的,甚至有人觉得停滞,但今年3月拾象团队在硅谷的体感则完全不一样。硅谷正在集体经历有点像当年围棋冠军遇到AlphaGo时的“move 37时刻”。


2.几乎所有AI工程师和AI研究员都在过去1-2个月之内从写代码变成只做review,很多人直接承认Claude Code比自己强,自己亲手写代码的比例从七八十降到5%以下,很多时候连代码编辑器都不打开。AI研究员们判断“自己的会在两年内工作不保”,而工程师群体则判断自己在今年就可以被替代。



3.二级市场视角则更能量化这种变化:去年常见很多公司讲AI提效、AI ROI的说法还是5%到20%的copilot提效,今年则完全调换,80%甚至更高比例的代码由agent来完成。


4.这种冲击一定会延到B端:当每个员工都能在公司内部搓一套CRM、一套简单的审批流这时,那就会带来一个疑问:这软件本来就不应该付那么多钱?所以AI对Enterprise SaaS的冲击中,白领被替代,即seat-based需求收缩只是第一层,更严肃的第二层是企业软件的毛利被重估。


5.除了Coding加速,整个AI research的过程也在被加速,头部AI labs内部已经跑出一个半自动化甚至接近全自动化的实验流程,过去AI研究员们不愿意干的数据清洗、以及与labeler沟通的dirty work都开始由AI自己承担,而且这个过程是self-improving的闭环。


6.Coding的泛化方式大概率就是下一批白领任务的泛化方式。


7.Claude Sonnet 3.5之后coding就已经变成大模型一条关键主线,但最近一个季度的感受进一步强烈、甚至让模型公司的战略收敛是因为两件同时发生的突破,这两件事叠加在一起才让外部感受到的AGI感越来越明显:


•去年12月Claude Opus 4.5发布:不管是API还是各个coding产品,能力突然不一样了,one-shot prompt基本就能完成任务;


•Claude Code的Harness本身在提升:为agent搭建的工作环境越来越适合它自己发挥。


8.Harness更直白来讲就是给agent搭一套上班需要的Infra,这个词虽然新,但把人与agent协作的本质说得非常贴切。OpenClaw本身就是一套很好的Harness,下一步会往操作系统方向走。


02.


高价值任务:所有AI labs的T0战略


9.2025年我们观察Labs策略时的关键词是“分化”:Anthropic像下一个微软深耕专业知识工作者,OpenAI像下一个Google从Chat里挖高价值信息做广告变现。但今天回看,所有Labs的策略又回到了一个非常收敛的方向,就是高价值任务。


10.Claude Code的run rate从2025年底的约9亿美元飙到今年3月几乎30亿美元,两三个月翻3倍,OpenAI的ARR从去年底的21亿美元涨到最近的27至28亿美元。


11.“高价值任务”的关键在于端到端可以完成任务,不是“我能获得讯息”,而是“我真的能take action”,但模型和agent真正开始take actions时,全球白领的工资池就会被重新分配。


12.法律、金融、Coding、程序员这些共识的高薪工种,共同点是高智力从业门槛、单位智能消耗高、单位产出价值也高。符合这个特征的任务都可以纳入高价值任务。


13.美国社会是一个梨形结构,中产占比极高,当他们真的被替代之后,社会结构会往哪个方向走,会是一件很不稳定的事。


03.


ToC/ToB二分法是互联网时代的旧地图


14.过去一年大家习惯性地用ToC和ToB区分头部Labs的打法,例如:OpenAI像Google,更to C,Anthropic专注to B,是下一个微软,但这个分类本身,可能就是互联网时代的一个惯性。“高价值任务”成为关键词本身就代表着AI Labs的叙事正在彻底摆脱互联网的旧框架。


15.用户量不再是价值的充分条件。Claude Code的用户规模大约只有ChatGPT的1/20,但两者的ARR当下已经基本持平,甚至有反超的趋势。(注:播客录制于3月下旬;截至2026年4月,Anthropic ARR已达约300亿美元,超过OpenAI的约250亿美元)一个以工程师为核心用户、垂直扎进Coding的产品,用5%的用户量跑出可比收入在互联网时代是不成立的。


16.新时代的价值公式,从“DAU×ARPU”切换成了“Token消耗×任务单价”。


17.B端本身的形态也在变。当白领被AI替代之后,B端的人头规模会缩小,但单位价值和adoption速度都在变大。SaaS时代按seat定价的逻辑,正在被按outcome定价替代;买方从“信息系统”的采购者,变成“劳动力”的雇主,本质上不是同一个B端市场。


18.Agent时代,C和B的边界会越来越模糊。一个founder雇100个agent做开发,他既是B端的API调用者,也是C端的产品用户。未来评估一家AI公司真正有意义的维度,不再是它在ToC还是ToB,而是它承载的是不是高价值任务、它分到的是80%的token还是80%的spending?


04.


25%的卡创造80%的收入


19.GTC上Jensen给出一个高价值任务的定义:由agent独立完成、长周期、吐出大量token最终交付结果的任务。过程很长、需要花很多精力才能实现的任务,大概率才是高价值任务。


20.在同一张卡的硬件约束下,速度和吞吐量是一组矛盾:优先优化吞吐量,速度会下降;优先优化速度,吞吐量就支持不了那么大的并发。过去的典型选择是用相对小的模型兼顾速度和吞吐,但代价是小模型需要做大量过程推理和试错才能得到一个好结果。



21.在这个Vision下,NVDA其实抛出了一个路线bet:未来高价值任务应该由最好的模型来做试错,而不是小模型。把试错的机会给最好的模型,让最好的模型同时输出大量token。


22.这对硬件的挑战是最好的模型latency要越来越快,并发的要求也能支持相应的使用场景。老黄为这件事专门发了一颗新一代芯片LPU(有的媒体叫LPUX、LPGU)。


23.NVDA还给了一张定量拆分:把模型的使用场景分成四档,每档平均分配25%的卡。最高价值的那25%用的是GPU加Grok LPU的新方案,这25%的场景虽然只用了1/4的卡,却可能为客户创造80%的收入。最低价值的那25%基本是服务免费客户、承担引流意义、几乎不创造收入。卡的分配均匀,钱的分布却极度倾斜。



24.这张图的真正implication不在硬件本身,而在它对高价值任务做了一次物理层面的背书:只要高价值任务必须跑在最快的硬件加最好的模型上,顶尖模型就有结构性的定价能力;一旦平价模型追到够用阈值,这条定价权就会被压扁。


05.


“只投软件”的硅谷也开始投芯片了


25.过去两个月湾区VC有一个很“反常”的趋势:硅谷过去二三十年的钱大部分投在软件上,但最近却纷纷开始投芯片了。批量化地这么多机构同时投硬件,这件事至少十年难遇。


26.现实矛盾:普通GPU rack的优势是能装下最好的模型,但推理速度有限、并发不高,只能服务少量高精尖用户;换成小模型虽然又快又能并发,但任务简单。


27.Cerebras的思路是把芯片做得很大,NVDA收购的Grok和Cerebras在设计思路上有一点相似,都用SRAM,比现在用的HBM内存更快、吞吐量更大,适合承担推理时大量进出的中间过程数据。NVIDIA看到这一点之后给出的方案是把Grok思路做成一个新芯片,跟GPU rack配合。


28.核心原因是进入Agent时代,尤其在multi-agents的背景下,我们需要AI-native hardware”。Multi-agent形态对硬件同时提出了三个维度的短板要求:


•context处理能力:需要把context拆到多个agent上以避免长上下文的decay;


•单次推理速度:按老黄自己的说法要再推高5倍、10倍;在指定时间里一个模型的思维链长度是有限的,速度不够,思考就不够全面,必须引入多个并行agent;


•合作过程中的数据throughput:一个任务要被分配到不同agent、再汇总到下一个环节,数据传输量同样要求极高。


06.


80%的token与80%的spending是两件事


29.GTC上Jensen Huang的思路是把高价值档位往上拉,那另一条线是把便宜模型往上够,这条线的代表是OpenClaw,这是一条让便宜模型够到高价值任务上限的捷径。


30.国内龙虾热之后紧跟着出现了龙虾卸载热,不少人觉得用不好,是因为现有Harness还不够好,OpenClaw更像一个实验、一个开源原型,离生产端仍有不小的gap。


31.OpenClaw赢得市场关注在于一个创新的ideas,而不是极致工程能力,真正把Harness做到生产级的,大概率还是围绕Claude、OpenAI,也就是离模型更近的人,因为他们必须随着模型的进步持续迭代Harness,才能既harness住模型又不被模型能力反向吞没。


32.在OpenClaw这套框架下,所谓的高价值任务是用相对平价的模型浪费、或者说消耗足够多的token去反复试错,把一些任务尽可能用Harness兜底、让它完成得比较好。这也解释了硅谷对OpenClaw没有AI社区那么兴奋,因为AI Labs或是资金充沛的startups直接用最好的模型就行;


33.Multi-agent的本质,是在单位时间内做足够多的并行计算,并且通过并行和交叉分工的方式把它组织起来,让系统的鲁棒性更强。这不是算法问题,更多是管理学问题,像大厂赛马。


34.Multi-agents里真正值钱的其实不是execution agent,而是planning agent,定角色、开agent、派任务的那个核心角色。


35.高价值任务的“二八结构”在当下是成立是依赖于顶尖模型在planner这个位置上始终拉得开差距。一旦平价模型跨过够用阈值,顶尖模型在那个场景里就会被重新定价为平价模型,从“80%spending区”滑向“80%token区”。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜