2026-06-21 08:52

Eric的思维提升笔记本

一只特立独行的Eric

速览

本文来自微信公众号：一只特立独行的Eric ，作者：特例独行的Eric，原文标题：《Eric的思维提升笔记本【2026年5月刊】》

一、Eric的打工思考

以下是与Claude Opus4.8的对谈，

问题1：目前AI的应用层（eg.谷歌、Meta）还没用AI提升多少收入，反而是其CapEX带动了产业链公司的估值和营收大幅提升，历史上出现过类似的情况吗？基于现实和历史请你判断接下来的走势。

Claude：你说得基本对，这一轮AI的价值捕获，绝大部分确实发生在"卖铲子"那一层,而不是应用层。

2026年四大(亚马逊~2000亿、谷歌1750–1850亿、Meta最高1350亿、微软1200亿+)的资本开支合计逼近7000亿美元，这个数字比2025年约4100亿的纪录又涨了约77%，2027年预计破万亿。

这些钱大部分流进了英伟达(最新季度收入816亿、同比+85%,吃掉约90%的加速器开支)、台积电(2025年收入1225亿、同比+36%,占全球代工约70%、先进制程约90%)，以及Vertiv(液冷)、博通(定制芯片)、电力和数据中心REIT这一串配套。

代价是：大厂的资本开支已经占到收入的45–57%——这是过去科技公司不可想象的强度，更像工业或公用事业公司，开支已经超过自由现金流，逼着它们去发债，未来几年科技行业可能要新发1.5万亿美元债务来支撑。

但有一个修正你不能漏:"应用层没用AI提升收入"这个说法,对谷歌和Meta其实只对了一半。它们的AI很可能已经在赚钱了,只是没单列成一条"AI收入",而是埋进了核心广告业务里——更好的排序、推荐、定向带来的engagement和eCPM提升。

这跟"完全没货币化"是两码事。

真正稀薄的是那种被当成独立AI产品卖出去、能在企业损益表上看到的增量收入。MIT的NANDA研究发现，企业级GenAI试点里95%对损益没有可测量的影响，而这是建立在300–400亿美元企业开支之上的；红杉David Cahn算的那个"6000亿美元缺口"(AI每年需要产生的、用来justify资本开支的收入)在2026年是在扩大,不是收窄。

所以结构是：基础设施层的收入有真有假(云算力是真的,AWS年化~1500亿/+28%、谷歌云~800亿/+63%、Azure AI~370亿/+123%；但OpenAI–英伟达–甲骨文那种循环投资/供应商融资是另一回事),而终端需求还没接上。

历史上出现过吗？太典型了，而且不止一次。

最干净的对照是1996–2002年的电信/光纤泡沫。当年WorldCom、Global Crossing、Qwest、Level 3砸了上千亿美元铺光纤，设备和器件商——思科、朗讯、北电、JDS Uniphase、康宁——收入和估值率先暴涨，逻辑跟今天一模一样：需求无限、铲子先涨。

结果是灾难性的产能过剩(泡沫破时绝大部分光纤是"暗纤",根本没人用),而且供应商融资(朗讯/北电借钱给客户来买自己的设备)在崩盘时反向放大了杀伤。最后这些建设方破产、设备商市值蒸发90%以上(康宁、JDS跌幅近99%，北电后来直接清算)。

讽刺的是,那批光纤十年后真的撑起了宽带、流媒体和云——基础设施是真的、是变革性的,但在繁荣期投进去的资本绝大多数被毁灭了。这正是今天有人反复提"思科1999–2000"的原因——极高的收入增长集中在一两家公司、来自极少数客户,这个结构性回声很难忽略。再往前，1840年代英国的铁路狂热是同一个模板：投机资本涌入、铁/建筑("铲子")先繁荣、股价崩盘、散户被毁,但铁路网留下来并改造了经济。

但也要给个反例避免决定论：2010年代的云/数据中心建设,资本开支事后被证明是值的——所以问题从来不是"会不会破",而是节奏、谁最终收走剩余、以及你在哪个价位进去。

接下来怎么走——我的判断分情景说，因为时点本质不可知，

核心机理是：整条供应链的估值是预支的——它借的是应用层未来货币化成功、从而资本开支永续增长的假设；而这个假设现在还没兑现。所以供应链把自己的估值押在了一个尚未发生的事情上。一旦大厂"眨眼"(注意：不需要绝对削减,只要资本开支增速放缓就够)，被定价成永续增长的供应链就会同步、剧烈地重估——如果企业AI采用停滞，整个资本开支栈会一次性向下重估。

2025年1月27日DeepSeek那天,一个效率叙事就抹掉了美国AI相关市值1万亿、英伟达单日蒸发5888亿(史上最大单日)，已经演示过这个叙事有多脆。

基准情景（概率最高）：周期还会再撑一段(Jevons效应——更便宜的推理可能反而拉高总用量、需要更多而非更少基础设施；加上囚徒困境式的竞争，没人敢先停），但缺口继续扩大、脆性继续累积；在某个时点(2026?2028?真不知道)出现资本开支增速降档或需求证伪，触发供应链的尖锐同步重估。

建好的基础设施是真有用的，但繁荣期投入的相当一部分资本回报很差，杠杆最重、循环融资最深的玩家伤得最狠（2026年超大厂自由现金流在大幅下滑，亚马逊甚至可能转负，而这一层现在压着1.5万亿的债务计划——这是比电信泡沫更危险的放大器）。

最终赢家，大概率是两类：

一是已经把AI嵌进既有护城河和分发的少数应用层特许经营(谷歌、Meta——它们拥有需求,而不是"租用模型")；

二是有结构性卡位的真收费站(台积电的制程壁垒；英伟达若能守住软件生态锁定——但它恰恰是对资本开支气穴和定制芯片替代最敏感的那个)。

输家大概率是被按永续增长定价的二阶供应链（A股不少），以及那些唯一护城河是访问前沿模型、结果是在向一家花1000亿把模型做成商品的公司租自己生意的烧钱应用初创。

问题2：ChatGPT的广告业务卖得怎么样了？估算一下2026、2027的广告收入水平，需要严谨定量预估且说清楚逻辑

Claude：OpenAI真的在卖了、起步很快、但绝对体量还很小，而且最值钱的那批用户(付费用户)恰恰被排除在广告之外。下面把现状、各方预测、和我自己的自下而上测算分开讲清楚。

①现状：从"最后手段"到6周破1亿美元年化

Altman过去多年把广告称作OpenAI的"最后手段",但节奏快得反常:

2026年1月16日官宣、2月9日正式上线,只面向美国的免费版和新的ChatGPT Go($8/月)层级,Plus/Pro/Enterprise保持无广告。格式是回答下方"带色块的赞助框",上下文匹配,声称不影响答案本身。

最初是CPM模式、20–25万美元起投,首批广告主包括Target、福特、Adobe、Mrs.Meyer's、Expedia;两个月内试点年化收入突破1亿美元,数百家广告主参与。

5月5日自助式Ads Manager向所有美国企业开放,取消起投门槛,加入CPC竞价(建议出价3–5美元/次点击)，并上线Conversions API；最初60美元的高价CPM在约十周内被打到低至25美元。

试点已开始扩到加拿大、澳大利亚、新西兰,并计划年内扩到更多市场。

怎么读这个"现状":起步速度确实惊人,但要冷静看两点。

第一，1亿美元年化是退出时点的run-rate、不是已入账收入，且对一家全年营收奔着294亿去的公司来说几乎是噪声。

第二，CPM在十周内从60跌到25，是个真实的需求信号——库存(用户注意力)放量比广告主需求来得快，这是价格发现期供过于求的典型表现,转CPC也印证了这点。

②已有的各方预测:分歧高达3–5倍

关键背景：Barclays模型假设"可投放广告用户"从2026年的7亿增到2030年的17亿，每用户每天4.0次查询(恒定)，每次查询收入从2026年的$0.002(仅为谷歌的6%)跳到2027年的$0.008，对应ARPU从$3.50跳到$12，广告占OpenAI总收入从8%升到36%。

Barclays自己也指出，最有争议的就是"每次查询收入"那个假设。而eMarketer的Elliott直接开怼：OpenAI认为ChatGPT 2030年能在美国收约500亿广告费，我们认为它整个可触达市场只有这数字的1/10。

也就是说，OpenAI的$2.5B/$11B本质是IPO前(可能Q4 2026)的招股式目标数，要打折看；独立分析师的合理区间比它低3–5倍。

③GPT的广告收入测算

用最朴素的恒等式：广告收入=可投放广告用户×每用户每日查询×365×每次查询收入。三个变量我用公开锚定值,并对两个最不确定的(地理覆盖、每次查询收入)给出区间。

2026年：约$0.6B–$1.2B，中枢$0.8–1.0B。

交叉验证：从3月的~$1亿年化爬升,即便年底退出run-rate到$2–3.5B，全年实际入账(对一条爬坡曲线积分)也就$0.6–1.2B。这和Truist/eMarketer/WPP的"<$1B"一致,明显低于OpenAI的$2.5B。

2027年:约$4B–$10B,中枢$6–7B。(低端0.6B用户×$0.005,高端0.9B×$0.009≈$11.8B，即OpenAI口径。)

为什么我比OpenAI保守(把逻辑摊开):

1.日历年vs退出run-rate。

2月才上线、5月才自助化的产品,2026"全年入账"结构性地远低于"年底年化"。OpenAI的$2.5B更像把年底run-rate当全年。

2.地理铺开速度是最大变量。

7亿可投放用户要求近乎全球上线,而现实是4个英语市场。我对2026压到2–3.5亿。

3.ARPU从$3.50一年跳到$12(+243%)是最英勇的假设。

价格发现期CPM在下跌,这个跳跃缺乏支撑,所以我2027压在$6–7B而非$11B。

4.结构性逆风(这是我真正偏空的理由)：

最值钱的用户被排除。高商业意图、高支付能力的Plus/Pro/Enterprise是无广告的,ChatGPT是在用它商业价值最低的那批用户变现广告。

对话式UI天然限制广告载荷。一个色块vs搜索一整页结果,单位会话能塞的广告远少于谷歌。

"给答案而非给链接"削弱点击变现模型。HBR的研究显示ChatGPT导流的转化率高于社交、但仍低于付费搜索——介于两者之间，不是搜索级。

大头被谷歌/Meta在自己产品里(AI Overviews等)截走,未必流向ChatGPT。

问题3：AI对真人影视的影响，在短剧赛道已经充分体现了；但在游戏市场还没有批量应用，你判断AI未来将如何影响游戏行业的走向？对当前的核心厂商（eg.腾讯、网易、宫崎英高、Take two等）的业务会有哪些影响？

Claude：先说为什么游戏迟迟没出现短剧那种"批量替代"——这是理解后续走向的关键。两者交付物的性质根本不同：短剧的成品是线性视频，AI视频生成可以直接产出整个成品，且短剧的价值主张本就是"便宜+快"、对画面瑕疵高度容忍，所以AI天然吻合，利润池也流向了流量平台。

而游戏的成品是一套可交互的软件系统(状态、规则、QA、叙事一致性），不是线性输出，现在的AI还无法"一键生成"一款能上线的游戏。所以AI在游戏里是嵌进仍由人主导的流水线里的生产力工具,而非整体替代——这就是没批量应用的根本原因。

①AI如何改变游戏：三个层次，成熟度递减

生产端(已落地、最实)：降本增效。美术约占开发时间的40%，AI把素材制作时间砍掉70–90%、每款省10万–50万美元；约50%的工作室已在用生成式AI；

3A单款游戏通过AI辅助QA/本地化/NPC/素材平均省约1000万美元；直播服务的内容更新从月级提到周级，提速10倍。实测开发周期缩短25–40%、素材成本节省超20%。这一层压平了3A的成本曲线、加速了迭代，但不改变"游戏是什么"。

体验端(正在涌现、真正创造增量)：AI原生玩法。LLM驱动的NPC——有记忆、性格、情绪。网易给《逆水寒》定制武侠GPT、NPC能用诗词典故应答，基于10亿条玩家对话训练"沈秋索"；

育碧NEO NPC、英伟达ACE、Rockstar的GTA VI用了"对话衰减"架构都是这条线。财报显示智能NPC显著提升在位时长和留存率——玩家不再为升级而对话，而是为"社交"而对话，愿意为多聊几句而上线、为给NPC买衣服而付费。这一层是把AI变成"情感商品",创造的是新价值而不只是省成本。

前沿(数年以后)：真·AI生成游戏。世界模型是方向——DeepMind的Genie 3能实时(720p/24fps)从文字/草图生成可操控的3D环境、保持几分钟的世界一致性，Project Genie原型2026年1月底向部分用户开放。但要冷静：

(1)研究级,一致性只有"几分钟"、无持久状态和规则,离能上线的游戏差着量级；

(2)DeepMind明确说做Genie不是为游戏,而是给AGI智能体和机器人造训练场，Waymo已用它做自动驾驶仿真；

(3)还有"gameslop"的玩家抵触，加上美国版权局认定无人类创作贡献的纯AI内容不受版权保护，从情绪和法律两端都压制纯AI成品。所以它近期最现实的用处是原型设计+实验性长尾新品类，而非核心/AAA市场。

②产业的结构性变化

当内容生产成本坍塌，底层逻辑和短剧一脉相承、但被"手艺"扭转了方向：短剧手艺门槛低→AI吃掉生产层、价值流向流量平台；

游戏的手艺门槛把市场劈成两半——AI把低手艺的中间层商品化(价值流向分销/流量平台)，却同时抬高了高手艺IP的稀缺溢价。

所以两个能立住的位置是：握有分销/注意力/引擎层，和握有不可替代的手艺IP；最脆弱的是"既无分销、又无手艺、也无社区"的通用中腰部内容。

③对四家核心厂商的影响

腾讯——最清晰的受益者

AI是经营杠杆：

混元平台做到分钟级角色生成，缩短美术周期，把成本压力摊薄到它庞大的自研+投资组合上(王者、和平精英,以及Riot/Supercell/Epic的股权)，收入增长的同时改善利润率；

AI Lab做反外挂和竞技机器人(公平性=免费游戏的留存)。

但真正耐用的资产是分销(微信、社交图谱、应用商店)+Epic/虚幻引擎——在"价值流向分销"的世界里，腾讯既握着流量入口，又握着正在变成AI内容工具平台的引擎层。

还有一层彩蛋：腾讯通过子公司直接持有FromSoftware约16.3%(索尼约14.1%,Kadokawa仍是约69.7%的大股东)，外加持有母公司Kadokawa约7.97%——等于间接持有"AI越普及越稀缺"的手艺IP。

整体看，对腾讯的游戏业务，AI是顺风远大于威胁(成本杠杆+分销护城河+引擎工具+手艺IP期权)。风险是泛化的(更多内容争夺注意力)，但注意力恰恰是腾讯的。

网易——体验/留存护城河被加深，但更"纯内容竞争"

把AI做成"情感商品"，靠和心仪NPC的情感连接建立护城河，比数值堆砌稳固；2025年Q3在行业增速放缓下，网易游戏及增值服务净收入仍增长11.8%；

伏羲实验室主攻AI生产，蛋仔派对的UGC也靠AI辅助。它的本钱是深厚的自研手艺+IP+独有的玩家行为数据(那10亿条对话)+长线运营。

但相对腾讯，它更接近纯游戏公司、缺少分销和引擎层，所以对内容商品化更敏感；且NPC长期记忆断层这个技术难题仍未解决,限制了"AI原生"的天花板。

AI深化网易的体验护城河，但它的内容竞争度高于腾讯。

FromSoftware(宫崎英高)——受威胁最小,甚至相对赢家。

它的全部价值在于定制化、作者驱动、手工调校的关卡/难度/美术(Elden Ring卖出2860万份以上)，这恰恰是AI生成不出来、且玩家愿意付溢价的东西。

AI越是把通用内容洪水化，它的手艺稀缺溢价反而越高；对它而言AI是纯生产力工具(提升产能而不稀释手艺)，需求端风险≈极小。

它真正的风险不是AI，而是治理：截至2026年3月底,香港激进基金Oasis Management已增持Kadokawa到约13.76%、超过索尼成为最大股东，并提出"重要提案"，市场担心其推动给Elden Ring等加入微交易；FromSoftware称其方针"不受任何单一股东影响"，宫崎团队一贯把设计完整性置于追逐潮流之上。

Take-Two(Rockstar+2K)——AI主要是AAA成本的解压阀，IP本身抗AI；但纯内容、无分销。

近期一切系于GTA VI锁定2026年11月19日(PS5/Xbox,首发无PC)，5月21日财报再确认，估计首日销量约2500万份、上年营收67亿美元、本财年有望到80亿；

Rockstar和FromSoftware同属手艺顶端：需求端抗AI、IP稀缺。AI对它最大的意义是缓解3A惨烈的经济学($1B级预算、7年以上周期)——素材/NPC/QA的提效能掰弯成本曲线(GTA VI已用AI对话系统)，这对3A的利润率和出片节奏极重要；

NBA 2K这类年货也受益。

但Take-Two是纯内容公司、没有分销/平台/引擎护城河,在内容过剩的世界里比腾讯更需要竞争，只能靠IP稀缺+制作卓越；且3A比手游更受配音工会(SAG-AFTRA对AI配音)摩擦影响。

横线以下内容为人类的输出

[播客]《再访王宁》——高能量

每次听王宁分享，我都会怀疑他是不是去段永平那里培训过，速记：

1.2025能对泡泡玛特团队来说，像是刚会开车的人被拉去开飞机，只有资本市场和媒体会很兴奋，内部的人完全没有，因为你是第一次开飞机，根本没时间看窗外的风景；

2.未来要把海外门店的运营能力对齐国内的标准，这个过程磨合起来是很有难度的；

3.Labubu最火的时候，内部更多做的动作是灭火而不是加火，为了避免过于依赖单一IP，导致整个团队被销售压力绑架，变得短视；内部一直努力希望把Labubu控制在35%以内；

4.Labubu爆火当然有运气的成分，但Labubu这个IP也做了整整10年，中间有很多失败和迭代，面对运气，潮玩厂商关键要有“已经准备好的能力”，比如：供应链和全球渠道；Labubu体现了团队对IP运营的成熟框架，今年国内星星人也很火；

5.未来希望拓展更多的品类，比如：饰品/甜品/家电……，选饰品是因为它也是交付情绪价值的品类，和泡泡玛特的基本盘比较像；选甜品是为了加上线下乐园的用户体验；选家电是因为希望IP赋能一个成熟且有一定市场规模的品类；

6.2025年花了更多时间say no，拒绝了大量合作/联名需求，部分品类甚至不得不关掉，即使已经一年卖1亿规模；目的是让团队注意力进一步聚焦，公司十几年创业历程，高层很重视聚焦；

7.2024年黑神话、哪吒很火，很多人拿我们和这些IP类比，但Labubu的区别是，它是每年卖出上亿件实物的IP，这些实物放置在用户的生活场景里，会持续和用户发生连接，这和虚拟IP很不一样；

8.尝试做乐园、做电影、做游戏，不是为了得到一个结果（如：上线一款游戏），而是能获得一种能力，比如运营大型乐园的能力；

9.王宁认为：未来AI会让线上的体验变得更加极致，所以如果是做线下的生意，就必须把体验也跟上时代，做得更极致，泡泡玛特最近10年在线下体验上做了非常多的打磨和沉淀，未来线下体验还会做得更好；

10.和一些做奢侈品的同行交流，他们提到判断一个奢侈品品牌是不是真的立得住，核心是看【包】在总销售额里的占比够不够大；类似，未来泡泡玛特要做大，可能60%是围绕基本盘，即最核心的品类不断创新+成长（eg.Nike的airjordan），剩下40%则需要加强创新；

[播客]《Google姚顺宇》——张小珺商业访谈

强大/牛逼/推荐：

1.业界对预训练scale up的瓶颈偏悲观，至少目前看未来4个月是没有上限的；

2.中国模型公司对蒸馏别人很在行，但蒸馏也分硬蒸和聪明的蒸，硬蒸就是从Claude生成的一堆token里强行做训练，这种模式首先商业上不道德，智力上也不体面。聪明的蒸，比如在模型生成链条的一个环节做辅助，或者自己模型生成的答案，用别的模型作评价者；

3.目前看起来，国内像字节的豆包应该是没有怎么蒸馏别人的，虽然智能程度比不上北美三家，但豆包的语音生成能力可以说是全球第一；

4.姚：高中参加竞赛前阴差阳错去清华参加了一个夏令营，最后一天听说清华搞自主招生但主要是面向北京的学生，当时自己就疯狂给招生办老师发信息，问为什么北京考生能考，上海考生不行，最后反复沟通后，那一批上海高中的夏令营学生得以一起考，自己考过就签了（一本线上清华），如果当时自己没发那个短信，很可能进不了清华。从这件事里，自己学到的人生最重要的道理是“胆子一定要大，你争取了不一定能得到，你不争取大概率是得不到的”；

5.虽然当前scaling law是黑盒，但热力学第一第二定律发现的时候也是经验规律，随着研究的深入逐步成为科学规律，相信Scaling law未来也会成为科学规律；

6.入职anthropic以后，能感觉这是一个非常Topdown和执行力非常非常强的公司；

7.在anthropic，强的技术负责人也是公司联创，做决策就比较容易服众，尤其是对研究员；但OpenAI在Ilya走了以后就没法实现了，Gemini则是很传统的大公司，也很bottomup，有一套所谓的OKR机制引导你去做事，做事整体要考虑声誉和安全；

8.为什么Claude的Coding比其他两家更强？其中一个重要的点就是把重要的东西做得比谁都干净/简单；

9.为什么anthropic这么重视coding？其中一个原因是：anthropic认为Coding本身也是大语言模型的一部分，如果Coding能做得非常好，则模型会形成飞轮效应；其次是，coding代表模型使用工具对环境很好的抽象，对做通用性研究的价值很大；

10.Claude3.7以后，anthropic/openai/deepseek才逐渐反应过来【后训练】应该如何做，如何Scale up；你需要一个找到一个环境，这个环境回馈信号足够清晰，这个环境本身是很强的数据源，以及在这个环境上可以做稳定的训练；

11.预训练和后训练目前看都还没有到瓶颈期；预训练需要很广的数据，但数据质量不用非常高；但后训练需要比较窄范围的数据，但对数据质量要求很高；

12.可能在半年内，AI就可以做自己研究自己的封闭实验了，这会进一步加速智能提升；当然还有很多细节要准备，比如：怎么选择合适的data，怎么选取合适的回馈信号，它对基础设施的要求也有新的挑战；

13.“人生这么短，如果想活得精彩，为什么要浪费时间伺候老登？”

[播客]《Danfei Xu：人类数据，行为克隆，机器人的GPT-3，斯坦福，全栈机器人，EgoMimic，遥操作，UMI》——Whynot TV

1.用LLM做任务规划没问题，也不算难，但机器人应用所需要的【精密操作、让机器人理解物理常识】，只有语言模型是远远不够的；

2.机器人要提升精密操作能力，也需要依靠data driven，虚拟世界的需要数据远远不够，需要比如：第一人称视角的数据，像Meta这种坚持VR公司，这类数据的积累量是非常领先的；

3.LLM能mock人类在互联网的行为，但人形机器人，需要现实世界的人类数据，即human data for robot；真正要做出来，Maybe需要1亿小时左右的数据，目前比较大的human data数据公司，大概有10万小时；

[实践]近期的AI实践总结

1.对比GPT/Gemini/Kimi的Deep Research功能，如果是研究中国公司Kimi更强（eg.字节），两轮交互就能生成12万字超级完整的分析；非中国公司定性研究Claude更强，定量研究GPT更强；

2.AI降低生产端门槛以后，内容泛滥是不可避免的，对泛娱乐/影视/游戏中的真人环节都有冲击；但如果是消费决策，AI虽然能生成类真人内容，但是用户需要的就是真人体验的经验，这部分用户价值，会在小红书平台进一步被UGC生态强化；

3.Gemini现在最低7.99美元一个月，还送200G谷歌网盘，对比Anthropic我愿称谷歌为地球良心企业🌏

4.aha moment：今天第一次出现，Openclaw主动提出要做一个“投资随笔”的Cron，而且是在跑自动化任务的时候一并主动提出的（图1～2）；从这类主动行为，能感受到Agent未来的上限会很高，因为它掌握的用户Context会越来越多；

[实践]中美AI竞赛思考

from和某大佬交流得到的启发

1.AI model的商业模式本身并不好，因为资本投入太大（买卡→预训练/推理/后训练），相比产业链上的资本投入，营收还是太少（ARR只有几百亿美金），且服务差异化也没有英伟达那么大，也没有强的网络效应；

综上导致，先发者（Anthropic/OpenAI）花了很多资本训练的智能且被迫闭源，后发者（eg.deepseek/kimi）可以以更开源（社区更繁荣）、更低成本的方式在3~6月后追上，这种跟随问题，在先发者智能提升遇到瓶颈时，“差异化”会更快被抹平，而现在Anthropic和OpenAI的估值确是中国模型公司的40~50倍，这其实是非常危险的；

2.AGI在硅谷确实更像一种信仰，随着智能不断提升，如果AGI真的能实现，即：可以闭环可靠、具有高度一致性、可自我迭代的AI实现，这样先发者和后发者的差距就会大幅拉大，也许后发者再也追不上了；但目前的Transformer所使用的「语言归纳法」也许大概率实现不了AGI，那1.的问题就无法解决；

3.从用户需求层可以看到，AI智能水平持续提升，已经超过了普罗大众用户的需求（eg.大部分人用豆包是当百度用，或者生成表情包），超出的部分普通用户不会支付溢价，导致智能越强大，需求面越窄，面对的用户越来越「大B」，但因为中美模型厂商差异化无法长久拉开，中期就会陷入价格战；

4.基于上述1.2.3.可知，AI model的商业模式和新能源汽车很像，Anthropic/OpenAI就像十年前的特斯拉，面对中国整个新能源汽车产业的政策，早期产品有领先优势，到中后期就没有任何的赢面；而北美AI御三家，只有Google有稳定主业可以持续支撑CapEx投入；

5.2026年模型训练成本从「预训练」转移到「推理和后训练」，当一家公司只有模型没有业务场景（后训练的数据源）没有模型能力or只有业务场景没有模型能力（核心交付能力外包）的时候，想为用户提供更强的「推荐/生成/搜索/Agent…」服务就有难度，既有模型又有应用场景的公司会更有竞争力（eg.字节有抖音+seedance），尤其是主业就比较强劲的公司（eg.字节/腾讯/阿里/Google）；

三、【投资学】命运的Alpha与Beta

内容来源：《洪灝：宿命与抗争》，公众号：洪灝的宏观策略

Eric：人生和投资很像，要面对大趋势的变化（Beta），要承担个体选择的后果（Alpha）；我们不能试图去预测命运、预测结果，如果短期的超额收益让你误认为掌握了市场规律，则说明未来已有更大的“惩罚”在等着你；顺势而为、广结善缘、夯实能力圈，命运自有安排。

人工智能本质上是机器的强化学习，从事这一行的人产生这种直觉，并不奇怪。强化学习的核心，是在规则明确的环境中，通过试错闭环逼近最优策略。如果把宇宙看作一个极端复杂但闭环的环境，人不过是其中的一个智能体，那么“命运是否可预测”便从哲学问题转化为工程问题——能否预测，只取决于算力与信息量的限制。

微观上的不可预测性，是对量子力学实验事实的承认。单个量子的行为确实带有本质上的随机性，你无法确知一个电子下一刻会落向哪里，只能给出概率云上的分布。这一点，实验已反复验证，无可辩驳。

宏观上的可预测性——即命运是否多舛——才是我们更关心的部分。当微观的随机性被无数粒子叠加、平均、抵消之后，在宏观尺度上过滤掉噪音而涌现出来的规律，竟是确定的。大数定律如同一只巨手，将那些看似毫无章法的涨落一一抚平，最终呈现出一条平滑而难以逆转的轨迹。个体在其中的起伏，不过是沧海一粟。

这一观察映射到人的命运上，便有了别样的意味。人生中每一个微小的决策，每一次神经元放电的起伏，或许确实潜藏着量子层面的随机性。但当这些微小的涟漪汇聚成几十年的生命长河时，大数定律将噪声一一滤除，剩下的，是一条由初始条件——你的基因、家世、时代、性格结构——早已隐约成形的路径。

这番见解还隐含了另一层意蕴：它解释了为何“算命”在统计意义上或有几分道理，在具体事件上却往往差之千里。宏观层面的命运轨迹——你大致会从事什么领域，人生的节奏是急是缓——或许确有脉络可循，因为它由足够多的微观变量平均而成，大势所趋，悬念无多。但某一天你会遇见谁，某一场对话你会说出哪句话，在这些微观的缝隙里，骰子仍在转动。

这不是那种粗糙的“一切皆由天定”的宿命论，而是一种更接近统计物理的思辨框架：自由意志栖息于微观的每一步，命运浮现于宏观的整条路径。你可以选择今天晚餐吃什么，但你这一生大概会成为什么样的人，或许在出生那一刻，便已隐约可见，只待你一步步将它走完。

这番关于宿命与自由意志的思辨，如果只停留在个体命运的讨论上，终究有些隔靴搔痒。真正耐人寻味的，是将它引入我们最熟悉的领域——市场。

每一位市场参与者，骨子里都藏着一个拉普拉斯恶魔的幻梦。我们搭建模型，回测数据，寻找规律，本质上都在做同一件事：试图用有限的信息，去推演那个被初始条件锁定的“宏观轨迹”。如果上述推论成立——微观随机，宏观确定——那么市场的可预测与不可预测之间，便有了一个清晰的边界。

市场上的每一个交易决策，本质上都是微观层面的“掷骰子”。你买入，我卖出，他观望，这些行为的背后是无数个体的情绪、误判、贪婪与恐惧，其中还夹杂着量子层面的随机涨落。每一个交易者的每一次决策，都像神经元的一次放电，充满了不可预知的微观扰动。试图精准预测一天之后的指数点位，无异于试图预测一个电子下一刻的确切位置——这是对微观随机性的僭越。

市场预测者常犯的错误，便是将微观层面的噪声误认为宏观层面的信号。我们用短期波动去推演长期趋势，用个体行为去归纳群体规律，这就像试图用一杯水中的布朗运动去推断整片海洋的洋流方向。结果往往是刻舟求剑，模型拟合得越精致，偏离实际趋势反而越远。

然而，这并不意味着市场全然不可预测。

真正有意义的市场预测，从来不是去猜明天涨几个点，而是去感知那条由初始条件锁定的“宏观轨迹”。这就像我们无法预测一片雪花落地时的具体姿态，却能判断一场暴风雪的大致走向。短期波动如白驹过隙，长期趋势则如渊渟岳峙。

市场的宏观趋势，同样是由无数微观交易叠加平均之后涌现出来的确定规律。利率的长期走向、人口结构对资产配置的深层影响、技术革命对产业格局的重塑——这些宏大叙事背后的力量，如同大数定律那只巨手，终将短期的噪声一一抚平。真正的预测能力，不在于捕捉那些转瞬即逝的波动，而在于从纷繁的表象中辨识出那条渐次展开的轨迹。

这便解释了为何市场中存在一种奇特的现象：那些能够准确把握长期趋势的人，往往不屑于短期预测；而那些热衷于短线交易的人，则常常在大势面前目不见睫。两者既有关注尺度的不同，更有能力的差异。

市场预测与实际趋势之间的落差，本质上就是微观随机性与宏观确定性之间的张力。投资的智慧，在于在这两者之间持经达变——在微观层面保持敬畏，承认每一次具体预测的局限性；在宏观层面保持笃定，相信由初始条件铺就的那条路径终将显现。

这或许就是市场的辩证法：它既不是完全随机的赌场，也不是完全确定的机器。它更像中国传统文化中的“算命”——微观的每一步都蕴藏着自由意志的涟漪，宏观的整条路径却早已被周期的初始条件勾勒出轮廓。好的投资者，不是在微观的随机中蚍蜉撼树，而是在宏观的趋势中顺势而为。

四、【新技术】AI路书：人类智能发展史

书籍来源：《智能简史》，公众号：[美]麦克斯·班尼特

Eric：人工智能想要彻底模拟人类，只有语言模型是远远不够的；人类的感知能力还有“视觉、听觉、味觉、触觉”等等；参考人类智能的发展史，「语言」确实是非常核心的要素；对AI来说，下一步更重要的是「视觉」模型，你问Claude一个问题，它可以想5分钟再给出深度回复，可以接受；但一个Robot的行动，需要即时且连贯，只有语言模型，很难实现真正的具身智能。

多巴胺只是信号

多巴胺与奖励之间的联系导致多巴胺被错误地贴上了“快乐化学物质”的标签。密歇根大学的神经科学家肯特·贝里奇设计了一种实验范式，以探索多巴胺与快乐之间的关系。

与人类一样，大鼠在品尝它们喜欢的东西（如美味的糖丸）和不喜欢的东西（如苦味的液体）时，会做出不同的面部表情。婴儿在尝到温热的牛奶时会微笑，而在尝到苦水时会吐出来；大鼠在尝到美味的食物时会舔嘴唇，而在尝到糟糕的食物时会张开嘴巴并摇头。贝里奇意识到，他可以利用这些不同面部反应的频率作为衡量大鼠愉悦度的指标。

令许多人惊讶的是，贝里奇发现提高大鼠大脑中的多巴胺水平，对于它们面对食物时，产生的愉悦面部表情的程度和频率没有影响。虽然多巴胺会使大鼠消耗大量食物，但大鼠并没有表现出它们这样做是因为更喜欢食物。大鼠并没有表现出更频繁的愉悦舔唇行为。相反，尽管它们吃得更多，但对食物的厌恶表情却更多了。就好像大鼠尽管不再享受进食，却无法停止进食一样。

在另一项实验中，贝里奇破坏了几只大鼠的多巴胺神经元，几乎耗尽了它们大脑中的多巴胺。这些大鼠会坐在一大堆食物旁边，直至饿死。然而，这种多巴胺的耗竭对愉悦感没有影响。如果贝里奇把食物放进这些饥饿的大鼠嘴里，它们会做出面部表情，表现出饥饿时进食所带来的那种欣快感，它们的舔唇动作比平时更频繁。没有多巴胺，大鼠仍然能体验到愉悦感，只是它们似乎没有动力去追求这种愉悦感。

这一发现也在人类身上得到了证实。在20世纪60年代一系列有争议的实验中，精神病学家罗伯特·希思（RobertHeath）在人的大脑中植入电极，这样病人就可以按下一个按钮来刺激自己的多巴胺神经元。病人很快就开始反复按下这个按钮，通常每小时数百次。人们可能会认为这是因为他们“喜欢”这样做，但希思却说：

病人在解释为什么他如此频繁地按下隔膜按钮时表示，这种感觉就像他正在逐渐接近性高潮。然而，他说他无法实际达到高潮，他频繁（有时甚至是疯狂地）按下按钮是试图达到那个终点。

多巴胺本身并不是愉悦的信号，它是对即将获得愉悦的预期信号。希思的病人并没有体验到愉悦感，相反，他们经常因为无法满足按钮所带来的强烈渴望而感到极度沮丧。

贝里奇证明，多巴胺与喜欢的事物关系不大，而与渴望的事物关系更大。这一发现从多巴胺的进化起源来看是合乎情理的。对于线虫，它们接近食物时会释放多巴胺，但它们吃东西时并不会释放多巴胺。线虫中由多巴胺触发的利用行为状态（它们会放慢速度并在周围环境中寻找食物），在许多方面都是渴望的最原始形式。早在第一批两侧对称动物出现的时候，多巴胺就是好事将近的信号，而不是好事本身的信号。

贡献度分配问题

关联性学习存在另一个问题：动物从来不是靠单一提示获得食物的，而是结合了好几百条线索。如果你将拍打的侧面和电击配对，的大脑如何知道只将拍打与电击关联起来，而不将存在的许多其他感觉刺激关联起来，比如周围的温度、地面的质地或海水中的各种化学物质？

在机器学习中，这被称为“贡献度分配（creditassignment）问题”：当事情发生时，哪个之前出现的线索能对预测事情发生贡献最多？古代两侧对称动物只能进行最简单的学习，它的大脑采用了四种技巧来解决贡献度分配问题（见表4.1）。这些技巧既简单粗暴又巧妙，它们成为神经元如何在其所有两侧对称动物后代中进行关联的基本机制。

第一种技巧是“资格迹”（eligibilitytrace）。只有当拍打发生在电击前一秒时，才会将拍打与随后的电击关联起来。如果拍打发生在电击前两秒或更长时间，则不会产生关联。像轻拍这样的刺激会产生一个持续约一秒钟的短资格迹，只有在这个短的时间窗口内才能进行关联。这非常巧妙，因为它遵循了一条合理的经验法则：对预测事物有用的刺激应该发生在你试图预测的事物之前。

第二种技巧是“掩盖”（overshadowing）。当动物有多条预测线索可供使用时，它们的大脑倾向于选择最明确的线索。换句话说，明确的线索掩盖微弱的线索。如果在事件发生之前存在明亮的光线和微弱的气味，明亮的光线而非微弱的气味将被视作预测线索。

第三种技巧是“潜伏抑制”（latentinhibition）。动物过去经常经历的刺激会被阻止在未来建立关联。换司话说，频繁的刺激会被标记为不相关的背景噪声。潜伏抑制巧妙地问：“这次有什么不同？”如果之前已经感受了相同的地面质地和温度1000次，但以前从未经历过拍打，那么拍打更有可能被视为预测线索。

解决贡献度分配问题的第四种也是最后一种技巧是“阻断”（blocking）。一旦动物在预测线索和反应之间建立了关联，那么之后所有与预测线索重叠的其他线索都会被阻止与该反应相关联。如果一只知道拍打会导致电击，那么新的地面质地、温度或化学物质都将被阻止与电击建立关联。阻断是一种坚持采用一个预测线索、避免建立冗余关联的方法。

资格迹、掩盖、潜伏抑制和阻断这四种技巧在两侧对称动物中十分普遍：巴甫洛夫在流涎的狗的条件反射中观察到这些技巧，它们同时也存在于人类的非自主反射中，人们还可以在扁形虫、线虫、鱼、蜥蜴、鸟类、大鼠以及动物界大多数两侧对称生物的关联性学习中发现它们。这个贡献度分配问题的进化史可以追溯到最初进行关联性学习的大脑。

世界模型

当雷迪什和约翰逊记录大鼠的这些神经元时，他们发现了不同的情况：当大鼠在决策点停下来左右张望时，它的海马体不再编码大鼠的实际位置，而是快速地在构成从决策点开始的两条可能未来路径的位置编码之间来回切换。实际上，雷迪什可以看到大鼠在想象未来的路径。

这一发现的突破性意义不言而喻一神经科学家直接窥视了大鼠的大脑，并直接观察到大鼠在考虑不同的未来。托尔曼是对的，他观察到的左右张望行为确实是大鼠在规划未来的行动。

相比之下，第一批脊椎动物并没有提前规划它们的行动。这可以通过观察它们的冷血动物后代（现代鱼类和爬行动物）来验证，它们没有表现出通过替代性试错来学习的迹象。

让我们思考一下绕行任务。把一条鱼放进一个水箱里，水箱中间有一个透明的隔板。在隔板的一个角落开一个小洞，这样鱼就可以通过这个洞从一边游到另一边。让鱼探索水箱，找到这个小洞，然后花一些时间来回游动。几天后，再做个新实验：把鱼放在水箱的一边，把食物放在透明隔板的另一边。接下来会发生什么呢？

如果鱼想吃东西，聪明的做法应该是立即离开现在的位置，游到隔板的角落，穿过洞口，然后再转向去获取隔板那一侧的食物，但鱼不是这样做的。鱼会直接游向透明的隔板，试图获取食物。在多次撞上隔板之后，它会放弃并继续在其环境中徘徊。最终，当鱼在环境中徘徊时，它碰巧再次穿过了小洞，但即使在这里，它也没有表现出它明白现在可以获取食物了，因为鱼没有转向食物。相反，鱼只是继续游向水箱的另一边。只有当它碰巧转身看到食物时，它才会兴奋地冲向食物。事实上，无论是多次穿越隔板两侧的鱼，还是从未有过到达隔板另一侧经历的鱼，找到食物所需的时间都是一样的。

为什么会这样呢？虽然鱼之前游过洞口到达水箱的另一侧，但它从未意识到穿过洞口这条路会获得多巴胺。试错学习从未训练鱼的基底神经节，它也因此未能在看到透明隔板另一侧的食物时，选择穿过洞口获取食物。

这就是仅通过实践来学习的一个关键问题：虽然鱼已经学会了通过洞口的路径，但它之前从未通过这条路径获取过食物。所以，当它看到食物时，它能做的就是直接生成一个“接近”食物的信号。然而，大鼠要聪明得多。在这样的绕行任务中，它们的表现远远超过鱼类。大鼠和鱼最初都会跑到透明隔板处尝试获取食物，但大鼠更擅长找出绕过隔板的方法。一只已经很好地探索过地图，也就是知道如何穿过透明隔板到达另一侧（即使这样做从未得到过奖励）的大鼠，会比另一只从未绕过隔板的大鼠更快地到达另一侧。

这揭示了替代性试错的其中一个好处：一旦大鼠对其环境有了世界模型，它们就可以迅速地在脑海中进行探索，直到找到绕过隔板获取想要的东西的方法。

现代人工智能的短板：无法模拟世界

所有这些对未来和过去的模拟在机器学习中有一个更大的类比。我们在第二次突破中看到的强化学习类型一时序差分学习一是一种无模型强化学习形式。在这种强化学习中，人工智能系统通过直接建立刺激、行为和奖励之间的关联来学习。这些可能的未来行动。虽然这使得时序差分学习系统高效，但也使它们缺乏灵活性。

另一类强化学习被称为“基于模型的强化学习”。这类系统必须学习更复杂的东西：一个关于它们的行动如何影响世界的模型（见表12.2）。一旦构建了这样的模型，这些系统就会在做出选择之前模拟出可能的一系列行动。这些系统更加灵活，但在决策时却肩负着构建和探索内部世界模型的艰巨任务。

现代技术中采用的大多数强化学习模型都是无模型的。那些掌握了多种雅达利游戏玩法的著名算法以及许多自动驾驶汽车所采用的算法，都是无模型的。这些系统不会停下来考虑它们的选择，而是立即对它们接收到的感觉数据做出反应。

基于模型的强化学习之所以被证明难以实施，主要有两个原因。

第一个原因是，构建世界模型是困难的一世界是复杂的，而我们获取的有关世界的信息是嘈杂且不完整的。这就是杨立昆所说的缺失的世界模型，新皮质以某种方式呈现了它。没有世界模型，我们就无法模拟行动并预测其后果。

基于模型的强化学习难以实施的第二个原因是难以选择模拟的内容。在马文·明斯基的一篇论文中，他除了将时序贡献度分配问题视为人工智能的障碍，还指出了他所谓的“搜索问题”：在大多数现实世界中，不可能搜索所有可能的选择。

以国际象棋为例，构建一个国际象棋游戏的世界模型相对简单（规则是确定的，你知道所有的棋子、它们的移动方式以及棋盘上的所有方格）。但在国际象棋中，你无法搜索所有可能的未来走法，国际象棋中分支棋路的数量比宇宙中的原子数还多。因此，问题不仅在于构建外部世界的内部模型，还在于如何探索这个模型。

目标和习惯（或哺乳动物的内在双重性）

20世纪80年代初的一天，剑桥大学的心理学家托尼·迪金森（TonyDickinson）正在进行当时流行的心理学实验：训练动物推动杠杆以获得奖励。迪金森提出了一个看似普通的问题：如果你学会了一个行为，该行为的奖励价值降低了，那么会发生什么？如果你教会了一只大鼠通过推动杠杆从附近的一个装置中取食，这只大鼠便会迅速地在推动杠杆和吞食食物之间来回穿梭。假设有一天，在完全脱离杠杆装置的环境中，你给这只大鼠同样的食物颗粒，但偷偷在其中加人了一种使它感到恶心的化学物质。这将如何改变它的行为？

第一个结果，并不出人意料，大鼠在短暂的恶心感消失后，不再觉得这些颗粒像以前那样可口。当它面前有一堆这样的颗粒时，大鼠会吃得少很多。但更有趣的问题是，当大鼠再次看到杠杆时，会发生什么？如果动物只是简单地遵循桑代克的效果定律，那么它们会像以前一样迅速跑到杠杆旁并推动它一推杆已经被强化了很多次，而且推杆的行为还没有被削弱。但是，如果动物确实能够模拟推杆的后果，并意识到结果是它们不再喜欢的食物颗粒，那么它们就不会那么想推杆了。迪金森发现，经过这个程序后，那些将食物颗粒与恶心感觉关联在一起的大鼠推动杠杆的次数几乎减少了50%，而那些没有建立这种关联的大鼠则没有减少推杆次数。

这些观察支持了一个观点：新皮质使得即使像大鼠这样简单的哺乳动物也能间接地模拟未来的选择，并根据想象的结果改变它们的行为。但随着迪金森继续这些实验，他注意到了一些奇怪的事情：有些大鼠将食物颗粒与恶心感觉关联起来之后，仍然以同样的甚至更大的力度去推杆。有些大鼠变得（用他的话说）“对贬值不敏感”。他发现，这种差异仅仅源自大鼠推杆以获取奖励的次数。那些只做了100次任务的大鼠会做出明智的选择——一旦食物贬值，它们就不再想推杆了。但是那些做了500次任务的大鼠，即使食物贬值了，也会跑到杠杆旁疯狂地推动它。在所有这些测试中，食物颗粒未再被提供过，但那些对贬值不敏感的大鼠即使没有奖励，也会一直不停地推杆。

迪金森发现了习惯的力量。大鼠通过500次的行为练习，形成了一种自动的运动反应。这种反应由感官提示触发，并且完全脱离了行为的高级目标。大脑基底神经节接管了行为，而大脑无颗粒状前额叶皮质没有停下来考虑这些行为会产生什么样的后果。由于这种行为被重复了太多次，无颗粒状前额叶皮质和基底神经节都没有检测到任何不确定性，因此动物不会停下来考虑后果。

这或许是大家都有过的经历。人们醒来后，会不假思索地看手机。如果有人问他们是否想继续浏览，他们会回答“不”，但他们还是会不停地刷着Instagram。当然，并非所有习惯都是不好的：走路时你不需要思考，但你却走得稳稳当当；打字时你不需要思考，但你的思绪却能流畅地从大脑传递到指尖；说话时你不需要思考，但你的想法却能神奇地转化成一系列舌头、嘴巴和喉咙的动作。

习惯是由刺激直接触发的自动化动作（它们是无模型的）。它们是由基底神经节直接控制的行为。习惯是哺乳动物大脑节省时间和能量的方式，避免了不必要的模拟和规划。当这种自动化发生在适当的时候，它能使我们轻松地完成复杂的行为；而当它发生在不适当的时候，我们会做出错误的选择。

基于模型的决策方法和无模型决策方法之间的二元性在不同领域以不同形式表现出来。人工智能领域使用的是“基于模型”为和习惯行为；在行为经济学中，正如丹尼尔·卡尼曼在其著作《思考，快与慢》中所描述的，这种二元性被定义为“系统2”（慢思考）与“系统1”（快思考）。

在所有这些情况下，二元性都是一样的。人类以及所有哺乳动物（还包括一些独立进化出模拟能力的其他动物），有时会停下来模拟他们的选择（基于模型、目标驱动、系统2），有时则会自动行动（无模型、习惯、系统1）。两种方式没有优劣之分，每种方式都有其利。大脑试图根据不同情况选择不同的方式，但它并不总能做出正确的决定，这就是我们许多非理性行为的根源。

动物心理学中使用的术语颇具启示性一一种行为是目标导向的，而另一种则不是。事实上，目标本身可能直到早期哺乳动物时期才进化出来。

注意力、工作记忆和自我控制

在经典神经科学教科书中，额叶新皮质被赋予的四个功能是注意力、工作记忆、执行控制和我们前面已经提过的规划。这些功能之间的关联性一直令人困惑：一个结构竟会承担这些不同的功能。但从进化的角度来看，这些功能都是密切相关的一它们都是控制新皮质模拟的不同应用。

还记得那张既可以看作鸭子也可以看作兔子的模糊图片吗？当你在感知鸭子和兔子之间摇摆不定时，正是你的无颗粒状前额叶皮质推动你的视觉皮质在两个解释之间来回切换。当你闭上眼睛时，你的无颗粒状前额叶皮质可以触发鸭子的内部模拟；而当你睁开眼睛看着这张图片时，你的无颗粒状前额叶皮质也可以使用相同的机制来触发鸭子的内部模拟。

在这两种情况下，无颗粒状前额叶皮质都在试图调用一个模拟机制。唯一的区别是，当你闭上眼睛时，模拟是不受限制的，而当你睁开眼睛时，模拟则受到你所看到的事物的限制，必须与之保持一致。无颗粒状前额叶皮质触发模拟的过程，在没有当前感觉输人的限制时被称为“想象”，而在受到当前感觉输人的限制时被称为“注意力”。但在两种情况下，无颗粒状前额叶皮质原则上都在做同样的事情。

注意力有什么用呢？当一只老鼠经过想象的模拟后选择了一系列动作，它在执行这一系列动作时必须坚持自已的计划。这知易行难。想象模拟不可能完美无缺，老鼠不可能预测到它将实际体验到的每个景象、气味和环境轮廓。这意味着基底神经节所经历的替代性学习与计划展开时的实际体验会有所不同。因此，基底神经节可能无法正确完成预期的行为。

无颗粒状前额叶皮质解决这一问题的方法之一就是利用注意力。假设一只老鼠的基底神经节通过试错学会了避开鸭子而跑向兔子，在这种情况下，基底神经节看到鸭子或兔子时的反应将是相反的，这取决于从新皮质发送给它的是哪种模式。如果大脑无颗粒状前额叶皮质先前曾想象过看到兔子并跑向它，那么它就可以利用注意力来控制基底神经节的选择，以确保当老鼠看到这张模糊的图片时，它看到的是兔子，而不是鸭子。

控制正在进行的行为通常还需要工作记忆一一在没有任何感觉线索的情况下维持表征。许多想象的路径和任务都涉及等待。例如，当啮齿动物在树木间寻找坚果时，它必须记住哪些树已经被搜寻过。这是一项需要大脑无颗粒状前额叶皮质参与的任务。如果在这些延迟期间抑制啮齿动物的无颗粒状前额叶皮质，它们就会失去从记忆中执行此类任务的能力。在执行此类任务时，无颗粒状前额叶皮质会表现出“延迟活动”，即纵使在没有任何外部线索的情况下也会保持激活状态。这些任务之所以需要无颗粒状前额叶皮质的参与，是因为工作记忆的作用方式与注意力和规划相同一都是调用内部模拟。工作记忆，即将某些内容记在脑中，就是大脑无颗粒状前额叶皮质试图不断重新调用内部模拟，直到你不再需要它为止。

除了规划、注意力和工作记忆，无颗粒状前额叶皮质还可以更直接地控制正在进行的行为：它可以抑制杏仁核。

从无颗粒状前额叶皮质到围绕杏仁核的抑制性神经元有一个投射，在实施想象的计划时，无颗粒状前额叶皮质会尝试阻正否仁核触发其自身的趋避反应。这就是心理学家所说的行为抑制、意志力和自我控制的进化起源：我们时刻的渴望（由杏仁核和基底神经节控制）与我们知道更好的选择（由无颗粒状前额叶皮质控制）之间的持续紧张关系。

在意志力发挥作用时，你可以抑制由杏仁核驱动的渴望。在意志力薄弱时，杏仁核就会占据上风。这就是为什么人们在疲惫或压力大时会变得冲动，因为运行无颗粒状前额叶皮质需要消耗大量能量，当你感到疲惫或充满压力时，无颗粒状前额叶皮质抑制杏仁核的效果就会大打折扣。

总的来说，规划、注意力和工作记忆都是由无颗粒状前额叶皮质控制的，因为从原则上讲，这三者都是一回事。它们都是大脑试图选择呈现哪种模拟的不同表现形式。无颗粒状前额叶皮质是如何“控制”行为的呢？这里提出的观点是，它并不直接控制行为本身，而是试图通过向基底神经节替代性地展示更好的选择，并过滤传送给基底神经节的信息，从而说服基底神经节做出正确的选择。无颗粒状前额叶皮质通过展示而非命令，来控制行为。

明智”的选择进行表现上的比较时，无颗粒状前额叶皮质这种作用的优势就可以体现出来。如果你把一只蜥蜴放在一个迷宫中，试图训练它朝红灯走以获得诱人的食物，同时避开提供没有吸引力的食物的绿灯，蜥蜴需要数百次试验才能学会这个简单的任务。蜥蜴对绿灯的本能偏好需要很长时间才能消除。由于没有新皮质来暂停并考虑替代性的选择，蜥蜴学习这项任务的唯一方法就是进行无数次试错。相比之下，老鼠能更快地抑制它的本能反应，但如果你损伤了老鼠的无颗粒状前额叶皮质，这种优势就会消失。

早期哺乳动物有能力间接探索它们对世界的内部模型，根据想象的结果做出选择，并在做出选择后坚持执行这个想象中的计划。它们可以灵活地决定何时模拟未来，何时运用习惯，并且能够聪明地选择模拟什么，从而解决搜索问题。它们是我们人类最早拥有目标的祖先。

第三次突破总结：模拟

早期哺乳动物新出现的主要脑结构是新皮质。新皮质的出现带来了模拟的能力一—这是我们进化故事中的第三次突破。这一能力的产生及其运用方式，总结如下：

·感觉新皮质进化了，它创建了一个外部世界的模拟（一个世界模型）

·无颗粒状前额叶皮质进化了，它是额叶新皮质的第一个区域。无颗粒状前额叶皮质创建了一个动物自身运动和内部状态的模拟（一个自我模型），并构建了“意图”来解释自己的行为。

·无颗粒状前额叶皮质和感觉新皮质协同工作，使早期哺乳动物能够暂停并模拟世界上目前未曾体验的方面一—换句话说，基于模型的强化学习。

·无颗粒状前额叶皮质通过智能地选择要模拟的路径并确定何时进行模拟，以某种方式解决了搜索问题。

·这些模拟使早期的哺乳动物能够进行替代性试错一—通过模拟未来的行动，并根据想象的结果来决定采取哪条路径。

·这些模拟使早期哺乳动物能够进行反事实学习，从而为贡献度分配问题提供了更高级的解决方案，使哺乳动物能够根据因果关系分配贡献度。

·这些模拟确实使早期哺乳动物能够进行情景记忆，即能够回忆过去的事件和行动，并利用这些回忆来调整自已的行为。

·在后来的哺乳动物中，运动皮质进化了，使哺乳动物能够规划和模拟特定的身体运动。

我们1亿年前的哺乳动物祖先将想象力作为生存武器。它们通过替代性试错、反事实学习和情景记忆来智胜恐龙。我们的哺乳动物祖先就像现代的猫一样，能够看着一组树枝，并规划好要把爪子放在哪里。这些古老的哺乳动物表现出了比他们的脊椎动物祖先更灵活的行为、更快的学习速度和更巧妙的运动技能。

当时的大多数脊椎动物，如同现代的蜥蜴和鱼类一样，仍然可以快速移动、记住模式、追踪时间的流逝，并通过无模型的强化学习进行智能学习，但它们的动作并没有经过规划。

因此，思考本身并非诞生于普罗米修斯神圣作坊里的泥塑生物中，而是诞生在侏罗纪地球的小型地下通道和盘根错节的树木之中，它源自长达上亿年的恐龙捕食和我们的祖先为避免灭绝而拼命挣扎的磨炼。这就是我们的新皮质和我们对世界的内部模拟如何产生的真实故事。正如我们很快就会看到的那样，下一次突破正是源自这种来之不易的超能力。

在某种程度上，接下来的这次突破是现代人工智能系统中最难以通过逆向工程了解的。事实上，这一重大突破通常并不与“智能”联系在一起，但实际上却是我们大脑了不起的成就之一。

Context is power

语言扩大了大脑可以从中提取学习内容的来源范围。强化能力的突破使早期脊椎动物能够从它们自已的实际行为中学习（试错）。模拟能力的突破使早期哺乳动物能够从它们自已想象的行为中学习（替代性试错）。心智化能力的突破使早期灵长类动物能够从其他人的实际行为中学习（模仿学习）。

但语言能力的突破使早期人类能够从他人的想象行为中学习。

互惠互利

互惠利他在群体中成功传播的关键特征是能够发现和惩罚背叛者。如果没有这一点，利他行为最终会助长不劳而获的风气。这种情况最常见的表达是那句俗语：“骗我一次，是你的耻辱；骗我两次，是我的耻辱。”这些动物的默认状态是向他人伸出援手，但当他人不给予回报时，它们就会停止利他行为。红翅黑鹂会保护附近没有亲属关系的邻居的巢穴，这是一种高度利他的行为，因为保护巢穴是有风险的，但它们这样做似乎是期待得到回报。事实上，当这种帮助没有得到回报时，黑鹏会选择性地停止帮助那些没有帮助过它们的个体。

然而，现代人类的许多行为并不能完全归人亲属选择或互惠利他。确实，人类明显偏向自己的亲属。

但是，人们仍然会经常帮助陌生人，并不期待任何回报。我们会向慈善机构捐款；我们愿意为国家上战场，为大多数素未谋面的同胞冒生命危险；我们参与那些并不直接惠及我们，却能帮助我们认为处于不利地位的陌生人的社会运动。想象一下，如果一个人在街上看到一个迷路且害怕的孩子却什么也不做，那会是多么奇怪的事情。大多数人会停下来帮助这个孩子，而且并不期待任何回报。与其他动物相比，人类对没有亲属关系的陌生人的利他程度要远远高出许多。

当然，人类也是最残酷的物种之一。只有人类会做出难以置信的个人牺牲，只为给他人造成痛苦和折磨；只有人类会犯下种族灭绝的罪行；也只有人类会仇恨整个群体的人。

五、【人物志】哈萨比斯，Language Is Enough？

书籍来源：《哈萨比斯：谷歌AI之脑》，公众号：塞巴斯蒂安·马拉比

Eric：Hassabis是AI领域的传奇人物，他所带领的DeepMind开发了震惊世界的AlphaGo，战胜李世石、柯洁；在OpenAI问世前，Google依靠DeepMind在人工智能领域保持绝对的主导地位；作为一名欧洲天才，哈萨比斯身上有硅谷所缺乏的“纯粹科学追求”，也因此导致了Gemini起步的落后。

作为一名科学家、诺贝尔奖获得者，他和Sam Altman的差异就像是两个物种；Google作为北美AI御三家中唯一主业夯实且有TPU作为支撑的财阀集团，在烧钱如流水的AI竞赛里，Gemini很可能后发制胜，而Hassabis将是其中最核心的变量。

目的、念力和品位

人工智能在本质上是康德“理论理性”的科技化产物。它代表了阳面力量的绝对扩张——通过海量参数、算法规整与算力堆叠，它构建了一套近乎完美的逻辑闭环。但这种力量的崛起，也许是以牺牲非理性的“阴面”为代价的。它能精准地计算星辰的轨迹，却无法理解“牺牲”背后的道德律；它能模拟出最高效的社会运行参数，却对“自由”这一支撑文明进步的必要假设缺失感悟。

想想这三样东西，目的、念力和品位，其实三者也是有着很强的关联的——目的带来念力，念力托举目的，品位既是目的之果，也促使念力更专注。

如果从教育的角度来看这些细节，有两条非常重要的启示，其中之一就是使命、念力和品位常常是在高密度挑战性的心智活动（并不一定是或者说常常不是正规课程）中积淀、涌现的，心智活动的密度很重要，得提供足够有强度又有频度的刺激，才足以让脑神经元产生重构（rewire）。

在成长期，输入的数据（接收到的知识，尤其是隐性知识，比如与导师或高手的交流、过招或对其观摩）的质量非常重要，尤其是对使命的境界提升和品位的熏陶养成具有关键性的高下立判式的作用。念力要靠切磋砥砺，行动后的反馈，反馈中的省察，省察后的再试，进步带来的正反馈对于念力的增长促进很大。

理解这个世界，就是对它进行“逆向工程”。

哈萨比斯认为研究AGI有三个同等重要的“范式”：排在第一的是强化学习，是实现AGI的路径；第二个重要范式则是从神经科学中产生的想法；语言模型排在第三，并且属于构建从数据中学习的神经网络。哈萨比斯一直认为，仅靠语言不足以实现AGI，要始终保持研究广度的开放性。

但ChatGPT正是大语言模型突破的结果。发明了Transformer的谷歌大脑团队，还有DeepMind，是到了GPT-3之后才开始重视大语言模型。

遵循费曼的格言，科学家若要理解人类智能，就必须构建出一个人工模型：一台能模仿人类思维的机器。AI的实际应用或商业价值只是次要考量。这位站在台上的年轻人真正想要的，是“更深入地理解我们自己的心智”。

Deepmind的三要素

关于DeepMind平台需要具备的要素，哈萨比斯有三个想法。

第一个是信念。没有人能说清楚AGI将如何被打造出来，但哈萨比斯坚持认为这是可以实现的，人类大脑的存在就证明了通用智能的可能性。此外，哈萨比斯明白，他的信念感必须渗透到他的研究团队中，否则士气就会低落，最终没有人能取得任何成就。在DeepMind创建早期，杨立昆等知名人士嘲笑AGI的雄心是痴心妄想的时候，公司里的每个人都需要相信AGI是可能的。

“我们只想要真正的信徒。”莱格回忆道，“我们会去参加会议，告诉人们，我们正在创办一家AGI公司，我们正试图打造具有通用智能的真正的AI系统。80%的人会对我们翻白眼，我是说，真的翻白眼然后转身走开。我们认为这是一种非常有效的方式，让我们发现应该和谁交谈。”37

DeepMind需要的第二个要素是时间。风险投资者的耐心是有限的，科学的前景却难以预测。考虑到这一点，哈萨比斯计划通过副业项目获得收入，以延长DeepMind的研究周期。2011年，他指派一个小团队开发了一款商业电子游戏。2012年初，他重新启动了他以前关于推荐算法的想法。那时，深度学习系统已经能够识别图像，苏莱曼便牵头招募了一个团队，将这项技术应用于时尚零售业。购物者可以输入一件连衣裙的图像，然后获得具有相似形状、图案、颜色和风格的连衣裙的推荐产品。这是一种无须用语言描述，仅凭视觉创意就能搜索的新方式。

DeepMind需要的第三个要素是一种能让科学家发挥最佳水平的文化。哈萨比斯习惯通过各种方式收集想法，如观看电影、阅览书籍，或与大学酒吧里偶然认识的人交谈，他本能地知道如何发现每个团队成员的特殊才能。“他就是能看到每个人的闪光点，他会以合适的方式与每个人交谈，并立即发现每个人的优点。”维尔斯特拉惊叹道。

为了将这种博采众长的能力融入他的初创公司，哈萨比斯招募了一批项目经理，他们有时被称为“黏合剂式人物”，职责是滋养人才，弥补团队内社交方面的不足。才华横溢的研究人员可能无法进行行政协调工作，不善于口头沟通，甚至不敢与同事对视。而DeepMind将成为一个让这些缺点无关紧要的地方。

“你看，我们这里有一些人社交技能非常笨拙，他们会把自己关在洗手间里好几个小时，”维尔斯特拉解释道，“但他们从浴室里出来后，就会带来一个绝妙的想法。如果你能找到这些人，温柔地对待他们，悉心地呵护他们，你就能得到其他公司得不到的伟大成果。”

我说，这些研究人员几乎都是男性，而那些扮演“呵护者”角色的项目经理通常是女性，这种性别互动模式让维尔斯特拉的一些同事感到不安。

马斯克：你想让我投多少？

到2013年2月中旬，与Founders Fund的交易框架似乎初见雏形。哈萨比斯筹集6500万美元的愿望被否决了，但诺塞克告诉他，只要DeepMind能从其他地方筹集到1000万美元，蒂尔和他的合作伙伴就会支持3000万美元的融资。

这看起来是一个可以实现的目标。哈萨比斯和苏莱曼指望从周凯旋（Solina Chau）那里获得一些资金，周凯旋负责管理亚洲富豪李嘉诚的财富。2012年初，周凯旋邀请DeepMind的两位创始人在肖尔迪奇屋（Shoreditch House）的一个私人房间里见面。肖尔迪奇屋是伦敦东部一家时尚俱乐部，屋顶上有一个游泳池——考虑到英国的天气，这只是一个华而不实的炫耀性消费场所。两位访客一走进房间，就与周凯旋建立了良好的关系。

“我们开始交谈，5分钟内，她就能接话，明白我们想说什么。”苏莱曼回忆道。更重要的是，周凯旋也是一位非典型的投资者：她每年有权进行一次预期回报为零的投资。李嘉诚拥有250亿美元的财富，每年在慈善事业上投入数亿美元。他偶尔也愿意让周凯旋支持一些鼓舞人心但商业上不可行的初创公司，这算是另一种形式的慈善。

“我当时想，这是一个我愿意支持的项目，这是一位我想进一步了解的创始人。”周凯旋后来表示。经过15分钟的交谈，她宣布自己想投资DeepMind。

当时，B轮融资已经结束，C轮融资还需要一段时间。但哈萨比斯和苏莱曼提出向周凯旋出售250万美元的股份。考虑到认识她才短短15分钟，250万美元似乎是他们能向她要求的最大数额。

周凯旋很快要求增加投资额度。哈萨比斯和苏莱曼有些动心，但又不想显得太容易妥协，于是表示会考虑一下。一年后，也就是2013年，他们明确了自己的想法：非常欢迎周凯旋尽可能多地投资。

哈萨比斯还期待着埃隆·马斯克的资金，马斯克在前一年夏天就承诺会投资。两人已经达成协议，马斯克将参与C轮融资。2013年3月1日，哈萨比斯联系马斯克，希望敲定细节。

马斯克让哈萨比斯稍后再联系他。当天有一枚SpaceX的火箭要发射，在确定发射成功之前，他无法通话。“我记得我几乎在祈祷发射成功，”哈萨比斯回忆道，“我非常担心如果发射失败，他就不会投资了——也许他会认为自己没有多余的资金了。”

“我知道马斯克是在用自己的钱资助SpaceX，”哈萨比斯继续说道，“如果火箭爆炸了，他的心情会很糟糕。”

接下来的几小时里，哈萨比斯不断刷新一家互联网新闻网站，祈求发射圆满成功。如果马斯克退出C轮交易，哈萨比斯可能很难凑齐1000万美元，而这1000万美元是获得Founders Fund支持的关键。最终，大约在凌晨1点钟，哈萨比斯看到新闻称火箭发射成功。他在伦敦北部的家中给马斯克打了电话。

马斯克的心情非常好。“你想让我投资多少？”他兴高采烈地问道。哈萨比斯有些不知所措，他没有预料到会被如此直接地询问。

“我不想占据所有的投资配额。”马斯克慷慨地补充道。他似乎认为，把那些所谓争先恐后想要投资DeepMind的大批投资者挤出去是不礼貌的。

哈萨比斯仍然不确定该说什么，他报出了自己认为能要求的最大数额。“500万美元。”他提议道。这是他一年前向周凯旋提议的2倍。马斯克立即同意了。

“我当时应该直接告诉他5000万美元，”哈萨比斯后来表示，“我可能还是太‘英式客气’了。”

奥尔特曼，撒谎精？

欧文（前OpenAI员工）和他那些关注安全的同事所处的领域不同，他们正在孕育一台无限机器，而不是在赚钱。当奥尔特曼向他们保证坚守安全原则，却对其他人说相反的话时，他们感到愤怒。

后来，欧文公开表示，奥尔特曼“在各种场合对我撒谎”，并且“对其他人具有欺骗性、操纵性，甚至做了更糟的事”。

在欧文看来，一个不诚实的管理者不值得被托付人类文明的命运。

说服哈萨比斯做大语言模型

为了强调自己的观点，欧文提到了他在OpenAI写的一篇论文，题为《语言就足够了》（Language Is Enough），其论点与哈萨比斯的立场相反。哈萨比斯认为，缺乏现实世界的“接地”限制了语言的价值；欧文则认为，语言凝聚了人类的知识，而人类本身就是接地的，因此接地问题被夸大了。

OpenAI的模型已经表现出对物理世界的初步理解，即便它们没有实际体验过。此外，语言是思想、记忆和社会互动的关键。换句话说，语言是定义人类智能诸多核心特质的关键。海伦·凯勒回忆起自己7岁习得语言之前的生活时写道：“在我的老师来到我身边之前，我不知道自己的存在。我生活在一个虚无的世界里……我既没有意志，也没有智力……我就像一块无意识的泥土。”7同样地，欧文认为，语言可能是解锁智能的关键。

哈萨比斯邀请欧文到他的办公室讨论他的观点。这个办公室的墙上贴满了科学期刊的封面。哈萨比斯想知道，一个没有接地的模型能否为真正重要的事情，比如理论物理的进步做出贡献。

欧文给出了回答：20世纪最伟大的发现当属爱因斯坦的广义相对论。而爱因斯坦所做的只是阅读资料、做简单笔记、进行思想实验，这些都没有所谓的“接地”。此外，如果语言模型能够完成大多数认知任务，它们就有可能为在物理世界中行动的机器人提供动力，因此语言可能是AI实现真正接地的途径。

任何以爱因斯坦为类比进行论证的人，都可能吸引哈萨比斯。尽管哈萨比斯仍然怀疑仅靠语言便能实现AGI这一观点，但他同意投入资源开展类似GPT的研究。

万物摩尔定律

2021年3月，就在DeepMind完善GopherChat之际，奥尔特曼发表了一篇关于AI现状的文章，阐述了其风险和潜力。即将到来的AI革命将“创造足够的财富，让每个人都能拥有自己需要的东西，前提是我们的社会能负责任地管理它”。

他开篇写道，呼应了哈萨比斯关于资源极大丰富的想法。然后奥尔特曼更进一步，以一种必然吸引科技界目光的方式描绘未来。他指出，计算机性能成本的下降拉低了电视和游戏机的价格，但医疗保健和大学教育等服务的价格飙升，奥尔特曼期待AI时代到来后，所有价格都会下降，公民的购买力有所提高。

就像设备价格每两年减半一样，住房、食品和教育的价格也会如此。奥尔特曼的文章标题是《万物摩尔定律》（Moore's Law for Everything）。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技