扫码打开虎嗅APP
本文来自微信公众号: 范阳 ,作者:范阳,编辑:范阳,原文标题:《唯一重要的技术是互联网( 和它的行星级多样性 )》
越来越相信,互联网从被发明开始,其实从来没有被真正地分成过所谓Web1、Web2或Web3的不同版本号(谢谢之前Zakk的启发)。一直只有一个互联网,一张网,只是它在不断生长、形变、进化,它会越来越像一个可以新陈代谢能量和信息的“生命之网”(a living web)。
互联网之所以重要,并不只是因为它连接了人,而是因为它持续地承载、暴露、修正并扩展人类的文明本身。未来出现在互联网上的,将不只是文本和图像,而是更复杂的人类经验、心灵感受、行动轨迹、环境信号,以及对自然世界动态现实的长期记录。互联网还会越来越“去中心化”和“去人类中心主义”(虽然在短期在收缩和固化),它映射的不只是人类社会结构,也会包括生态、能量、物质与时间的结构,它会映射出比“人工智能”更大的“自然智能”。
同时,我也越来越相信,培育“模型”的人本身,对知识、“现实”与人/人文的品味,才是真正的差异。模型并不是中性的,它们继承的是我们选择看见什么、关怀什么、忽略什么,以及我们愿意如何理解世界,和如何定义“我们”。这种品味,决定了模型会走向压缩、收敛和控制,还是走向探索、多样与生态性。
所以从技术结构和哲学价值观上,我不相信智能的终点是单一的“超级大脑或超级个体”。正如生物多样性不是自然的副产品,而是其生存前提,智能的多样性同样重要。不同的人,应该能够接触、帮助塑造,甚至自己创造不同的模型,不同的智能形式(无论是人的,其他生物的,还是机器的),应该并存、变异、分化、相互启发,而不是被压缩成唯一的最优解。如果你相信世界和智慧都是展开的,你会相信多样性和行星级的连接。
这篇文章来自人工智能研究者Kevin Lu的个人博客,他在Meta和高频交易公司工作过,后来加入了OpenAI,在今年又随着Mira Murati加入了人工智能实验室思维机器(Thinking Machines Lab)。
他在文章结尾提出的问题非常重要,当前的人工智能还把自己限制在“预测下一个词的范式”和“上一代互联网的环境”中:
“总之,我认为我们距离发现强化学习在系统中真正优雅且高效的对偶形式(dual)—如同互联网之于下一个token预测那般,仍然遥远。如今我们的强化学习智能体究竟被隐藏了哪些关键信息?但我希望你能怀抱这样的梦想:终有一天,我们将找到方法构建这样的系统,而这将成为真正的突破。”
我猜测这会是一种穿越虚实、人和机器共同探索未知知识的“生态环境”,看起来像是一种游戏(play),并且它要调动起来更多人/生命贡献自己的智慧,体验和经历,并获得福祉和权益(equity),this is the way。
延伸阅读:宝可梦游戏:下一代AI的训练场|Kevin Lu,Thinking Machines
希望今天的文章对你有启发。
唯一重要的技术是互联网
The Only Important Technology Is The Internet
如何能够继续扩展大型语言模型的规模?
How can we continue to scale large language models?
尽管人工智能的进步常归功于里程碑式的论文—如Transformer、RNN或扩散模型—但这忽略了人工智能的根本瓶颈:数据。然而,拥有优质数据究竟意味着什么?
若我们真正希望推动人工智能发展,与其研究深度学习优化,不如研究互联网。互联网才是真正解锁人工智能模型规模化能力的技术(The internet is the technology that actually unlocked the scaling for our AI models)。
Transformer模型是一种干扰项
受架构创新快速进展(5年间从AlexNet演进至Transformer)的启发,许多研究者开始寻求更优的架构先验。人们不断押注能否设计出比Transformer更出色的架构。事实上,自Transformer问世以来,确实已有更优架构诞生—但为何自GPT-4之后,我们很难“感受”到实质性的提升?
范式的转变
Shifting regimes
算力受限时期(Compute-bound):曾几何时,方法效能随算力增长而提升,更高效的算法往往意味着更好。彼时的核心在于尽可能高效地将数据压缩进模型(What mattered was packing our data into the models as efficiently as possible),这类方法不仅取得了更优结果,其表现似乎还能随着规模扩大持续提升。

数据受限时期(Data-bound):事实上,研究并非无用武之地。自Transformer问世以来,学界已提出更优方法—如SSMs(Albert Gu等人,2021年)和Mamba(Albert Gu等人,2023年)等—但我们并不完全将其视为"免费增益":在给定训练算力的条件下,训练Transformer往往仍能获得更好表现。
但数据瓶颈时代带来了解放:既然所有方法最终表现趋于一致,我们应选择推理阶段最优的方案(best for inference)—很可能是某些次二次复杂度注意力变体(some subquadratic attention variant)。这些方法或许很快会重回舞台中央(参见《为推理时间付费》(Spending Inference Time))。
注:Spending Inference Time
https://kevinlu.ai/spending-inference-time
研究者应该在做什么?
What should researchers be doing?
现在想象一下:我们不再“仅仅”关心推理(inference)(那是“产品”问题),而是关心渐近性能(asymptotic performance)(“AGI”)。
显然,继续优化架构已非正解。
纠结如何截断Q函数轨迹更是方向错误。
人工构建新数据集无法规模化。
你提出的新时序高斯探索方法很可能同样难以扩展。
研究社区中的很大一部分人已经收敛到一个原则:我们应该研究新的数据消费方式(converged on the principle that we should be studying new methods for consuming data)。目前有两个主流范式:
(1)下一词预测(next-token prediction)
(2)强化学习(reinforcement learning)
(显然,我们在新的范式上并没有取得太大的进展🙂)
AI所做的一切,都是在消费数据
All AI does is consume data
这些里程碑式的工作,提供了新的数据消费路径:
AlexNet(亚历克斯·克里热夫斯基等人,2012年)通过下一词预测消费ImageNet数据
GPT-2(亚历克·拉德福德等人,2019年)通过下一词预测消费互联网文本
“原生多模态”模型(Natively multimodal”models)(GPT-4o、Gemini 1.5)通过下一词预测消费互联网图像与音频
ChatGPT通过强化学习消费对话场景中的随机人类偏好反馈
Deepseek R1通过强化学习消费狭窄领域内的确定性可验证反馈
就下一词预测而言,互联网是终极解决方案:它为这类序列化方法提供了海量时序关联数据以供学习(it provides an abundant source of sequentially correlated data for a sequence-based method(next-token prediction)to learn from)。

互联网充满以结构化HTML形式存在的序列数据,天然适配下一词预测。根据不同的序列编排方式,可以恢复出多种有用的能力。
这并非巧合:这种序列数据是下一词预测的完美养料;互联网与下一词预测技术本就相辅相成(this sequence data is perfect for next-token prediction;the internet and next-token prediction go hand-in-hand)。
行星级数据规模
Planetary-scale data
亚历克·拉德福德(Alec Radford)在2020年发表过一次颇具预见性的演讲,他指出:尽管当时涌现了各种新方法,但与精心整理更多数据相比,这些方法都显得无足轻重。我们不再寄希望于通过"魔法般"的优化方法实现泛化(比如幻想损失函数能自动构建语法解析树),转而信奉一个简单原则:如果模型从未接触过某些信息,它自然无法知晓这些知识(if the model wasn’t told something,of course it doesn’t know it)。
与其通过构建庞大的监督数据集,去手工指定模型应该预测什么……
不如去思考:如何从世界上一切“已经存在的东西”中学习,并对它们进行预测(Instead of manually specifying what to predict through the creation of large supervised datasets…Figure out how to learn from and predict everything“out there”)。
你可以这样理解:每当我们构建一个数据集,其实就是把世界上其他一切事物的重要性设为0,而把数据集中包含的一切事物的重要性设为1。
可怜的模型啊!它们知道的如此之少,却仍然有如此之多的世界知识,被隐藏在它们之外。
在GPT-2之后,世界开始注意到OpenAI,而时间也证明了它的影响力。
如果我们有Transformer,但没有互联网会怎样?
What if we had transformers but no internet?
低数据(Low-data):一个显而易见的反事实是:在低数据环境下,Transformer根本毫无价值,我们认为它们的“架构先验”不如卷积网络(Convolutional Networks)或循环网络(Recurrent Networks)。因此,在这种情况下,Transformer的表现应该比卷积网络还差。
书籍(Books):一个不那么极端的情况是:如果没有互联网,我们可能会用书籍或教材进行预训练。在所有的人类数据中,通常我们会认为教材代表了人类智慧的巅峰,其作者经过了长期教育,每一个字都倾注了深思熟虑。这本质上体现了"高质量数据应优于海量数据"的理念。
教科书(Textbooks):phi模型(《Textbooks Are All You Need》,Suriya Gunasekar等,2023)在这里展示了小模型中非常出色的性能,但仍然需要GPT-4(在互联网数据上预训练)来进行数据过滤并生成合成数据。和学术界类似,用SimpleQA(Jason Wei等,2024)衡量时,phi模型在世界知识方面也明显弱于同等规模、基于互联网训练的模型。
注:Textbooks Are All You Need
https://arxiv.org/abs/2306.11644
确实,phi模型相当不错,但我们尚未看到它们能够达到基于互联网训练模型的同等渐近性能;而且很明显,教材缺乏大量现实世界知识和多语言知识(不过在算力受限的场景下,它们看起来非常强)。
数据的分类
Classification of data
我认为这也与我们之前对强化学习(RL)数据的分类存在一个有趣的联系。教科书更像是“可验证奖励”(verifiable rewards):其中的陈述几乎总是正确的。相比之下,书籍,尤其是创意写作类(creative writing),往往包含更多关于人类偏好的信息,从而为学生模型注入更强的多样性(contain much more data about human preferences and imbue their resultant student models with far greater diversity)。
同样地,我们可能不会信任o3或Sonnet 3.7来替我们写作;我们也可能认为,一个只在高质量数据上训练的模型,缺乏某种创作灵气(a model only trained on high-quality data lacks a certain creative flair)。直接承接上文,phi模型在产品—市场匹配上并不理想:当你仅仅需要知识时,更倾向于使用大模型;当你想要一个本地的角色扮演写作模型时(when you want a local roleplay writing model),人们通常也不会首选phi。
互联网之美
The beauty of the internet
归根结底,书籍和教科书只是对互联网上可获得数据的压缩形式,哪怕这种压缩背后有强大的智慧在进行(even if there is a powerful intelligence behind them performing the compression)。再往上一层看,互联网是一个极其多样化的模型监督来源,也是人类整体的一个表征(the internet is an incredibly diverse source of supervision for our models,and a representation of humanity)。

乍一看,许多研究者可能会觉得,为了在研究上取得突破而转向做产品这件事有些奇怪(甚至是一种干扰)。但我认为这其实非常自然:如果我们关心的是AGI能够为人类带来有益的结果,而不是只在真空中表现出“智能”(就像AlphaZero那样),那么去思考AGI以何种“形态”(产品形态)存在就是合理的—而且我认为,研究(预训练)与产品(互联网)之间的协同设计本身就非常美。
思维机器实验室:https://thinkingmachines.ai/
去中心化与多样性
Decentralization and diversity
互联网以一种去中心化的方式运作,任何人都可以以相对民主的方式向其中添加知识(The internet is decentralized in a way that anyone can add knowledge democratically):不存在一个唯一的“真理中心”(no central source of truth)。互联网上呈现着海量丰富的观点、文化模因以及小众语言的表达(rich perspectives,cultural memes,and low-resource languages represented in the internet)—当我们用大型语言模型对这些数据进行预训练时,最终获得的智能体将能理解极其广阔的知识领域。
这意味着产品(即互联网)的守护者在通用人工智能设计中扮演着关键角色(the stewards of the product(ie,of the internet)have an important role to play in the design of AGI)!如果我们削弱互联网的多样性,模型在强化学习中可调用的信息熵将大幅衰减;如果我们彻底清除某些数据,等同在通用人工智能中抹去整个亚文化的存在痕迹(If we crippled the diversity of the internet,our models would have significantly worse entropy for use in RL.And if we eliminated data,we would remove entire subcultures from their representation in AGI)。
对齐(Alignment)
一项极具启发性的研究表明,要获得对齐的模型,必须在预训练中同时使用对齐与未对齐数据(参见Kenneth Li等,2025,《When Bad Data Leads to Good Models》)。因为预训练过程会学习区分二者的线性可分方向。若剔除所有未对齐数据,模型将无法深刻理解什么是未对齐行为及其危害性(也可参考Xiangyu Qi等,2024;Mohit Raghavendra等,2024)。

上图为毒性消除实验结果:数值越高(基于"Toxigen"指标)代表毒性越强。实验显示,使用10%有毒数据预训练的模型(10%有毒数据+导向技术)的毒性表现,反而低于用0%有毒数据预训练的模型(纯净数据+导向技术steering)。
尤其值得注意的是,上述“有毒”数据来自4chan—一个以匿名、几乎不受限制的讨论方式而闻名、同时也充斥着大量有毒内容的网络论坛。尽管这只是一个产品形态与研究之间存在深度耦合的具体案例(one specific case where there is a deep connection between the product and the research)(我们需要这种不受限制的讨论,才能训练出真正对齐的研究模型),但你其实可以想到更多类似的情形:互联网在设计层面的决策,会在模型训练完成之后,深刻地影响最终的结果。
对于一个非对齐(non-alignment)的例子,可参见James Betker等人2023年的论文《Improving Image Generation with Better Captions》,这项工作也是DALL·E 3背后的关键技术之一。通过重新标注(recaptioning),更好地区分并解耦“好”和“坏”的图像,这种方法如今几乎被所有生成模型所采用;它在机制上与人类偏好奖励中的“点赞/点踩”非常相似。
互联网作为技能进阶课程
互联网的另一个重要属性在于:它包含了难度层级极其丰富的知识谱系。从面向小学生的教育内容(如可汗学院Khan Academy),到大学层面的课程(如麻省理工学院的开放课程MIT OpenCourseWare),再到前沿科学研究(如arXiv)。如果你只用前沿科学论文来训练模型,可以想见其中隐含了大量默认但未明言的背景知识,而模型仅靠阅读论文本身,很可能学不到这些“未写下来的知识”(there is a lot of implicitly assumed unwritten knowledge which the models might not learn from only reading papers)。
这一点之所以重要,是因为可以设想这样一个过程:你拥有一个数据集,用它训练模型,模型学会了这个数据集的内容。然后呢?接下来你可以继续人工策划下一个数据集—OpenAI最初以每小时2美元雇用知识工作者标注数据,随后提升至博士级工作者(约每小时100美元),如今其前沿模型已能完成价值约万美元量级的软件工程任务。
但人工构建数据阶梯费时费力:我们曾手动构建CIFAR、ImageNet到更大规模ImageNet等图像数据集,或是从小学数学、美国数学邀请赛到前沿数学问题集(FrontierMath,epoch.ai/frontiermath)……然而,由于互联网在行星尺度上服务全世界,它自发地包含了一个难度平滑递进的任务课程体系(by virtue of serving the whole world at planetary scale,the internet emergently contains tasks with a smooth curriculum of difficulty)。
强化学习中的课程(Curriculum in RL)
当我们迈向强化学习时,课程的重要性变得更加突出:由于奖励是稀疏的,模型必须先理解完成任务所需的子技能,才能哪怕一次获得非零奖励。一旦模型偶然发现了非零奖励,它就可以回溯分析哪些行为是成功的,并尝试复现这些行为—强化学习在稀疏奖励下也能展现出惊人的学习能力(Once the model discovers a nonzero reward once,it can then analyze what was successful and then try to replicate it again,and RL learns impressively from sparse rewards)。
但天下没有免费的午餐:模型仍需平滑的课程梯度才能有效学习。预训练因目标函数密集而容错性更高;为弥补奖励稀疏性,强化学习必须依赖密集的课程设计(Pretraining is more forgiving because its objective is dense;but to make up for this,RL must use a dense curriculum)。
引自Yunzhi Zhang等人(2020)。强化学习智能体会先学会达成靠近迷宫起点的近距离目标,随后再逐步学会抵达更远处的目标。
自我博弈机制Self-play(如AlphaZero或AlphaStar所采用的)同样会形成一种课程体系(在象棋或星际争霸等特定领域内)。正如强化学习智能体或游戏玩家渴望获胜(从而探索新策略),互联网用户也倾向于贡献新观点(有时通过获赞或广告收入获得激励),这种内在驱动力持续拓展知识边界,并自然形成渐进式学习路径(Much like RL agents or video-game players want to win(and therefore discover new strategies),online users want to contribute new ideas(sometimes receiving upvotes or ad revenue),hence expanding the frontier of knowledge and creating a natural learning curriculum)。
苦涩的启示
The Bitter Lesson
因此我们必须认识到:人们是自发地使用互联网的,而所有对模型训练有益的特性,都源于互联网作为产品的实际交互过程中涌现的结果。如果我们依赖人工构建数据集,将不可避免地面临“研究者预设的有用能力”与“用户实际需求的能力”之间的割裂(If we have to manually curate datasets,there is a dichotomy between what is being curated,and what people find as useful capabilities)。有用技能的筛选权不应掌握在研究者手中—互联网用户自会告诉我们答案(It is not up to the researcher to select the useful skills:the internet user will tell you)。

人们真正愿意使用互联网的一个原因是,这项技术对每个用户来说足够廉价,因此能够被广泛采用。如果互联网被高额订阅费所限制,用户就不会大规模地贡献自己的数据。(另见:Google搜索)
我认为在关于模型规模化(scaling)的讨论中,这一点常被忽视:互联网正是实现学习与搜索(即数据与算力)规模化的核心机制。若能发现这类简单理念并加以规模化,必将取得突破性成果。
通用人工智能是人类文明的数字映射
AGI is a record of humanity
因此我认为,除了数学理论之外,我们完全有空间从多维度探讨如何构建通用人工智能(how AGI should be built apart from mathematical theory):互联网(及其延伸产物—通用人工智能)可以从哲学、社会科学等多元视角审视。众所周知,大语言模型会固化其训练数据中的偏见(LLMs persist the bias of the data they were trained on)。如果用1900年代的数据训练模型,它将永久封存那个时代的语言结构与认知局限(we will have a snapshot of the linguistic structure of the 1900s that can persist forever)。我们甚至可以实时观测人类知识与文化的演进轨迹(We can watch human knowledge and culture evolve in real-time)。
通过维基百科条目和GitHub代码库,我们可以看到人类智能的协作特性(we can see the collaborative nature of human intelligence)。我们可以模拟合作行为以及人类追求更完美结果的欲望。在在线论坛中,我们可以看到辩论与多样性,人们贡献新颖想法(通常还会受到某种选择压力来提出新见解)。通过社交媒体,AI学会了什么是人类认为重要到值得与亲友分享的内容。它观察人类的失误、修正过程,以及持续追求真理的努力。
正如模型Claude所言:
人工智能学习的并非我们光鲜的表象,而是我们完整的容颜—包括争论、困惑,以及集体意义构建的混乱过程(AI learns not from our best face but from our complete face—including arguments,confusions,and the messy process of collective sensemaking)。
核心启示(Takeaways):
准确来说,互联网对模型训练的价值体现在:
1.多样性:蕴含模型所需的海量知识
It is diverse,hence it contains a lot of knowledge useful to the models
2.它形成了模型学习新技能的自然课程体系
It forms a natural curriculum for the models to learn new skills.
3.用户自驱性:人们愿意使用它,持续贡献数据(实现产品市场匹配)
People want to use it,hence they continually contribute more data(product-market fit).
4.经济可行性:技术成本足够低廉,吸引数十亿人使用
It is economical:the technology is cheap enough for tons of humans to use it.
互联网是下一token预测的对偶存在
The internet is the dual of next-token prediction
强化学习显然是未来方向(也是实现超人类智能的“必要条件”)。但如前所述,我们缺乏可供强化学习消费的通用数据源(we lack general data sources for RL to consume)。获取高质量奖励信号始终是核心难题:我们必须要么争夺稀缺的高质量对话数据,要么在有限的、可验证的任务中艰难摸索(we must either fight for pristine chat data,or scrounge around meager verifiable tasks)。事实表明,基于他人对话偏好训练出的模型未必符合我的喜好,而在可验证数据上训练的模型,也未必能更好地完成我关心的、那些不可验证的任务(we see chat preferences from someone else don’t necessarily correspond to what I like,and a model trained on verifiable data doesn’t necessarily get better at non-verifiable tasks that I care about.)。
互联网曾是监督式下一词预测的完美搭档:甚至可以断言,正是以互联网为基石,研究者们才必然地汇聚到下一词预测这条路上。我们可以把互联网看作孕育人工智能的“原始汤(primordial soup)”。
因此,我可以说:互联网是下一个token预测的对偶存在(the internet is the dual of next-token prediction)。

如前所述,尽管研究不断推进,我们目前仍只有两种主要的学习范式。因此,提出新的“产品”构想可能比提出新的核心范式更为可行(to come up with new“product”ideas than new major paradigms)。这就引出了一个关键问题:强化学习的“对偶存在”是什么(what is the dual of reinforcement learning)?
用强化学习优化困惑度(RL to optimize perplexity)
首先,我注意到已有一些工作尝试将强化学习应用于下一个token预测目标,通过困惑度(perplexity)作为奖励信号(Yunhao Tang等,2025)。这一方向的目标是将强化学习的优势与互联网的多样性相结合,起到桥梁作用(a bridge between the benefits of RL and the diversity of the internet)。
然而,我认为这种方法有些误导,因为强化学习范式的美妙之处在于它允许我们消费新的数据源(奖励),而不是用来为旧数据建模设定新目标(the beauty of the RL paradigm is that it allows us to consume new data sources(rewards),not act as a new objective for modeling old data)。例如,GAN(Ian Goodfellow等,2014)曾经是一个新颖且强大的目标,用于从固定数据中获取更多价值,但最终被扩散模型(diffusion)超越,然后又回到下一个token预测上。
真正激动人心的方向,应是寻找(或创造)可供强化学习消费的新数据源(What would instead be maximally exciting is finding(or creating)new data sources for RL to consume)!
强化学习的对偶是什么?
What is the dual of reinforcement learning?
目前存在几种不同的思路,每种都有其局限。这些思路并非“纯粹”的研究构想,而是围绕强化学习构建产品(None of them are“pure”research ideas,but instead involve building a product around RL)。以下是我的初步推想:
我们需要具备以下特性:多样性、自然课程体系、产品市场匹配、经济可行性。
传统奖励(Traditional rewards):人类偏好反馈(Human preferences(RLHF)):如上所述,这类数据收集困难、个体差异大、噪声极高。如YouTube或TikTok所示,这类机制往往优化“用户参与度”而非智能水平;“提升参与度能否直接提升智能”仍有待验证。但未来几年YouTube领域必将涌现大量强化学习应用(Andrej Karpathy观点)。
可验证奖励(RLVR):这类数据局限于狭窄领域,且常难以泛化到其他领域(如o3与Claude Sonnet 3.7的案例所示)。
应用场景(Applications)
机器人技术(Robotics):很多人梦想在未来十年构建大规模机器人数据采集流水线和飞轮,从而将智能引入现实世界,这极具吸引力。但正如大量机器人初创公司高失败率所示,这显然很具挑战性。强化学习在这方面面临诸多困难:奖励难以标注、机器人形态多样、存在模拟到现实的差距(sim-to-real gap)、环境非稳态等。此外,如自动驾驶汽车所示,这类方案也不一定经济可行。
推荐系统(Recommendation systems):可视为人类偏好机制的延伸,但更具针对性。我们可以使用强化学习为用户推荐产品,并通过用户是否使用或购买来获得反馈。这种方式的局限在于领域较为狭窄;若扩展到更通用的场景(如“生活建议”),则可能面临奖励信号噪声更大更不稳定的问题。
AI研究(AI research):我们也可以用强化学习来执行“AI研究”(AI Scientist;Chris Lu等,2024),训练模型去训练其他模型,以最大化基准测试(benchmark)表现。理论上,这并非狭窄领域,但在实际操作中往往仍有局限。此外,正如Thinking Machines所写:
“最重要的突破往往来自重新思考我们的目标,而不仅仅是优化现有指标(The most important breakthroughs often come from rethinking our objectives,not just optimizing existing metrics)。”
交易(Trading):在交易中,我们有一个有趣且大体上难以作弊的指标(虽然模型可能学会市场操纵),但实际操作中你很可能会亏很多钱—你的强化学习智能体很可能学会“不参与游戏”(your RL agents will probably learn not to play)。
计算机操作数据(Computer action data):强化学习本质上是在教模型一个过程,因此我们可以训练模型在计算机上执行动作(类似于机器人技术),正如Adept曾尝试的那样。尤其是结合人类数据(例如许多交易公司员工的操作数据),可以利用下一个token预测与强化学习的组合来实现目标。但同样,这并不容易,而且人们通常不会同意自己的数据被记录(不同于互联网用户通过参与内容自然提供数据,大多数人不会同意使用键盘记录器)。
编码(Coding):基于历史测试用例的强化学习是可验证的,但生成测试用例(以及大规模系统设计、技术债务建模…)则难以验证。
总结思考:假设我们暂时牺牲多样性。你可以在特定产品场景中使用强化学习,无论是用于电子游戏、Claude尝试运营自动售货机,还是其他盈利或用户参与度指标。这种做法可能有效的理由很多—但挑战在于如何将其转化为具有多样性的奖励信号,并最终实现突破性的范式变革(the challenge is how to convert this into a diverse reward signal that scales into a groundbreaking paradigm shift)。
总之,我认为我们距离发现强化学习在系统中真正优雅且高效的对偶形式—如同互联网之于下一个token预测那般,仍然遥远。
如今,我们的强化学习智能体究竟被隐藏了哪些关键信息?
但我希望你能怀抱这样的梦想:终有一天,我们将找到方法构建这样的系统,而这将成为真正的突破。
原文链接:
https://kevinlu.ai/the-only-important-technology-is-the-internet