扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-02-04 12:11

刘知远深度分享:AI 浪潮之下,泳姿不重要,关键是先入水

本文来自微信公众号: 智源社区 ,作者:智源社区,原文标题:《刘知远深度分享:AI 浪潮之下,泳姿不重要,关键是先入水|智源专访》


当AI领域的“玩家们”执着于“更大模型、更多数据”的规模扩张洪流时,刘知远早已锚定了一条务实且坚定的差异化路径。他跳出单纯追逐参数的内卷,以密度法则重构模型价值,在端侧智能与产研融合中探寻通用人工智能的落地密码。


这位深耕NLP领域近二十年的清华大学长聘副教授、面壁智能联合创始人和青源会发起人,见证并推动了中国的大模型浪潮,也在技术热潮中保持独有的清醒。从早年跟进word2vec深耕知识表示学习,到主导研发ERNIE预训练模型、参与打造“悟道”万亿大模型,再到推出MiniCPM端侧模型深耕高密度智能,他始终站在技术演进的核心赛道,探索学术与产业实践双向赋能的新模式。


在他的认知里,AI并非单纯的技术狂欢,而是一场需平衡前沿探索与落地价值的长跑。这场兼顾技术深度、产业温度与社会价值的探索之旅,藏着怎样的方法论?端侧AGI又该如何突破瓶颈、落地生根?在这篇深度专访中,刘知远将拆解AI演进的核心脉络,分享浪潮之下的取舍与坚守,带你看清技术热潮背后的底层逻辑与未来方向。


采访&编辑:熊宇轩梦佳


要点速览


NLP演进核心脉络:2018年预训练技术开启通用化时代,叠加2022年指令微调、2025年大规模强化学习,三大节点让模型逐步具备自主学习、理解意图、深度思考能力,AGI是持续进阶的目标。


人机协同底层逻辑:人核心负责把关判断,机器专注提效赋能,AI始终是生产力工具;端云协同分工明确,端侧管个性化与隐私,云端供高阶专业能力。


2026研发核心方向:聚焦高密度端侧AGI大模型,攻坚提升模型能力密度、实现自主学习算法突破、推进软硬协同与新型AI硬件探索的三大重点。


AI社会价值与趋势:AI伦理应该成为“润滑剂”,智能体将助力知识平权,缩小数字鸿沟,具身机器人是硬件革新核心方向。


给从业者的核心建议:当前AI浪潮堪比2000年互联网,不必纠结“入水姿势”,优先主动投身浪潮,依托产研结合做前沿探索,方能抓住机遇。


智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第35期。


简介:刘知远,清华大学计算机系长聘副教授、博士生导师,青源会发起人。主要研究方向为自然语言处理、知识图谱和社会计算。已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过5.8万次。入选2020-2023连续四年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。


01


NLP分水岭,从专用到通用的演进之路


“智能体发展,需要通用性,更要产学研协同。”


Q1:从技术演进的角度看,每一次NLP领域关键的技术突破,为当下的智能体技术奠定了哪些核心的能力?


刘知远:在我看来,此次大模型的技术突破,其源头至少要追溯到始于2018年的预训练技术,其意义之深远,远超自然语言处理领域史上任何一次突破。2018年之前的自然语言处理研究,始终受限于高度专用的发展范式,学界研究者各守一隅,要么深耕机器翻译,要么专注文本生成,要么钻研自动问答……每个人都是一个特别具体的任务的专家,这一发展状态与诸多其它的人工智能研究领域高度相似。而预训练技术的横空出世,与此前的专用范式形成了关键分野。自2018年起,自然语言处理才真正迈向通用智能,我们也自此从通用智能的视角,探索人工智能的语言能力。


从整个自然语言处理发展史上来看,2018年兴起的预训练技术是一个非常重要的里程碑。日后,我们重新梳理自然语言处理的发展脉络时,2018年必将成为一个清晰的历史分界点,清晰地划分出前后两个截然不同的发展阶段。也正因如此,探讨2018年之后相关技术的变革,以及这些变革赋予模型的全新能力,才更具价值与意义。毕竟在这之前,所有技术探索都止步于专用任务,各任务间壁垒森严,任一任务的技术突破都无法迁移泛化至其他领域,这样的突破自然缺乏通用性。


2018年之后,自然语言处理的发展脉络愈发清晰。预训练技术让模型拥有了从海量数据中自主学习知识的能力,只要数据充足,便能挖掘出数据背后的各类知识,这是一切发展的起点。2022年底ChatGPT的出现,成为第二个关键节点,指令微调技术的应用,让模型真正具备了理解人类意图的能力,可依循需求完成各类任务,这份精准的意图理解,是技术发展中至关重要的一步。2024年下半年至2025年,第三个重要突破接踵而至,大规模强化学习技术落地,让模型拥有了深度思考的能力。


回顾过去六年,这三个节点构成了大语言模型驱动下的自然语言处理研究的核心发展脉络。每个节点的到来,都伴随有出圈的全球级技术成果,引发行业乃至全球的轰动,从最初的BERT、GPT,到ChatGPT,再到DeepSeek-R1,皆是如此。而未来的发展走向,关键便在于能否出现同等级别的重磅技术突破,继续掀起全球范围内的行业变革。


Q2:您认为到2025、2026年这个时间节点,以NLP为核心的智能,是否已经从被动响应迈入主动行动的形式,抵达了这一关键的奇变临界点?


刘知远:我觉得深度思考这个现象,确实值得重点关注。但这个现象背后的技术内核,更多是技术圈在深入研究,对于公众而言,大多只是直观看到模型拥有了深度思考的能力。而支撑这一能力的核心技术,就是大规模强化学习。就像OpenAI的o1、DeepSeek的R1,包括2025年全年的行业最大热点,本质都是强化学习。


从这个角度来说,强化学习的落地成功,对应的是人工智能学习范式的根本转变,这和当年AlphaGo到AlphaGo Zero的变革有着异曲同工之妙。此前,训练AlphaGo等模型的范式,是人类准备好数据,它进行被动的学习;而到了DeepSeek R1、OpenAI的o1,已经接近AlphaGo Zero的模式,不再局限于人类提供的数据,AI能够主动去探索、思考,构思问题的解决方案,甚至会自己生成数据,再基于这些数据完成学习。在我看来,这种学习方式的转变,本身就是一次重大突破,和当年AlphaGo到AlphaGo Zero的跨越是一个道理,这也是行业发展背后的一条核心暗线。


大家现在经常讨论Agent AI的主动与被动。从表面看,让AI或者Agent实现主动和世界交互、主动为人类完成各类事,似乎通过Prompt设定规则就能做到。比如我们回到家,智能音箱主动向我们打招呼,这类行为只需提前写好规则就能实现,并不是AI真正具备了主动意识。而从技术本质来讲,从被动智能到主动智能的真正突破,在于模型能自主建立起在环境中的主动探索意识和能力,拥有向外探求的主观能动性。这一点,正是2025年深度思考这个表象背后,大规模强化学习所承载的重要历史意义。


当然我们会认为现在的智能体的主动性还不够。到明年,大概率都不需要人为地为强化学习提供标准答案。现在,无论是处理数学问题还是编写代码,AI都已经具备了一定主动思考、寻求可能的解决方案的能力。但是,究竟哪个方案是对的,哪个方案是错的?AI还无法自己做出判断。它需要利用人类提供的答案,然后基于规则给出奖励。那这个过程中,AI的主动性还不够强。我们需要进一步加强模型的自主性,让它能够自主地决定在环境中该学什么,怎么学,到底学的好还是不好。


Q3:您一边深耕学术研究,一边推动产业的发展。从学术层面的模型研发,到AI技术的产品化落地,这一路下来,您最深切的体会是什么?对于NLP领域积累的一些历史遗留问题,在如今做AI智能体的过程中,您是否感觉它们被进一步放大了?有没有出现一些突破性的解决方案?


刘知远:我们一直提2018年开启了通用化人工智能的新方向。其实这两年,不论是做各类报告,还是在学校开设相关课程,其中一个重要的主题都是“迈向通用人工智能”。为什么是“迈向”?“通用”这个词,从来都不是一个绝对的概念,没有一个明确的标准来界定,并不是达到某个水平才是真正的通用,达不到就不算。在我眼中,通用是一个连续演进的过程。


2018年的技术,对比此前的方案,已然实现了通用化的跨越;而站在当下看,2025年的模型,又比2018年的模型具备了更强的通用性。尤其是在理解用户意图这一点上,2025年的模型通用能力提升尤为明显。要知道,在2023年初ChatGPT出现之前,我们的常规做法都是先预训练模型,再通过微调,让它适配某个具体任务,成为专属的任务模型。而2022年底的指令微调技术,让模型实现了质的突破。一个模型就能理解用户各类意图,完成多样任务。我们可以直接通过Prompt、借助上下文学习,让模型自身具备更通用的多任务处理能力。


今天,我们看到了模型的深度思考能力也能在各类任务中得到更好的发挥。2023年的时候,模型虽然也能做上下文学习,在某些场景下具有逐步推理思考的能力,但这种能力的通用性还不够。而现在,深度思考能力已经基本融入了模型的核心体系。所以在我看来,“迈向通用人工智能”这个说法恰如其分。2018年的模型,对比过往已经足够通用,但和2025年的模型相比,仍偏于专用。若把2025年的模型放到2030年再看,或许又会发现,它在一些方面依旧存在专用性的局限,还有不少待提升的地方。


说到当下的模型还有哪些不足,我觉得最大的问题,还是在更高阶的智能层面,缺乏足够强的通用性和泛化能力。比如2023年时,模型已经能在数学、代码领域,依靠标准答案实现深度思考,哪怕全球已标注的相关数据都用尽了,也能通过自我模拟对弈的方式继续学习。但要知道,全球有众多学科、无数专业领域,模型目前还无法在这些领域都实现有效的自我模拟对弈,这样的通用性,和人类相比差距还很大。我们可以想想,一个普通的大学毕业生,放到任何一个工作岗位上,经过学习都能成为该领域的专业人才。从这一点来看,模型当下还不具备在任意领域自主学习、快速上手的通用能力。


AI未来的发展,最终目标必然是通用人工智能,而这种“通用”,从来都是没有最高、只有更高,是我们一直追求、不断进阶的目标。即便发展到今天,回答AI领域核心的探索问题,关键词依旧是“通用”二字。


图注:面壁智能的GitAgent


Q4:结合您在学术界与产业界的双重经历,您认为高校在哪些研究方向依然具备独特优势,或是尚未被产业界完全占据领先地位的?


刘知远:在我看来,这个问题本身,其实是人为割裂了学术界与产业界的联系。大模型、人工智能发展到当下的阶段,早已不再是象牙塔里的纯研究对象,而是成为了能切实服务社会的重要载体。就像历史上的大规模集成电路、计算机、互联网,任何一项能影响全人类的科技突破,最终必然要通过企业、通过市场的方式,去落地服务全人类。


那么,思考创新的主体是什么?我觉得,任何一门学科,在发展相对成熟、即将规模化服务人类社会时,高校就不再是这一阶段的创新主体了。所以,其实对于目前的大模型来讲,它创新的主体就是企业,要以企业的形式,把我们最新的技术快速的转化为可以服务全人类的产品,体现其商业价值。


互联网诞生就是这一规律的显现。从搜索引擎技术和信息检索的研究,发展为人人可用的搜索引擎。原本的推荐系统研究,落地为规模化的个性化推荐,这些技术都在短时间内完成了产业化。所以就是你会看到那些最初在高校中被小范围、多方向探索的研究对象,一旦技术成熟度达到可规模化的水平,前沿探索的主体就会迅速转移。谷歌、字节跳动这些成功的高科技企业,都是这一规律的践行者。


因此,我认为所有AI领域的学者,都应认清这一历史发展趋势。这也是清华大学从学校、院系到教授,都在积极参与产研转化的原因。大家都清晰地意识到,在当下这个时代,想要做最前沿的技术研究,若脱离企业平台、脱离大团队协作、脱离产研结合的模式,就无法适应时代的要求。


与其纠结哪些研究适合高校、哪些适合企业,不如明确一个判断标准:凡是能快速落地应用、具备规模化潜力的研究,必然要以企业平台为核心。过去三到五年,AI领域正经历这样的主体快速迁移,高校与产业界的距离也在不断拉近。在这个过程中,如果不愿认清事实、不愿承认这一范式转移的趋势,仍在高校闭门造车,我认为是不可取的。


当然,即便在AI时代,高校依然有其专属的研究价值与使命。比如人工智能领域最基础的理论研究、科学体系的建构探索,还有那些短期内不具备商业价值、高度开放性的问题研究,这些显然都适合在高校开展。但现在有不少高校的老师和学者,既不积极参与产研融合,也不愿承认这一重要的发展趋势,仅靠有限的算力、寥寥数名学生,就尝试开展大模型相关研究,这样的研究很难形成真正的重大突破与创新,最终只会被海量的论文所淹没,这并不是一个值得鼓励的现象。


Q5:您的团队近期也发布了不少与GUI Agent相关的产品和研究工作。能否简单聊聊,GUI Agent这一领域近些年经历了哪些研发阶段,其中又体现出了NLP技术的哪些迭代与发展?


刘知远:其实最近几个月GUI Agent之所以受到广泛关注,核心还是因为字节跳动等厂商推出了手机助手。GUI Agent无疑是智能体的一种重要形态,它能让智能体像人类一样识别屏幕、理解界面内容,还能模拟人类的点击操作,这种形态也必然能体现出智能体的自主性、决策规划能力等核心特性,这一点是毋庸置疑的。但同时我也认为,它绝对不会成为下一代智能手机助手可商业化的主流形态。


原因很现实,豆包手机助手推出后,微信等各大平台纷纷对这类工具进行限制,核心就在于GUI本身带有一定的“侵略性”。它需要绕过各类App原本的数椐壁垒去实现功能,这显然是各大平台巨头无法容忍的。从现实角度研判,GUI Agent在手机端的这个发展方向,未来不会成为主流选择。我们可以设想一下,微信平台有大量小程序,对微信而言,如果要打造自主智能体来模拟用户访问这些小程序,完全没必要通过GUI的方式来实现,相比之下,基于底层代码、开放接口来开发,才是最高效、最经济的方式,根本不需要先截屏、再识别界面、再执行操作这一系列繁琐步骤。


真正高效且经济的智能体,不管是通用智能体还是个人助手,其核心都应该基于代码接口,以函数调用这类形式来构建。GUI Agent并非没有自身的商业价值,只是它的价值并不体现在通用手机助手这个场景上,从逻辑和现实层面来看,这个方向都是走不下去的,也不会成为现有手机端的主流助手形态。试想一下,如果华为、小米这类大厂推出一款搭载GUI Agent的手机,能帮用户完成各类操作,那这款手机必然会被微信、淘宝等第三方App全面限制,这是毋庸置疑的,而且这类工具还会带来诸多安全层面的问题。



图注:一个由LLM驱动的GUl Agent短期任务与长期任务示意图。


02


“人机协同,智能体的落地平衡术”


“人主要负责把关判断,机器来提效赋能。”


Q6:在过去一年里,大模型智能体领域有哪些主要突破?您提到泛化性和自主性是智能体发展的两大核心挑战,又有哪些关键技术,在持续推动这两方面的发展?


刘知远:工具使用是一项至关重要的能力。人类之所以能达到如今的智能水平,制造并使用工具是核心关键,这也是对自身能力的重要拓展。所以对于大模型和智能体而言,工具使用必然是重要的发展方向。其实早在2022到2023年,我们就提出了工具学习的概念。经过这几年的探索,行业内也形成了普遍共识:通过MCP、函数调用这类技术,以及一系列日趋标准化的方案,能让智能体更通用地掌握工具使用的能力。如果说这一过程中仍有挑战,那核心还是我之前提到的通用性。即如何让模型拥有更强的工具学习能力,让它面对任何新工具,都能快速掌握使用方法。


而从工具使用的视角来看,如何让智能体走进物理世界,像人类一样使用现实世界中的各类工具,还面临着一系列待解的问题。目前学界和产业界,基本都将工具使用视作智能体的核心组成部分,很少会单独去探讨它的技术演进。究其原因,是掌握工具使用的能力和学会写代码、学会解数学题这类能力的底层逻辑高度相似,核心都是如何采集对应数据,再让模型基于数据完成相关学习。


Q7:2025年的多智能体系统,在真实场景落地后的表现,是否能达到我们所说的真正的群体智能水平?


刘知远:其实多智能体的探索早有开端,2022到2023年,国内外就已有大量研究者投入其中,比如我们团队2023年就提出过一个多智能体协作的软件工程开发框架,当时也受到了不少关注。发展到2025年,行业内对多智能体的研究也出现了一些反思。既然多个智能体都由同一个模型驱动,那是否真的需要用多智能体的形式来实现,能不能把它做成单模型的工作流,让一个智能体在不同阶段完成不同任务?诸如此类的思考还有很多。但就像我之前所说,历史的发展本就是否定之否定的过程,在循环往复中螺旋式前进。


所以站在2025年来看,多智能体领域暂时还没有出现能让大家眼前一亮的重大突破。尽管不少学者正借助多智能体开展社会模拟等相关研究,也取得了不少成果。而对于未来两到三年的发展,我对这个方向抱有非常乐观的态度,因为在我看来,多智能体正是我们迈向通用人工智能的最后一块拼图。当每个智能体都实现高度专业化、具备强大能力和高自主性后,必然需要像人类社会一样,形成高度协同的多主体合作模式,这才是实现更高效率智能涌现的方式。


就像人类社会,每个人都在各自领域成为专业人才,却能通过各类组织,再加上互联网的助力,实现高效的多主体协作,完成更复杂的任务。未来的AI也必然是如此:当大模型智能体被部署到各类终端,每个终端的感知视野都只是世界的一角,彼此间的协作就成为必然。而且随着大模型智能体朝着“先通后专”的方向发展,先搭建起通用的基础大模型,再让它在各个领域特化为专业智能体,实现高度的专业分化,这种协作的需求会更迫切。


当然这其中也存在不少挑战,核心就是如何在多智能体协同的过程中,尽可能降低协作产生的额外成本。就像人类社会需要通过管理学来规避无效合作、避免“三个和尚没水吃”的情况,AI的多智能体协作也面临类似问题。


图注:MLLM的摩尔定律?


Q8:如果把人也纳入到多智能体的体系中,这里面有哪些值得深入研究的问题,又会面临哪些挑战呢?


刘知远:未来,人机协同肯定是大趋势,人做适合自己的事,机器做擅长的事,这是必然的方向。


未来的人机协同场景其实可以类比很多场景,比如在医院会诊的场景下:一位患者,搭配人类医生和AI医生,共同开展诊疗。在我看来,这类场景里的协作关系有个核心原则,就是人要承担把关的任务。AI做出的各类判断、分析,最终的对错甄别,包括排查幻觉、修正错误,都需要人来把控,这件事不能交由终端用户来做,必须有专业的人来把关。


未来的人机协同模式大概率会是这样:AI主要负责提升工作效率,为人类提供更多思路和参考;而人则承担把关的职责,最终决定哪些决策可以落地,施加到现实世界中影响他人。就像在法院,永远不可能让AI直接判定案件结果,最终的判决一定由法官做出;在医院,也绝不可能让AI单独做出诊疗决定,最终的判断必然掌握在医生手中。这就是我的基本看法,人机协同中,人主要负责把关判断,机器来提效赋能。我其实始终还是把AI当成是一个生产力工具,不太希望是把AI当成是可以跟人相提并论的主体来看待。


Q9:从Scaling Law到Densing Law,这一转变是否也折射出近一两年整个NLP社区研究方向的变化?您的团队在稀疏模型架构等方面,有哪些技术积累,能够支撑端侧智能体的高效部署与运行?


刘知远:我们提出Densing Law,是建立在大量实验基础上的总结与发现,所以我并不认为Densing Law是Scaling Law的对立面,也并非要否定扩展律本身。我们觉得,Densing Law所指向的,是一种更高效的扩展方式。可以这样理解,如果以模型参数规模为横坐标,模型能力为纵坐标,Scaling Law是一条模型越大、能力越强的发展直线,而Densing Law,就是要追求一条更陡峭的发展曲线。用更少的参数,承载更强的模型能力。所以Densing Law的核心,我认为更在于高效,它与Scaling Law并非相悖,而是相辅相成、互相促进的关系。


这一观点其实也在说明,单纯靠把模型越训越大来追求更强智能,并非一条可持续的发展路径。未来必然是Scaling Law与Densing Law相结合,通过持续的技术改进,让更少的参数承载更多能力,不断提升模型的能力密度,才有可能以相对可控的成本,去实现真正的通用人工智能。这一点是未来必须达成的,如果训练一个模型需要极高的成本,那它必然无法成为普惠的产品,无法让全世界所有人都从中受益,这样的技术,也算不上一次真正的革命。真正的技术革命,必然是能让所有人获益、真正推动整个人类社会发展的。


至于哪些因素会影响模型的能力密度,我们认为主要有四个核心方面:一是模型架构,二是模型的训练数据,三是对从数据到模型的整个学习过程规律的掌握,四是软硬件的协同设计,也就是围绕硬件特性,去优化模型各方面的设计。这四个因素,直接决定了模型的能力密度高低,而密度的高低,也对应着模型训练与使用成本的多少。


面向未来,我们团队也会更聚焦于探索这四个因素与模型密度之间更具定量性的规律关系,这也是我们当下正在开展的研究方向。后续,我们也会把最新的研究发现持续和大家分享。能总结出这样的发展方向,我们自身也很振奋,因为我们认为,这代表着未来通用人工智能发展的一条重要脉络。


Q10:您认为,语言模态在多模态信息处理中,扮演着怎样的角色?


刘知远:我们研究的是人类水平的智能,而人类智能的一大关键特征,就是语言成为思维与思考的重要载体。即便不能说人类思考全由语言完成,但其核心作用毋庸置疑。从这一点来讲,大语言模型所展现的深度思考、推理规划、决策判断等能力,正代表着人类智能的核心部分。而视觉这类感知能力,比如物体识别、分类,不只是人类拥有,灵长类乃至各类脊椎动物,都具备相应的视觉处理能力。


所以整体而言,视觉、听觉等其他模态,未来终究要围绕人类水平智能的需求展开研究。当然我并非否定计算机视觉、语音等领域的价值,它们在发展中做出了诸多贡献,也有各自的关键挑战,但迈向通用人工智能的最终方向里,模型架构必然会以大语言模型构成的“大脑”为中枢,再通过多模态与外部世界建立连接。


这其中,一个重要的发展方向,就是实现各模态与高级认知能力的深度关联。跨模态的统一建模、理解与生成的统一建模,以及让模型拥有跨模态的深度思考、推理等能力,这些都是未来值得深入探索的话题。我认为,AI发展越往后,会是一个愈发统一的过程,不再有明确的领域界限,不再区分自然语言处理和计算机视觉研究者,大家的共同目标,都是打造通用人工智能。


图注:MiniCPM-V概述


Q11:您一直都在推动端侧Agent的落地,在技术落地时,该如何平衡端侧原生Agent和端云协同的架构设计?如何把握隐私保护和功能实现之间的平衡点?


刘知远:当下行业仍处于快速发展阶段,远未到终局,包括接下来要探索的具身智能,要让模型在这一领域具备通用的感知、思考与行动能力,我认为还需要五年左右的快速发展期。从这个角度来说,谈端侧智能,终究绕不开端云协同,而在我看来,端侧与云端的模型本就该有明确分工。


端侧模型的核心,是整合用户的个人数据,实现对用户的个性化理解。毕竟端侧智能体本就是个人助手,不同人、不同岗位、不同领域,都会有专属的终端模型。这类模型的任务,就是接收终端的各类数据,整合后完成对服务对象的建模与理解,同时清晰知晓云端有哪些能力可调用、可借助,这是端侧模型的核心职责。


而云端模型,核心价值在于提供各领域更专业、更高阶的能力。这可以类比人类社会:一个人的助手、秘书,不必是数学家、物理学家这类各领域专家,只需成为服务对象的专家,理解其需求、诉求,以及满足需求的方式即可。至于解数学题,就调用云端的数学大模型;做物理题,就调用云端的物理大模型;要出行,调用滴滴大模型;要娱乐,调用抖音大模型。这便是未来端云协同的核心分工,端侧有其不可替代的价值,云端也有其专属的作用。


若对照计算机的发展历程来看,如今的手机、笔记本,各类终端计算设备,本质都是为个人服务,承载个人数据与个人计算;而云端的超算、云计算,核心就是提供专业服务与算力支撑,二者的分工本就如此。


03


AI重塑社会,浪潮中的进与退


“潮流不可逆,抢先入水是关键。”


Q12:您如何看待AI融入人类社会后,这种人机协作新模式带来的相关社会问题?


刘知远:首先,我认为这一趋势不以个人意志为转移。社会的运行终究遵循供需规律,劳动力本身也是一种供需关系,这一点从马克思主义相关理论中也能得到印证。2025年的趋势就很明显,专业智能体最先落地的领域就是代码大模型,如今几乎所有程序员都在借助它辅助编程、提升工作效率。以面壁智能为例,我们做过统计:2025年4月起,公司全面用AI辅助编程赋能全体员工,到年底,200人的团队累计写出2000万行代码。这个数字非常惊人——要知道,一个程序员一天写100行代码已算高产,若无AI辅助,完成这些代码需要700人的团队全年无休才能实现。由此可见,辅助编程让软件开发的效率实现了数倍提升。


这样的背景下,没人会刻意追求人力堆砌,更何况程序员本就稀缺且成本高昂,这也是微软、亚马逊等企业大规模裁撤程序员的原因。程序员领域正在发生的变化,未来会出现在更多领域。尤其是那些岗位成本高、工作内容却相对机械化的领域,被AI替代的可能性极大,因为市场本身就有强烈的替代动力。


短期来看,必然会有很多人产生抵触情绪,就像当年机器大生产出现时,工人砸机器抗议工作被夺走,现在也有程序员认为AI抢走了自己的饭碗。但从人类社会发展的宏观视角来看,我们的优化目标是全人类的共同发展,这一趋势本身是正确的。就像电子计算机出现前,“Computer”是专门从事计算工作的职业,计算机的诞生让这个职业消失了,当时从业者必然倍感痛苦,但从长远来看,这一变革提升了社会生产力,让人类生活变得更富足,推动了社会的进步。局部层面,这些变化带来的问题需要社会去消化、解决,避免引发不稳定因素,但整体而言,这一发展趋势是无法阻挡的。


Q13:在学术研究尤其是产业实践的过程中,您的团队如何融入伦理考量,实现价值观对齐?


刘知远:我一直想表达的是,我更多将AI视作一种提升效率的工具。从人类发展来看,工业革命的机器大生产,替代的是人的体力劳动,让人摆脱了繁重的体力活;而如今,很多行业的脑力劳动同样繁琐枯燥,比如写稿、写代码这类机械性的脑力工作,AI正是要把人从这些工作中解放出来,去做更有创造性的事,这本身就是正确的发展方向。我甚至认为,共产主义的实现,也需要依靠AI的发展。


伦理问题更像是一种“润滑剂”,核心是让大家更好地接受这种变革,避免变化过于剧烈,给太多人带来负面冲击。要知道,人类的道德、法律等社会规则,放在几千年的维度来看,本就是随着生产力和社会关系的发展而不断演变的。所以我相信,再过十年、二十年,我们一定会形成适配的法律、伦理规则和道德规范,来约束和规范这个融合了AI的人类社会。因此,我对这件事的态度会更开放。


Q14:您认为AI智能体技术,在推动数字包容、缩小数字鸿沟方面,有哪些潜力与责任?又该如何在技术研发中兼顾不同群体的需求?


刘知远:十几年前,Mooc的出现,是将互联网技术应用于教育领域,这在全球范围内称得上是一种教育平权,让优质教育资源得以开放,让所有人都有学习的机会。而AI的出现,有望让更多人更公平地获得学习机会。单纯的课程视频,缺乏交互性和个性化,无法让每个学生根据自身特点、知识储备高效学习。但我们可以设想,未来如果每个人都有一个精准理解其自身状态的智能体助手,助力其构建能力、实现学习发展,这对于每个人获得教育的权利,以及在社会中发展的权利,都有着重要意义。


福柯说过,知识即权力,而这种权力正体现在知识的壁垒上。未来,如果能通过智能体在全球实现知识平权,让任何人只要想获取某方面知识,都能借助人工智能,让知识传递到世界各个角落,这件事本身就是功德无量的。


Q15:2026年,您的团队在技术研发和布局上,主要会聚焦哪些方向?在平衡学术研究的前沿性和技术落地的实用性方面,又会有哪些规划?


刘知远:过去几年,我们其实已经形成了产研协同的发展模式:实验室的学生从最前沿的方向寻找研究问题,比如新的模型架构、数据治理方法、智能体构建技术等,而所有这些技术,都需要通过工程化落地到我们发布的模型和智能化产品中,才能真正体现价值。这是产研相互促进、深度融合的关键方式。


企业的产品流水线和平台系统,为学生开展高水平研究打下了坚实基础;如果学生还单打独斗,基于开源模型在特定基准上做简单微调,这样的工作未来很难获得关注。这是我们一以贯之的思路,如今也已初步搭建起这套体系。我始终认为,除了深耕基础研究的学者,所有有志于AI前沿探索的人,要么创业,要么与顶尖企业团队合作,通过产研结合做真正一线的研究,这是我的基本认知。


我们团队一直格外重视端侧模型,2026年也会继续打造并发布全球领先、密度最高的端侧模型,用更少的参数承载更强的智能。诚然,受算力限制,某个阶段的端侧模型无法做到和云端模型同等规模,但从发展终局来看,无论端侧还是云侧,最终都要迈向AGI,就像数学家和私人助手,本质都是具备通用智能的人,端侧模型也必然要朝着AGI发展。所以我们的目标,就是在端侧交付密度最高的AGI大模型,让它能看、能听、能说、能行动,这是我们深耕端侧智能的核心方向。


在此基础上,2026年的技术研发还有三个重点:第一,通过新型模型架构等技术,持续提升模型密度;第二,聚焦模型的自主性,我们计划在2026到2027年实现算法和技术突破,让模型具备真正的自主学习能力,这需要全球学者共同努力;第三,端侧智能必然要软硬协同、软硬一体,模型无法脱离硬件存在,我们会进一步探索由高密度端侧模型驱动的新型AI硬件产品,这也是我们明年重点推进的工作。


Q16:您认为当下AI智能体技术是否能推动智能硬件的革新?如今诸如AI眼镜这类产品也越来越多,AI智能体技术的落地,又会呈现出哪些新特征?


刘知远:我认为AI智能体技术必然会推动智能硬件的革新。过去大家熟知的智能终端主要是PC、手机、汽车这三大类,而未来十年到二十年,具身机器人会成为至关重要的方向,这类机器人未必是人形,也可能是其他形态。但无论何种形态,它们进入人类社会后,不管是工业、家庭还是其他领域的机器人,本身都只是硬件本体,唯有为这些端侧终端装上“大脑”,才能真正实现具身智能。


在我看来,未来的智能终端核心要具备三大能力:一是感知能力,能听、能看,实现多模态的信息输入;二是思考能力,能深度思考、规划、决策,这是终端的“大脑”核心;三是行动能力,能落地执行,完成对外的输出。我们此前也梳理过一个核心逻辑,模型的本质就是输入X、模型M、输出Y的三元结构。其中X要实现多模态感知,M要具备深度思考、自主学习的能力,同时做到更高效率;Y则要实现行动落地,让智能与物理世界深度连接。描绘端侧智能的未来图景,核心就是这三个维度。


Q17:对于关注Agent、NLP领域,尤其是端侧智能方向的年轻学者和创业者,您有哪些有关职业生涯发展的关键经验可以分享?如何才能在这个时代站上前沿?


刘知远:具体的方法技巧我就不多说了。我2002年上大学,清晰见证了2000年前后互联网大潮的到来,以及它对人类社会的颠覆性影响。如今我们身处互联网时代,打车、点外卖,生活工作的方方面面都离不开它,互联网早已成为我们生活的一部分,过去二十年也诞生了众多依托互联网、服务全人类的大企业。


我常和团队说,当看到这样的大浪潮,入水的姿势其实并不重要。不管是蛙泳、狗刨,还是仰泳、蝶泳,关键是要先入水,投身到这股浪潮中。不要因为实验室算力不足、自身条件有限,就选择观望、固守原有方向。但凡有这样的想法,注定会错过这次重要的浪潮。我也常对学生和身边的朋友说,于这个时代而言,泳姿无关紧要,先入水才是关键。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜