扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-01-31 13:07

Kimi K2.5深度实测:变强了,但尚未“封神”

本文来自微信公众号: 极客公园 ,作者:徐珊,编辑:靖宇,原文标题:《Kimi K2.5 深度实测:变强了,但尚未「封神」|AI 上新》


三天,四款模型,N个产品。这就是2026年开年,大模型行业展现出的态势。


沉寂了小半年,Kimi显然不想将2026年的第一个有关通用大模型的话题权交给其他人。


这次,Kimi终于将产品线补齐,无论是视觉感知,还是Agent能力,又或者编程能力,Kimi都用Kimi K2.5这款万亿大模型证明自己在通用领域的实力。


Kimi K2.5在多个领域的最新评分|图源:Kimi


简单来说,Kimi K2.5在推理能力、认知图谱上都更强了。


基于Kimi K2.5的能力,Kimi现在能够提供单个性能的Kimi Agent和多个Agent协作的Agent Swarm(多智能体集群),允许多个AI Agent并行协作处理复杂任务的架构。


此外,Kimi K2.5还打造了Kimi Code平台,它能接入本地开发环境,可阅读项目文件、分析代码结构,并据此自动生成或修改代码、执行测试与命令。


整体产品线来说,Kimi K2.5是针对普通人的,相当于模型性能迭代提高。Kimi Code和Kimi Agent功能都是面向程序员的,开源代码放在GitHub上了,有算力都可以尝试使用,但对普通人来说,使用门槛仍然较高。


不知道是实际体验的用户真的变多了,还是Kimi想要用户付费订阅的意愿变得更强了,在我们体验的过程中,Kimi官网常常跳出正在「和很多人沟通,加入订阅能够优先排队哟」的提示界面,一时间幻视打开某些视频平台,观看3分钟开始付费。并且,Kimi Code和Kimi Agent Swarm暂时没有免费体验机会。


整体体验下来,Kimi K2.5本身在长文本理解、思考维度以及「通人性」变得更强了,一些文本深度分析能力也有了不小的进步。尤其是在视觉理解能力上,效果超出预期。


基于Kimi K2.5的Agent功能,我们在测试了网页制作、行业报告撰写以及新闻图表等多个维度。在网页制作的程序上,Agent表现的效果很好,但是在专业性的内容制作,以及带有审美感的新闻图表上展现出来的能力都比较一般,没有特别惊艳。


此外,在调用相关Agent能力时,模型运转的流畅程度也比较一般,偶尔会出现停止运转的情况,常常一个复杂Agent指令需要运行30分钟左右才能看到结果。而且对于有明显矛盾的指令也会直接响应,没有反馈或者询问环节。


2026刚开年,这场有关AI自动化执行的火已经开始烧得越来越旺了。Kimi作为作为较早推出Agent产品的通用大模型厂商,也借着Kimi K2.5表明了自己在通用领域的站位和思考,Kimi K2.5也算是给正在急着尝试玩转Agent的中国开发者们,一个值得选择的工具。


栏目作者召集


极客公园的新栏目「AI上新」,将带大家体验最新的AI应用和硬件,让你成为AI时代「最靓的仔」!


现在,我们也向所有喜欢尝鲜和体验AI的同学发出召集,只要你发现并体验了新的AI应用或者功能,按照格式(参考案例:「迄今为止最伟大的AI应用」的Clawdbot,或许并不适合你|AI上新)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI应用的订阅费用。


同时,优秀作者还有机会进入极客公园AI体验群,获得最新AI应用和工具的内测资格,参加极客公园专属相关AI活动,和AI应用创始人一对一沟通。


AGI太久,只争朝夕,让一部分人先AI起来吧!投稿、进群请扫描下方二维码添加极客小助手微信


01


Kimi K2.5,变强了,


但未必变得更聪明了?


为验证Kimi K2.5的实际能力边界,我们选取了三个关键维度进行实测:通过长文本理解考验基础能力,通过视觉分析考验多模态能力,再通过创意设计考验审美与执行。


首个测试聚焦其最擅长的长文本处理。我们分别喂了一篇40万字的长篇小说给Kimi K2.5和Qwen3-Max,让其分析主要关系人物图以及梳理主角成长路线。


Qwen3-Max的分析速度非常快,但是给出的关系图也比较简单,包括人物成长经历分析上理解比较浅层,但框架正确。Kimi K2.5则是给出较为详尽的关系图谱,并且对于小说中出现的其他人物均能够按照势力、关系远近进行梳理。从小说内容理解上,比Qwen3-Max要更深一步,并且大多数小说暗线也能够理解,对于人物身份走向的揣测也基本正确。


Qwen3-Max分析结果图源|极客公园


Kimi K2.5分析结果图源|极客公园


随后,我们追问了一个开放性回答,有关对主人公最重要的人是谁?Qwen3-Max则给出了多个角度,避开唯一性,而Kimi K2.5则选择多种角度分析,还能够从多维度上比较后,给出最终答案,从思考能力、推理方向以及理解能力上都有比较明显的进步。


Qwen3-Max分析结果图源|极客公园


Kimi K2.5分析结果图源|极客公园


其次,我们测试了Kimi K2.5的视觉理解能力,将其与Gemini模型对比。我们上传了一张3页PDF的指令集,并且附有分析例图,让Kimi K2.5来分析一段30秒的网球动作,并给出错误姿势纠正。首先在视频格式上,Kimi K2.5能够支持苹果MOV模式,形式更加多样化。但是,其单段视频内存限制仍在100MB以内,也就是大约3分钟以内。


这次结果比较意外,Kimi K2.5能够读懂复杂的长指令,并且给出合适的指导建议,并且非常详细,也相对专业。


Kimi K2.5测试结果图源|极客公园


我们之前曾用Gemini做过相似的测试,得出结果图如下,整体看来两者对图片分析能力不分上下,但Kimi K2.5对指令理解相对更优。


Gemini测试结果图源|极客公园


最后,我们来考验Kimi K2.5的审美能力,同样将其与Qwen3-Max进行比较。我们上传了一段复杂指令,让其基于《中国城市公共充电桩空间公平性报告》打造一个数据新闻,最终考验其数据新闻是否能够达到专业媒体水准。


但最后呈现效果,并不如预期,呈现的效果比较简陋。但对于整体复杂涉及到多模态的任务,完成得比较仔细。但数据来源并没有调用真实参考信息,图表设计也比较基础,没有太多审美感。


Kimi K2.5测试结果图源|极客公园


为了再给Kimi K2.5一次机会,我们还尝试给出一张素材图,和一段非常详尽的指令集,让其给我们设计一张新闻头图以考验其审美能力。但是输出的结果来看,PPT感非常浓。


Kimi K2.5测试结果图源|极客公园


不过,Kimi K2.5也算交出了一份答卷出来。我们带着同样的问题问了问Qwen3-Max,Qwen3-Max直接婉拒了回答。


Qwen3-Max测试结果图源|极客公园


从目前的测试效果来看,审美或许还是一个主观的视角,在多类不同领域的审美训练下,大模型对于「美」的定义和认知仍有一定差距。


02


上新Skills案例库,


Kimi开始学会多想一步


打开Kimi官网,我们能看到Kimi官网的对话框内已经添加了Agent选项框,用户可以随时调用Agent程序。并且,对话框中还新添了一栏,可以让用户储存常用指令。


在对话框下,Kimi提供了不少智能Agent参考案例,涉及网页应用、移动应用、数据分析三大类,提供了大约20个案例参考。只要你选择做同款,就会呈现完整的指令集,某种程度上也算是上了Skills案例库。


Kimi K2.5参考测试案例图源|极客公园


数据分析上,我们让AI跑了一下英伟达财报分析。在参考页面中,我们看到的数据分析非常的详尽,但是等我们正式开始体验的时候,发现Agent也并不是完美。


其中,最为明显的是,在我们最开始的一版提示词有明显矛盾点的时候,AI并不会和你确认问题的选项,而是按照自己的推测去做后续执行。这也意味着如果你特别信任AI,完全不看后续的执行路径的话,一个指令错误可能会造成整个Agent程序走向完全错误。


我们在官网运行跑完整个程序,15张PPT大约跑了接近30分钟。并且,在Prompt几乎没有变动的情况下,两个Agent给出完全不同的结论推理。


参考案例给出的推论是,「英伟达财报效应确实存在」,而我们跑出来的结果则是「财报发布并非上涨催化剂,财报交易策略无效」。


同样的Prompt,却给出了不同的答案,或许也从一定程度说明了当下Agent属于能用,但不够可靠,仍需使用者拥有明辨是非的能力,同时缺乏主动意图反馈机制,容错性不足。


第二次,我们自己参考Prompt,编写了一段提示词。


测试Kimi K2.5提示词图源|极客公园


又等待了接近半小时后,我们看到了一个初步的网页设计界面。从页面设计来看,基本上能够满足原提示词的指令,并且符合一个科技公司常见的主页界面。


Kimi K2.5测试结果图源|极客公园


但是在理解能力,还是会有一些小问题,比如说,图上的品牌宣言,一般会是被隐去而不是用直接作为标题显示。这也说明AI在理解和执行上还是有需要改进的地方。


也会有些令人惊喜的地方,比如在网页设计提示词上我们并没有提到相关联系方式收集等,但是Kimi参考了大多数的网站之后,可以直接在官网设计建联页面。


Kimi K2.5测试结果图源|极客公园


甚至在底栏的一些设计上也比较贴心,有外置链接,甚至有小红书,也是十分与时俱进了。


Kimi K2.5测试结果图源|极客公园


体验完之后,能够明显感受到,当下Agent能力未必能够在执行上做到完美,但是能够通过指令的意图丰富整个执行细节,能够明白核心需求点是什么,给出更多的意外之喜。并且,Kimi能够将网页链接直接部署到位,给出预览和安装包,供用户使用。


这是我们的测试结果链接:https://e56oqk3weoe7k.ok.kimi.link/#


此外,由于Kimi Code和Agent Swarm功能均需要高级会员才可以使用,因此我们很可惜暂时不能得出第一手测试结果。据了解,Kimi K2.5的Agent Swarm功能采用分布式协同架构,最多可并行调度与管理100个子智能体。每个智能体均配备独立的工作记忆,能够自主执行任务,并遵循高效通信协议,仅在关键节点将处理结果汇总至中央调度器,从而大幅提升复杂任务的解决效率。


03


Agent转向之年


从基于Kimi K2.5视觉理解的出色表现,我们可以预见多模态的Agent将成为2026年的竞争焦点,我们也嗅到了一些2026年模型界不一样的转向。


首先是,视觉能力的增强。无论是Claude还是DeepSeek,在琢磨了一年的文本交互后,终于转向视频能力,补强此前视频分析的短板。视频理解能力超强带来的不仅是用户主动上传视频信息的分析更强,更是未来一些被动记录视频能力发挥更多的空间,会带来更多玩法。


其次,从目前通用模型生态来看,开源模型的活跃度在社区渗透和第三方集成上展现出更强能力,前有Gemini、Claude、GPT对比,后有Qwen3-max,Kimi K2.5和DeepSeek。Kimi K2.5的开源虽然是在意料之外,但也算情理之中。但值得注意的是,消费者的付费意愿养成仍需依赖闭源模型的高端功能。


第三,是所有的通用大模型开始争取更好的利润,更多的付费形式。这次Kimi Code功能和Agent集群功能直接提供给高端付费用户,不开放任何试用,且Kimi的付费模式也开始变化,最高199元每月。OpenAI要卖广告,Gemini要上Chrome几乎都是一个原因,开源节流,模型公司们开始两手抓资金流向。


最后,通用模型公司们已经开始为Agent走入垂直场景做准备。Kimi K2.5上线的Agent Swarm功能就是帮助更多企业打造垂类应用时能有模型底座支撑,方便企业能够通过不同类型的Agent扮演企业中的不同员工,各司其职,最终协同办公。


如果说2025年DeepSeek将模型成本降到无限低,是让人看到模型走向千行百业的关键之一。2026年的开端,似乎预示围绕AI自动化的一切即将开始改变。从单个Agent,走向几个Agent,再到一群Agent。Kimi K2.5的出现,代表已经有通用大模型厂商看到这一趋势,并做出改变。


目前,从Manus到豆包手机,再到Clawdbot,其实从模型诞生的第一天开始,人们对AI自动化的探索并未停止。当模型公司、应用公司以及硬件公司都瞄准一个方向发展,或许2026年也将会是Agent逐渐成熟,落地场景的一年。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: