扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
AI生成内容的实际采纳率普遍偏低(约20%),但行业普遍忽视这一关键指标。文章揭示了AI工具"虚假生产力膨胀"现象,探讨了采纳率对ROI的影响及不同场景下的采纳差异。 ## 1. AI采纳率:被忽视的核心指标 - 行业普遍关注AI使用率(如美国开发者91%使用AI工具),但关键指标采纳率(约20%)鲜被提及 - GitHub Copilot代码采纳率为20%(Zoominfo数据),SoftDoc数据显示13%-21%,与用户体感存在差距 - 即时反馈和"抽盲盒"体验掩盖了低采纳率问题,形成"房间里的大象"现象 ## 2. 影响采纳率的关键因素 - **模型能力**:Claude、Nano Banana等保证下限的模型付费意愿更高 - **场景复杂度**:白鲸开源数据显示低/中/高复杂度任务采纳率分别为100%/80%/50% - **使用方式**:信息型产品(如问答)比劳务型产品(如编程)更能容忍不稳定输出 - **主观期待**:将AI视为"观点机"而非"真理机"能提升采纳率 ## 3. 不同领域的采纳率差异 - **编程领域**:Agent场景调用失败率达5%-20%(Claude Code),但成熟流程下采纳率可达100% - **设计领域**:界面设计采纳率约50%,像素级精准需求(如icon设计)采纳率接近0 - **创意工作**:灵感探索场景结果采纳率为0,但Prompt迭代过程价值显著 - **个人项目**:本地部署场景下Vibe Coding可实现完全采纳,但存在Token成本焦虑 ## 4. 采纳率背后的行业挑战 - **测量难题**:缺乏标准化指标,代码行数等量化方式不适用于设计等主观领域 - **成本悖论**:OpenClaw等Agent单次操作消耗20万Token,高能耗比加剧ROI压力 - **流程适配**:设计系统兼容性、行为型记忆缺失等技术瓶颈限制生产级应用 - **市场泡沫**:SaaS领域存在非理性恐慌,但普遍警惕性可能延缓泡沫破裂 ## 5. 提升采纳率的实践路径 - **明确需求定义**:通过Prompt迭代厘清验收标准(平均需10轮对话) - **分层使用策略**:办公场景(高ROI)优先落地,复杂工作流(低ROI)暂缓实施 - **技术适配**:采用虚拟机隔离风险,建立Code Wiki等知识库辅助AI理解 - **成本管控**:区分一次性原型与生产代码,避免"为采纳而制造问题"的无效投入
2026-04-01 18:30

房间里的大象:AI大部分输出根本没被用户采纳,都浪费了

本文来自微信公众号: 知危 ,编辑:大饼,作者:知危编辑部


如今,每个人都感觉AI“特别厉害”、“特别有用”。


但实际上,我们应该警惕一件事:AI产品很容易给工作带来一种“虚假的生产力膨胀”。


在开发者群体中,AI编程已经有了很高的采用率。比如据IDC 2025年6月发布的《中国市场代码生成产品评估,1H25》,彼时美国已有91%的开发者使用AI工具,而中国开发者的AI覆盖率在30%。


但另一方面,有一个核心指标却鲜被提及,这个指标其实更加接近个人和企业是否接受AI的核心目标,也就是ROI的提升。


这个指标叫采纳率。


采纳率是指,AI生成的所有内容中,人类最终采纳的内容量的比例。比如AI生成了1000行代码,人类采纳了其中300行,那采纳率就是30%。


对内容量的量化方式可以有很多种,可以是最精细的Token级别,可以是代码行数,也可以是程序员在使用AI IDE时Tab键采纳数的占比,甚至是代码库中由AI生成的功能模块数的占比等等。


比如,基于Zoominfo 2024年11-12月的内部调研显示(团队涉及400多名开发者),他们对GitHub Copilot生成的代码的平均采纳率为20%(按接受代码行数衡量)。


图源:https://arxiv.org/abs/2501.13282


基于SoftDoc 2025年上半年的内部调研显示,该公司的AI生成代码建议被接受比例在13%到21%之间(按接受代码行数衡量)。


图源:https://softdocs.com/blog/measuring-generative-ai-coding-adoption-in-softdocs-engineering


最新数据由DX AI提供,他们发布的《AI-assisted engineering:Q4 impact report》(对13.5万多名开发人员的分析)显示,合并代码中有22%是由AI编写的。


所以,按照目前公开数据显示,虽然从24年至今大家觉得AI一直在变强,但AI编程工具的输出采纳率总体还是偏低的,在20%左右。


并且,目前关于AI输出采纳率的相关数据极少。


知危接触并询问国内一些大模型厂商的工作人员,未能得到相关数据。并且不管是使用方还是供应商,都认为这个指标是不容易衡量和获取的。


这一点不难理解,如果每一个用户都回顾一下自己长期使用AI的经历,肯定能感受到自己在很多场景下对AI输出的采纳率其实并不高,但AI即时反馈的特性、类似抽盲盒的体验简直让人上瘾,使得人们醉心于跟AI来回纠缠或大量抽卡,很难注意到实际采纳率。


至此,AI输出内容的采纳率实际上成了“房间里的大象”一般的存在,它很重要且不容忽视,但由于大家对AI的狂热,人们选择性的忽视掉了这个问题。



AI产品设计师John告诉知危,“AI输出采纳率是需要被行业重视的,因为现在网络充斥着大量AI生成的低质量内容,很多发布者不关心内容是否对用户有价值。但‘是否提供价值’应该是所有产品需要面对的问题,也包括AI产品。”


“如果继续靠点赞、点踩这种方式,本身的边际效益已经很低,在现有的AI产品交互方式下,用户很少去做这种反馈。”


John认为,采纳率指标对衡量AI赋能程度、采用AI的实际ROI、资源浪费程度、合理使用AI的重要性非常高,“并且不仅是采纳率本身,更是要在意定义‘采纳’的逻辑,即‘我因为什么而觉得这个结果有用’。”


“AI产品很容易给工作带来虚假的生产力膨胀,无论是因为大环境的FOMO,还是因为过于放任AI自主执行导致项目失控的沉默成本,有许多的‘采纳’其实是个体为了迎合自己的某种情绪而做的,或是为了‘采纳的结果’而制造出来的问题。做的越多一定会产生更多要解决的问题,不想清楚的话就会在解决这些新问题的‘动作’里麻痹自己。”


当然,采纳率指标本身不能直接代表最终的目标,“单从采纳率这一个角度很容易迎合越来越多的‘生产力似乎提升了’(采纳高),但是人越来越忙且没真正带来什么改变。这时,实际ROI和资源浪费程度等指标就是一些很重要的客观补充视角。”


对于AI产品企业而言,需要更多意识到,采纳率最终会极大影响用户付费意愿。


“我经常对某知名通用型Agent产品有一个评价:如果它的Token价格能便宜10倍,它其实有机会成为团队内部做Web Demo的主流工具。”


“当然这句话还需要加很多前置定语,除了成本太高,它在使用过程中也需要大量试错,采纳率低,而这些消耗其实和最终的交付物并不直接相关,更多是Debug、潜在的网络崩溃等问题。”


“对于很多个人项目而言,它们往往是个人对现有的解决方案有些不满的地方,想要做出一个完美适配自己使用需求的体验。但这些‘不满的地方’往往没有那么疼,价值有限。尤其是假设我们把这种场景从小部分懂技术的极客推向大众的时候(所谓用动态定制App代替传统静态App),Vibe Coding所带来的不确定终点的Token投入(产品往往都没有一个预算估计,可能上百美元)、潜在的时间与情绪投入,很容易就让人放弃个人的小需求,向现有产品妥协。”


另一方面,从模型角度,采纳率取决于模型在上限和下限的突破。宣传上大家一般更强调上限,但保证了下限才能让模型真正成为生产力,这其中的典型是代码生成领域的Claude,图像生成领域的Nano Banana,以及视频生成领域的Seedance 2.0,实际上这几款模型也是用户付费意愿在第一梯队的。


John补充道,“这里需要划分劳务型(Labor Work)产品和信息型(Informative)产品。对于劳务型产品,比如编程类Agent,稳定性和可用性肯定是最基本的决定因素。我不可能为了一个不稳定的产品付费或者时间。”


“对于信息型的产品,比如问答或AI搜索,我是可以接受不稳定但可能会有极限表现的产品的,虽然不一定会付费,但因为不像劳务型产品一个方向只用一款,信息型我永远会用好几个产品来丰富视角和信源。所以我会把这样的产品尽可能加到我的‘信息池’里,不采纳也没关系。”


下文中,知危也将展示从不同企业零星地获得的一些相关数据,这些数据和上述公开数据相去甚远,或偏高或偏低,或者只能定性描述,却也值得注意。毕竟大模型发展太快,一个验证可行的场景真正的核心影响因素也还没被探索明白,以及还有大量未被验证的场景。


在个体体感上来讲,一名字节员工程磊(化名)告诉知危,其用AI写代码的采纳率基本上是100%,即便有些微不足,也会用Agent来修改,“今年年后我已经没有印象自己亲手写过代码了。”


在程磊看来,采纳率本质上依赖模型能力,另外也取决于公司(或员工自己)肯不肯给员工花钱用最新最可靠的模型来完成任务,“我现在用的模型是Claude Opus 4.6+GLM5+Kimi2.5,都是最新的、最贵的,会用在所有写代码场景。当然目前AI的视觉模态还不行,比如无法准确地操作和测试GUI。”而从当前行业更一般的认知看来,采纳率的主要影响因素不只是模型能力本身,还有企业的流程成熟度、信息化基础、管理模式等。


白鲸开源CEO郭炜则配合知危对公司内部员工使用AI编程的采纳率做了初步的调查,其中使用场景分为问答和Agent。


数据显示,对于问答场景,主要使用ChatGPT,调用失败率几乎为零,低复杂场景下AI输出采纳率(只看答案是否带来信息增益)接近100%,中等复杂场景约80%,高复杂场景约60%,其中,三种复杂度场景的任务量占比为1:7:2。



郭炜表示,“问答场景还是简单的,一般是问产品相关问题以及写文章等场景,不要求结果,给我一些提示,我做就行。”


对于Agent场景,主要使用Claude Code,并且会有一定的调用失败率,低复杂场景(比如算法题、日志清洗、爬虫、API封装等)为5%,中等复杂场景(比如用户系统、风控规则、缓存优化等)为10%,高复杂场景(比如分布式数据库、云平台、模型训练等)为20%;低复杂场景下AI输出采纳率(基于接受代码行数)也是接近100%,中等复杂场景约80%,高复杂场景约50%,其中,三种复杂度场景的任务量占比为2:3:5。



“场景越复杂,采纳率越低,一般是因为高复杂场景下AI对需求的理解不够到位。要提升采纳率,相关经验已经很多,例如写好Code Wiki、用好Plan模式等。”


“我们也很重视采纳率这个指标,但重视不是因为钱,因为采纳率低太浪费时间,要用AI写代码,就用全球最好的模型。对我们而言,时间比Token更值钱。”


“我们的Agent执行有较大量的高复杂场景,但要让Agent改代码很难,一般还是人来改。也可以让AI改,但需要掰开了揉碎了给AI讲,这个过程不容易,我们大概有400多万行代码,目前的AI上下文长度还是不太够用。”


至于更通用的Agent,通过一个月的深度使用OpenClaw,游戏制作人王鲸对龙虾在游戏开发的相关任务(比如办公、开发、数据分析、咨询等)的采纳率也有较深的体会。


不过在实际输出结果前,龙虾首先让人头疼的是较严重的执行失败问题。


王鲸表示,“龙虾还是比较经常翻车的,问题有大有小。其中比较严重的是让龙虾去做和网关、基础配置相关的工作,它会信誓旦旦给你保证执行顺利,但其实只是胆子大,实际上经常把自己配死。比如一个简单的增加新模型的操作,切换模型堪比机器人给自己换电池,拆下电池的那一刻它就死了(断网)。在配置文件这块,很多Agent会调用一个文件,但彼此之间如果没有很好调和(或沟通),容易把文件改坏。”


“记忆也存在调用问题,即便是人工强调过,也有可能因为没有调用记忆,然后犯下重复执行的错误。”


当然王鲸也认为,既然要用,就尽量授权都给龙虾,这样才能正常工作,“而且像飞书插件这种授权带时效性的,还需要经常手动检查授权。”


“但为了安全,一定要在虚拟机中使用。我自己使用的是两层虚拟机也就是虚拟机里的虚拟机,来保障安全。龙虾的潜在风险还是很高的,即便不提黑客的问题,它也是拿着刀的猴子,可以砍椰子,但是谁知道什么时候会不小心砍到人。”


“幻觉是必然存在的,当它说自己没有办法‘看’网页的时候,只要告诉它‘你自带一个浏览器’,就能解决很多问题。最后就是记得留各种帮助文档,让龙虾操作之前去读一下。”


虽然使用龙虾的起步有各种阻碍,但工作流跑通以后,采纳率还是挺高的,整体能达到七成。


“为什么采纳率高呢?一般我会把需求说清楚,比如详细说明格式要求,把偏好和原则都记下来,龙虾会记住,发现问题马上指出,龙虾会改进。”


“如果从ROI的角度看,龙虾的高ROI场景主要是办公场景,比如飞书群消息统计/群秘书、周报汇总整理、AI公司团队(创建多个AI员工分工协作)、飞书文档批量处理、日程/任务管理、PM项目管理助手等,能把1-2小时的工作时长压缩到分钟级,强烈推荐落地;中ROI场景主要是开发分析类,比如网页生成、代码片段生成、数据查询分析/透视,可用但有局限;低ROI场景比如复杂工作流编排,出错后处理复杂,维护麻烦,还有浏览器自动操作,只能查看页面,无法真正操作,这些都不推荐落地。


“龙虾最适合的场景有这些特性:文件/数据密集、重复性、本地集成、异步执行(接受分钟级延迟)等,而需要秒级响应、复杂UI操作、调用多个外部API的复杂流程、大量主观判断的场景则不适合龙虾。”



王鲸总结道,“综合来说,我现在把龙虾当做我的AI分身加入了公司,进入项目当PM、秘书以及执行策划,极大节省了我个人的精力。并且在人际关系处理上,因为AI给人的刻板印象就是会得罪人的,所以很多流程化的、不讲人情的公式化要求,可以让AI替自己唱黑脸。”


相对于标准化程度高的开发、办公领域,由于主观性和创意要求高,设计领域的AI输出采纳率特点呈现出极大的不同。


接下来,我们将跟随John的视角,来看看在产品设计领域的不同场景下,AI输出的采纳率的现状和特点,由于在该领域很难像代码一样进行简单快速的采纳率统计,所以这部分大多是主观或者体感上的描述,但我们认为依旧很有价值,值得分享。



首先要清楚一点,要在各种场景把采纳率量化是很难的事情,比如基于代码行数的量化指标肯定不适用于产品设计领域。


John表示,“采纳率不好清晰定义,因为很难将内容颗粒度拆得很细来衡量,毕竟你很难把AI的一个输出一刀切分,说这一部分全部是AI生成的,那一部分完全不是。目前只能定性描述为主。”


要更精确理解工作场景的采纳率情况,可以先以生活场景为参考。AI在生活场景中的应用和搜索引擎没太大区别,目前落地是比较成熟的。


“在生活场景中,AI基本只有一类使用方式,就是信息查询,一般是查询比较简单的事实型信息。”


“比如挑选男性维生素的时候,会提问:应该注意配料表里的哪些成分?但一般不应该直接将AI提供的结果拿来用,而是把它当作一个搜索或了解问题的起点。”


“模型在回答中通常会提到一些关键词,我会先评估这些关键词或者整段描述的可信度,再通过搜索引擎做一次Double Check。在Double Check之后,如果觉得基本是正确的,就会采纳这些信息。”


“总体来说,目前这个场景下幻觉率已经相对比较低,尤其是在非常具体的事实型问题上,采纳率其实是比较高的。”


“这里说的‘采纳’,是指我会把这些信息记在脑子里,比如知道男性维生素在配料上可能需要注意什么,之后在实际购买时,会刻意去注意这些信息。”由于AI反馈有即时性,这就催生了一个很重要的新场景,就是灵感探索,这是传统搜索引擎无法很好支持的。


“如果涉及到一些比较主观的问题,夹杂在工作和生活之间比如创意相关的场景,我对AI的用法是:要的不是输出,而是输入。”


“我会把和AI一来一回对话的过程当成一种‘思考实验’。”


“比如我会先描述一个问题或想法,看它怎么回应,再反复重启这轮对话,不断修改Prompt,逐渐逼近我要表达的东西。前几轮输出的结果哪怕很差,我也能接受。”


“一般平均情况下,可能需要输入10轮才能得到自己想要的结果。之所以会超过10轮,是因为想法一开始是很模糊的,而讨论过程中又会不断产生新的点。有时候我会发现一些自己之前完全没有想到的东西。这是在对话中被激发出来的。但当这些新的点加入之后,又会产生新的模糊之处,所以这个过程会不断延伸。”


“直到我把Prompt修改到一个程度,使得AI的回答足够接近我真正想表达的东西,说明我对这个问题或想法已经想得足够清楚,表达也足够准确。”


“这时我其实也不会去用它给出的答案,只会拿走最后写出来的Prompt,一般来说,这个Prompt会分成两部分:一部分是我想要什么,另一部分是怎么验收它。然后,用画图、原型设计、用户调研等方式来实现我的想法。”


“至于AI给我的那些具体建议,比如AI可能说‘基于我们刚才讨论的内容,你可以这样设计,或者在这个界面上做这样的调整’,这些我基本不看。”


“所以在这种场景下,如果说的是‘结果的采纳率’,那基本是0。不过这种场景在创意工作的使用频率非常高。”


事实查询和灵感探索可以说是AI场景的两个相反的端点,也就呈现出采纳率的极大区别,“总体来说,信息越‘薄’,也就是越简单、越偏事实型的内容,采纳率就会越高;越主观的内容,采纳率就会更低。”


John对AI的采纳相比普通用户是克制很多的,因为在他看来,大语言模型生成的内容本质上只是一种观点,是对很多观点的一种抽象总结,而不是真理,“我从来不会把它当成一种‘真理机’,不会觉得它说出来的东西天然就是对的。对我来说,它更像是一种非常廉价地获取一个视角的方式。”


降低期待其实更有利于提升采纳率,很多AI输出未被采纳,除了技术问题,也经常和使用方式不当或者期待过高有关,“用户对大模型理解越少,反而期待越高。尤其是如果把它当成一种‘真理机’,也就是‘一次提问就能把答案完善地给出来’,就很容易出现极端的情况:要么全部采纳,要么完全不采纳,或者直接觉得它没有什么用。”


“关于使用方式不当,比如在写Prompt的时候,其实很多人自己都没有把问题想清楚,没有经历反复迭代的过程。很多时候他们给出的需求非常抽象,既没想清楚要什么,也没想清楚怎么验收。这种情况下,其实很难判断输出质量,因为连评价标准都没有。”


“写Prompt还是一种挺难的能力,而且是需要花时间的,但很多人不太愿意花这个时间,他们会把这件事当成一个One-Shot的过程。”“即便现在的大模型产品在不断积累用户记忆,也没法让模型很准确地判断用户意图,更何况模型还经常引用不相关的记忆。”


“还有另外一个问题,是记忆本身解决不了的。”


“现在的AI记忆更多是‘事实型记忆’,而不是‘行为型记忆’,最多是在缺少上下文的时候,帮用户补充一点背景信息。但很多用户的问题其实不是缺少背景,而是表达本身。如果用户从一开始就说不清楚自己的需求,那模型就算记住再多也没用。”


“所以,更理想的情况其实是‘行为型记忆’,比如模型能记住这个用户经常会漏掉什么信息,或者表达上有哪些习惯,目前我还不确定哪个模型具备这种能力。如果没有的话,过度依赖历史上下文,反而可能让体验越来越差。”


多去探索AI生成的新玩法其实也能提高采纳率,“这其实就是探索AI产出在一些不同场景的可能性。同样的内容用在不同场合确实可以发挥出不同的价值。比如生成视频用作内容消费的采纳率,和生成视频用作用户调研的采纳率,可能在前者被淘汰的内容可以用在后者场景里。”


“对于近期大火的Seedance 2.0,我也有一个比较感兴趣的场景:比如Figma的交互原型可能都不需要做,只需要准备几张关键画面,然后让视频模型生成一个‘用户在使用这个产品原型’的视频,再把这个演示视频拿给别人看。这样别人看到的是一个动态的演示过程,而不是几张静态图。对于早期测试来说,这种方式其实更容易理解。”


“尤其是在游戏领域,这种方式可能很有价值。比如游戏开发里有一个概念叫‘垂直切片’:开发团队会把核心玩法和一个关键场景做成一个可玩的版本,然后拿这个去做融资或者找发行商。但其实在更早期阶段,很多验证完全可以用视频来完成,甚至不需要真正开发。”


“我印象特别深的一个案例是TikTok上曾经很火的一个游戏概念叫《Bird Game 3》,当时很多短视频都在传播,看起来像一个真实存在的游戏,但后来发现它根本不存在,只是大家基于一个梗想象出来的‘虚构游戏’。很多用户其实是在‘云游戏’,看视频觉得好笑就会转发。这种传播本身就已经验证了这个游戏创意具有传播性。对于现在很多高度依赖传播属性的游戏来说,用视频生成来做这种早期验证,其实是一种非常有效的方法。”


如果要再深入到交付阶段,则涉及界面设计、原型开发等场景。“界面设计过程主要涉及图像素材的生成,采纳率大概是50%,大部分生成的图像是不可用的。”


“至于是否需要做后期修复,很难一概而论。因为这类内容覆盖的范围比较广,比如在设计的不同阶段,插图的需求也不一样,需要修复的程度也不同。举一个比较具体的例子:如果我让它生成一个像素风格的icon,那AI生成的几乎是永远不可用的。因为像素风icon的核心是每一个Pixel都非常清晰、非常规则,而模型生成出来的本质上是渲染的一整幅图,只是‘看起来像’像素风。它的边缘不是真正的像素结构。所以像这种需求,采纳率基本就是0。”“我一般会把AI生成的图拖到Figma或Illustrator里,再自己重画一遍,AI图更多是作为一个参考底板。”


“如果是用作演示内容的配图,大概也是50%的采纳率,比如Placeholder型的插图,只要整体风格大体能接受,其实就可以采纳。”


“如果是在实际生产中,已经把AI整合进一个自动化Workflow,那生成的内容基本都会被采纳。”


“当然,在生产级工作中,主要的界面设计工具还是Figma,而围绕Figma的整个工作流程,目前没有任何一个其它工具能在关键环节上做到生产级别的可用生成,比如设计系统、具体界面的设计等。”


“有些产品会号称可以做设计系统,也可以自动生成界面,能把流程跑通并做到生产级别。但这些产品往往脱离了Figma生态。对我来说,这其实没有意义,因为我最终还是要在Figma里完成很多后续工作。它们最多只能在一种情况下有用:对界面要求不高,或者是让一个完全不懂界面设计的人快速做出一个‘看起来还行’的页面,用来达到一个非常低的基础标准时。”


Figma本身其实也在逐渐加入一些AI或Agent功能,比如“Figma Make”,对此John的期待也不高,“我基本不用。我会用的更多还是一些比较传统的或更接近Machine Learning的功能,比如移除背景、向量化功能等(比如输入一张普通图片,输出一张矢量图,这样原本不能修改的图片就可以修改了)。”


在界面设计以外,有时候John需要把一些想法快速做成原型,比如一个Web Demo,这样在和前端、后端沟通时,可以更清楚地表达视觉、数据关系等需求,“不然仅靠设计师的语言,其实他们很难想象具体是什么样子。”


“如果使用一些通用型Agent或代码类IDE来实现,采纳率是非常高的。”


“毕竟我的要求是只要能演示效果,不太在意它是否能上生产环境,也不太在意代码质量或数据安全问题。这种原型基本就是一次性的APP(Disposable APP)。”“但会根据原型的复杂程度有所区别。有的原型需要尝试很多次,而且迭代结果不是线性的过程,只想微调局部元素却导致整个页面布局完全改变,这种情况其实一直都存在,不管用什么AI产品。当然最终的结果基本都会被采纳,毕竟要求不高。”


还有一个比较特殊的场景,要求会更低一些,就是John的个人项目开发,“很多时候是用部署在纯本地环境的模型,这时不需要考虑数据安全问题。在这种情况下,和原型开发有一定相似性,对可靠性的要求也不高,只要能跑起来就可以。”


“比如我会根据自己家庭的需求做一个记账软件。因为我发现市面上的很多记账软件,其实都不能完全满足我的需求,总是缺一些我需要的功能。”


”而且,这个软件不止我一个人在用,还需要让家庭里的其他人也能用,所以把这个应用部署在了自己家的网络,相当于是在内网部署一个小型业务系统,这种级别的项目基本上可以完全用AI‘Vibe’出来,我只负责提需求。”在界面设计中,AI的视觉理解瓶颈目前还很明显,“任何想把设计往上提升比如加入风格、加入自己对界面的理解的需求,AI其实都做不到。”


“主要问题是调整成本非常高。一种情况是,比如只让它把某个按钮往旁边挪两个Pixel,结果整个页面的布局都会发生变化。”


“另一种情况是表达需求的成本很高。很多设计需求其实很难用语言准确表达,比如希望页面有一些孟菲斯设计风格,大语言模型往往会用一种非常肤浅的方式去理解这种概念。比如它会理解为:孟菲斯风格就是大量鲜艳的颜色,比较突出的几何形状,轮廓明显的图形。然后,它就会把整个界面铺满各种彩色元素,看起来非常幼稚。”


“相比之下,在我脑子里的想象,可能只是一些很细微的调整:某些元素的颜色要更鲜亮一点,颜色选择要更大胆、更跳跃;或者让页面的轮廓线更加明显一些。”


“我目前试过的很多模型,没有一个真的能理解这些东西,而且做界面生成的Token成本通常也比较高。很多时候,如果我把时间花在和模型反复解释这些需求上,还不如自己直接在设计工具里试几种方案,很快就能得到结果。”


“AI对界面的理解,很难做到结构化地拆解再理解再生成,更多是直接给你一个整体性的效果。”


“有一个场景我也一直比较期待:在设计早期,只有一些风格关键词,再加上一个很粗略的结构草图,我希望有一个工具能把这些信息结合起来,模拟出一个可能的界面,这样可以帮助我们在早期确定视觉方向。但目前没有产品能做到这一点。”


“当然,如果你让它生成一个Dashboard,这是结构性非常强、功能性强于美术表达的界面类型,模型其实是可以做出来的。”


“但又会出现另一个问题:它生成的界面往往不遵循你的设计系统。所谓设计系统,其实就是一整套规范。比如界面里的颜色、线条粗细、间距、边框宽度等,通常不会直接用具体数值标注,而是用变量来定义。比如边距可能是1px、2px、4px,或S、M、L这样的等级,圆角也可能是2%、4%、6%等不同级别。”


“如果让生成式工具来做界面,它虽然能生成看起来类似的界面,但实际上用的都是具体数值,而不会调用你定义好的变量。从设计系统的角度来说,它并没有真正遵循你的规范。”


“如果模型不能直接使用我的设计系统,我基本不会去用。原因很简单:后续的调整成本会非常高。”


“比如现在觉得整个页面的矩形圆角太硬了,想把圆角从2 Pixel改成4 Pixel。在设计系统里,只需要改一个变量,整个界面里的相关元素都会一起更新。但如果界面没有使用变量系统,我就必须一个一个去找页面里的矩形,把它们的圆角逐个改掉,这就变成了完全手动的工作。”


“目前我还没有发现一个Figma工作流能解决这个问题。这个问题的技术难度其实未必很高,可能只是没有找到一套合适的工具流或者工具链能够实现它。”



因此,总体而言,以设计场景为典型,其实在除了代码生成以外的大部分场景中,人们都感觉AI的实际采纳率并没有特别高。客观因素比如模型能力有限、记忆类型不完备等自然很重要,主观因素特别是不合理的期待却较少为人注意,如果大模型不是“真理机”而是“观点机”,那它本质是面向未来的,幻觉是基本属性,知识再丰富,也不是可靠的百科全书,执行能力再强,验收环节也必不可少,这一点倒和人类没太大区别。


现实层面看,近几个月SaaS市场被全面看空,在John看来,这更多还是市场对于“SaaS泡沫”的情绪波动,有不少恐慌的成分,有点非理性。


“一方面,人们都觉得AI很有前景,叙事也很庞大,但另一方面,很多人心里都有点虚,不确定它的潜力边界。”


“我之前听过一句话,感觉挺有道理的:如果你现在去问大家,有多少人觉得AI可能存在泡沫,其实有不少人是有这种担心的。但如果回看2000年互联网泡沫的时候,当时其实很多人并不觉得有泡沫。所以换个角度看,如果现在已经有这么多人在担心泡沫,反而说明可能离真正的泡沫阶段还有一点距离。因为这至少说明整体市场还是比较谨慎的。”


在过去几年,问答场景和人类监督的Agent场景下,Token消耗一般不为人过度关注,但在龙虾时代,24小时在线烧Token的龙虾直接点燃了大家的Token焦虑。


王鲸表示,“传统对话式AI一句话消耗一两千Token,现在用龙虾随便一句话就20万Token,就算和其他Agent场景相比也是消耗更大的,比我写代码用的Qwen Coder高了很多倍。”


“究其原因,还是因为Skill装的多,工具调用的多。毕竟长了手,工作范围广,比起纯文本操作,基础消耗自然高了很多。”


“而且现在很多操作不是软件化的、模块化的,而是AI现场思考以后去操作的,类似于每次按按钮都全屏截图识图一次,每一次操作都要思考一次,能效比很差,就像大炮打蚊子。”


用得少怕落后,用得多怕看账单。


从这个节点开始,AI输出的采纳率这个“房间里的大象”,或许会越来越被人们在意。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: