本文来自微信公众号: 刘言飞语 ,作者:刘飞,原文标题:《豆包 2.1 Pro:属于普通人的代码能力》
这两年我用AI写代码,心态上其实一直有点跌宕起伏。
最开始看到一句话的指挥就可以生成还比较像样的结果,会叫人特别兴奋。Cursor、Claude Code、Codex这些工具出来之后,也在尝试地做一些东西。
不过一段时间后,兴奋感会下降。因为在很多细节的地方,如果不是自己手搓的话,依然会面临想改但无从下手的时刻。尤其是在遇到疑难杂症bug的时候,代码不是自己写的,改起来会非常痛苦。常常是花一两天时间把基础框架都写好了,但是要花两个星期去优化细节和修改bug。
再回头看,当然还是一直有兴奋感的。像我自己也做了两个自己用起来挺开心的APP。
然而我一直觉得,当coding的门槛不断降低之后,它的意义不在于代替程序员写代码,或者让独立开发者成本更低的开发产品,而是对于很多愿意动手的人来说,可以自己通过coding解决很多个性化的问题。
就像是手机刚出现的时候,大家都会觉得只有做生意的人才需要用手机。等到手机足够普及、大家也都在用手机通话和发短信之后,大家又会觉得,只有专业的媒体人才需要用手机创作内容。而很快,大家就都开始发朋友圈、发微博、发小红书了。
写代码这件事也在经历类似的变化。
过去代码是一种职业技能,而现在模型能力以及围绕模型能力搭建的产品体验,可以让代码变成普通人能调用的能力。当我们使用这个模型,做一些轻量的脚本和程序的时候,并不是要把它们正式发布或者上线,而是就是属于自己的一个小工具、小网页。
我今天随手做了几个小玩具,大家可以感受一下。

1
先讲一个比较好玩的:半拿铁歇后语扭蛋机。
这个需求说起来很简单。我想做一个网页扭蛋机,每次点击按钮之后,掉出一个歇后语。歇后语最需要是半拿铁节目里常出现的那些歇后语。
做出来的效果大概是这样的。

第一版出来之后,是一个霓虹赛博风的娃娃机。深紫色背景、粉色机器、霓虹灯边框、金币雨、粒子爆炸,很热闹。不过说实话,还是有点丑的。
所以我让他改了一个版本,整体上更加素雅。
它变成了一个日式ガチャガチャ风格的拟物扭蛋机。背景从深紫霓虹改成米灰色渐变,机器主体是奶白色塑料质感,玻璃球罩里堆着马卡龙色扭蛋,投币口有金属凹槽,旋钮点击时会真实旋转,扭蛋掉到取物口时有弹性回弹。
这个当然也有优化空间,但是比刚才的版本来说,要好看太太太太多了。

这个过程里面,如果只是简单跟它说,好看一点,效果其实并不好,需要详细跟它说怎么改。
所以这就要求,当我们想要做一个东西出来的时候,内心里得有一个大概的「画面」。这件事特别关键。
而AI coding的模型的意义就在于把这些画面实现出来。现在我们不需要再用复杂的方式,还要找设计师和程序员去完成。
2
第二个例子是:智能文件整理工具。
这个需求想必很多朋友都有。
我自己的电脑里总有一个特别混乱的下载文件夹。里面有PDF、截图、录音、视频、压缩包、合同、发票、临时文件、播客素材。理论上可以手动整理,每次手动整理都会非常烦躁,懒得整理。每次系统空间不足了,得花大半天时间去折腾。这个文件夹可以称之为信息沼泽。
当然,只说这个需求的话,大家可能会提到有一些空间整理的软件了。但是这里我可以给出非常个性化的要求,比如像刚刚提到的,对音频的处理、对播客素材的处理,我会给的更细。肯定不会有人做专门给播客主播的整理软件的。
每个人的文件夹混乱方式不同,每个人的整理规则也不同。
它不只是看后缀名,而是读取文件头16字节做Magic Bytes检测,用来识别JPG、PNG、GIF、ZIP、RAR、7Z、PDF等真实文件类型;再结合浏览器File API的MIME类型,判断audio、video、image、application这些大类;然后再根据后缀名、文件名关键词、所在路径、文档内容前4KB做进一步判断。
分类上,它做了一个加权评分机制。比如文件名里有“合同”“协议”“甲方”“乙方”,就提高商务合同分类的分数;内容里出现“增值税”“发票”“报销”,就提高发票票据分类的分数;路径在“下载”“临时”“缓存”里,就提高临时下载的分数;超过100MB的大文件,又会进入可删除大文件的判断。
页面上,它不是给一个简单列表,而是做了统计面板、分类图表、筛选标签、搜索框、排序功能、文件预览和报告导出。点击某个文件,可以看到大小、类型、修改时间、分类标签,以及分类匹配分数。图片还能直接预览。所有分析都在浏览器网页里本地进行,不需要把文件上传到服务器,这一点也很重要。



像截图里这些功能,都不是根据我给出对非常详细的页面设计要求而做出来的,而是在我表达的要求相对清晰的情况下,它自动理解识别并且设计出来的。
并且,这里面的每个模块我都可以针对性的再做调整。
顺便说一句,这个动画效果还挺解压的。

3
接下来我做了一个简单的互动纪录片式的网页demo,用来呈现诺基亚从崛起到衰落的过程。
是一个横向滚动的长页面。时间从1992年到2016年,每个阶段要有关键产品、市场份额、人物、战略决策。重大节点,比如iPhone发布、Symbian衰落、Elop的「燃烧的平台」、微软收购,都要有强视觉反馈。

可以快速生成这样一个网页,不管是自己学习了解,还是用来教学和分享,都远比简单的思维导图有效果得多。
长远看,在表达呈现上的方式都可以变得更加多样,不管是个人网站,还是某个主题的宣传页面,都有更多可能性了。
接下来我尝试了一下,做一个动态播客播放页面。
我给的提示词是这样的:
我想做一个HTML、CSS、JavaScript的播客动态封面demo。用户上传mp3或wav,播放后页面根据音量生成动态波形、粒子和背景节奏。中间保留节目标题和封面区域。画面要像高级播客App的动态封面,不要像普通音乐播放器。还要支持播放、暂停、进度条、音量变化实时响应。
第一版是紫粉渐变的深色主题。它用了三层Canvas:背景光球、粒子网络、封面底部波形。音频处理用Web Audio API做频谱分析,也实现了播放、暂停、进度条、音量滑块、键盘快捷键和触控操作。功能上,它已经比较完整。还是挺超预期的。

不过还是觉得这个霓虹的效果没有那么理想,所以做了一些调整。
反馈说要Apple的设计风格,拟物的效果。就变成了这样的,一下就觉得舒服多了。有一些细节还需要调,不过就两次操作得到这样的一个网页程序,已经非常超预期了。

4
前面说的这些主要以炫技或者测验为主,接下来做的这个是对我来说非常重要的生产力:半拿铁·周刊选题系统。
这是我跟搭档肖磊在做的周更(有概率)节目。为了做这个节目,就需要经常找各种各样的新闻。以前主要靠人肉,重复又耗时。
提示词的一部分是这样的:
我想做一个选题准备系统。它要维护一批媒体来源,自动抓取最近一到两周的新闻,做历史去重,清洗掉低质量内容,再把同一事件的多篇报道聚合起来,最后按照半拿铁的选题标准输出10条推荐选题和30条备选选题。还要生成Markdown报告、全量新闻索引和机器可读JSON。
这个任务的确就复杂多了,这不是一个单文件页面,而是一套脚本和流程。需要sources配置、RSS抓取,还有RSSHub路由,还需要历史ID持久化,也要时间范围过滤。后面的步骤得做标题和摘要清洗、聚类、评分、报告生成。对于新闻的要求,也需要通过了解半拿铁·周刊的选题规则,才能更好地筛选和评分。
第一,抓取层负责从36氪、虎嗅、钛媒体、爱范儿、量子位、界面、IT之家、少数派,以及RSSHub里的知乎热榜、财新、中国新闻周刊、南方周末、澎湃等来源获取内容。
第二,处理层负责过滤标题过短、纯行情、普通融资财报、软文、低信息量快讯、猎奇新闻、海外无中国连接的内容。
第三,聚类层负责把同一事件合并成一个选题。
第四,评分层则根据历史背景、商业机制、人物冲突、日常生活关联、长期变化代表性、证据丰富度、新鲜度这些维度进行排序。
产出的结果是这多个文件。


给出的选题报告大概是这样的。

我看了一下,可用性还是不错的。这30个聚合的主题里面,我能找到至少5个是可以做半拿铁·周刊的选题的。
另外,我去查了它的任务细节,发现有很多地方都用非常巧妙的方法解决了问题。比如我的要求是同样主题的新闻需要聚合在一块,而用简单的BFS连通分量会出现链式错误。大量的副词重叠,会让不相关的内容聚合在一块。
所以它就改用了更保守的单遍聚类算法。每篇文章与现有簇比较,要求与簇内最近几篇共享足够的核心关键词,TF-IDF也更多基于标题计算,同时扩大停用词表,把“中国”“美国”“公司”“市场”这类特别常见的泛词去掉。
所以还是前面说的,AI Coding的意义并不只在于做出一个产品上线。
像我这样的一个做内容的创作者,在选题方面就可以不断迭代自己最趁手的个人工具,可以不断迭代优化。现在我的选题花费的时间成本是之前的1/10。
这个过程当中,对于大家来说,只需要把需求表达清楚,不需要有多么深厚的产品经理功底。
5
这就是我说的基础体验门槛。
我们现在讨论模型,经常喜欢讨论上限,以及上限可能带来的未来远景。而对于很多普通用户来说,模型的下限更加重要。一个模型如果偶尔特别惊艳,可以用来作为噱头,但用起来大部分场景下无法解决问题,那也是没有意义的。
计算机的发展,一直是在把原本属于专业人士、小圈子发烧友的能力,慢慢扩展到普通人手里。
早期电脑需要懂命令行,后来图形界面让普通人能用电脑。早期做海报需要设计师,后来Canva、Photoshop、美图秀秀、各种模板工具让普通人也能做图。早期剪视频需要专业软件和学习成本,后来剪映这类工具让大量普通人开始做短视频。早期建网站需要程序员,后来博客、微博、公众号、小红书、播客,让普通人也有自己的内容创作平台。
代码看起来也是离普通人距离很远的,但现在有很大的变化了。就像手机摄影,不需要理解CMOS、镜头结构、色彩科学、编码格式,也能凭感觉拍出一张还不错的照片了。大家会跟胡彦斌一样,作为外行,顺手就能做出一些基础的工具。
之前我大概表达过一个感受,未来Coding会变成很多人的日常。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。