扫码打开虎嗅APP
本文来自微信公众号: 叶小钗 ,作者:叶小钗,原文标题:《多模态 Agent 到底能干啥?我用 Step 3.7 Flash 跑了一遍》
下面测试一下这个新模型的图片识别能力。这个原图:


可以看出来,基础的图片识别基本没有什么问题。识别完成之后,还可以顺手利用这个能力去制作一个产品介绍页,整个链路会比较自然,也更符合真实使用场景。


可以看出,它基本是按照提示词的要求来创建这个产品介绍网站的。网站整体的配色风格也和键盘的主题色比较接近,视觉上会更融洽一些。同时它还加上了一些前端动效,让页面的交互感更强,观感也更完整。
这个是我的任务提示词:

这个任务需要先联网搜索相关数据,下一步再把拿到的数据整理成一份Word报告,之后还要把Word里的内容继续做成可视化页面。这里用到的技能是Knowledge Site Creator Skills,它本身是一个偏知识学习方向的技能,所以很适合承接这类内容型任务。
生成的报告:



从报告里可以看出来,Word内容还是比较全面的,同时也用到了一些数据分析,以及表格、柱状图这类内容展示方式。整体可读性还可以,完成度也不低。
然后再把这个Word继续做可视化处理。

从Agent反馈出来的网站结构里就可以看出来,这个skill其实更适合用来做教育方向的知识网站。当然,拿来做产品介绍也没有什么问题,只是它在知识型内容上的优势会更明显。


使用这个skill生成的页面,会天然带有很多学习型元素,比如卡片学习、知识点回顾等等。这些模块放在知识内容里,会显得很顺手,也更容易形成完整的学习体验。
那么它就很适合拿来做教育类的知识网站。
比如,对历史感兴趣的同学,可以做一个历史相关的知识点复习网站;对AI感兴趣的同学,也可以做一个AI相关知识点的学习网站。这样一来,内容生产和内容展示就能直接衔接起来,效率会高很多。
就比如利用下面这段提示词:
联网搜索,调研Agent调用相关的能力发展和应用,尽量从权威的机构或者信息源进行获取。包括技术博主,行业报告,AI平台资料,官方的技术文档等等。重点梳理Agent从单轮问答到工具的调用,多任务执行,工作流的编排。分析核心能力,应用场景,未来趋势这些。
首先给我一份3000字的word的报告,要求结果清晰,内容完整,语言专业具有易读性。分析上述的这些问题。
然后调用,Knowledge Site Creator Skills,利用这个技能制作一份知识学习网站,网页制作参考技能中的说明,包括首页,Agent调用,发展时间线,核心技术架构等等。
把这段提示词给到Agent,等待几分钟后就会得到下面这种网页:

一个可视化的知识学习网站也就建好了。这个技能就适合做这种知识类的网页。

新模型在实际编程里的效果又怎么样呢?
上次做的AI新闻收集网站,其实还只是一个demo状态,里面还有很多BUG,也有不少页面层面的问题。比如页面配色不统一、布局不协调、导航栏UI细节处理不到位等等。然后现在使用新模型对前面的历史遗留问题进行处理。


下面就进行修复。在Claude Code里面,只要用自然语言把需求讲清楚就可以了。比如:把运维面板页面的配色和布局优化一下,参考主首页页面的风格。

局部优化就不过多阐述了,加一个新功能,如果收集到的AI新闻信息本身是一个视频怎么办?

现在需要设计一个视频讲解页面,这个页面应该长什么样子,布局,配色,有哪些UI等等,在团队中这些工作是前端,UI和产品的工作,对于个人开发者来说,这些可能了解比较少,这个时候就可以让AI帮我们先设计一份前端UI的界面。这样前面的页面结构和视觉方向会更清楚一些,也方便后面继续落地。这个是GPT帮我生成一张前端UI页面效果。
提示词:
做一个页面做视频讲解的页面,需要有视频的预览窗口,点击视频分析后右边弹出窗口进行视频讲解的输出,根据网页的美观化设计,帮我设计一个这样的页面图


制定任务,对于项目加一个新的功能,需要模型对项目结构的理解,上下文的概况:


新功能的后端接口也在Controller这个文件进行创建,做到了项目文件一致性。


虽然它和参考图相比,在风格取向上有所差异,但基本功能已经完成得差不多了,后面剩下的更多就是细节优化和页面打磨。能在这么短时间里先把核心内容搭起来,已经很适合拿来做快速验证了。
