扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
本文实测Step 3.7 Flash,测试其多模态、长任务、编程等核心能力,验证多模态Agent在内容生产与开发场景的实用价值。 ## 1. 基础图片识别+产品介绍页生成 测试Step 3.7 Flash的基础图片识别能力,验证其可完成准确识别。识别图片后可直接依据提示生成配色匹配原图、带有前端动效的产品介绍页,流程符合真实使用场景。 ## 2. 基于联网能力的长任务处理 借助Knowledge Site Creator Skills,可完成「联网搜素数据→生成3000字Word报告→制作可视化知识网站」的完整长任务。该技能自带学习型模块,更适配教育类知识网站搭建,能直接衔接内容生产与展示,大幅提升效率,生成的报告内容全面,支持数据分析与图表展示,可读性较好。 ## 3. 编程开发辅助测试 Step 3.7 Flash可依托自然语言需求,修复旧项目BUG、优化页面配色布局。针对个人开发者,可完成新功能的UI设计与核心代码开发,短时间就能搭建好核心功能,适合项目快速验证。
2026-05-29 13:45

多模态Agent 到底能干啥?我用Step3.7 Flash 跑了一遍

本文来自微信公众号: 叶小钗 ,作者:叶小钗,原文标题:《多模态 Agent 到底能干啥?我用 Step 3.7 Flash 跑了一遍》


下面测试一下这个新模型的图片识别能力。这个原图:




可以看出来,基础的图片识别基本没有什么问题。识别完成之后,还可以顺手利用这个能力去制作一个产品介绍页,整个链路会比较自然,也更符合真实使用场景。


产品页搭建




可以看出,它基本是按照提示词的要求来创建这个产品介绍网站的。网站整体的配色风格也和键盘的主题色比较接近,视觉上会更融洽一些。同时它还加上了一些前端动效,让页面的交互感更强,观感也更完整。


Agent长任务


这个是我的任务提示词:



这个任务需要先联网搜索相关数据,下一步再把拿到的数据整理成一份Word报告,之后还要把Word里的内容继续做成可视化页面。这里用到的技能是Knowledge Site Creator Skills,它本身是一个偏知识学习方向的技能,所以很适合承接这类内容型任务。


生成的报告:





从报告里可以看出来,Word内容还是比较全面的,同时也用到了一些数据分析,以及表格、柱状图这类内容展示方式。整体可读性还可以,完成度也不低。


然后再把这个Word继续做可视化处理。



从Agent反馈出来的网站结构里就可以看出来,这个skill其实更适合用来做教育方向的知识网站。当然,拿来做产品介绍也没有什么问题,只是它在知识型内容上的优势会更明显。




使用这个skill生成的页面,会天然带有很多学习型元素,比如卡片学习、知识点回顾等等。这些模块放在知识内容里,会显得很顺手,也更容易形成完整的学习体验。


那么它就很适合拿来做教育类的知识网站。


比如,对历史感兴趣的同学,可以做一个历史相关的知识点复习网站;对AI感兴趣的同学,也可以做一个AI相关知识点的学习网站。这样一来,内容生产和内容展示就能直接衔接起来,效率会高很多。


就比如利用下面这段提示词:


联网搜索,调研Agent调用相关的能力发展和应用,尽量从权威的机构或者信息源进行获取。包括技术博主,行业报告,AI平台资料,官方的技术文档等等。重点梳理Agent从单轮问答到工具的调用,多任务执行,工作流的编排。分析核心能力,应用场景,未来趋势这些。


首先给我一份3000字的word的报告,要求结果清晰,内容完整,语言专业具有易读性。分析上述的这些问题。


然后调用,Knowledge Site Creator Skills,利用这个技能制作一份知识学习网站,网页制作参考技能中的说明,包括首页,Agent调用,发展时间线,核心技术架构等等。


把这段提示词给到Agent,等待几分钟后就会得到下面这种网页:



一个可视化的知识学习网站也就建好了。这个技能就适合做这种知识类的网页。



新模型在实际编程里的效果又怎么样呢?


编程任务


上次做的AI新闻收集网站,其实还只是一个demo状态,里面还有很多BUG,也有不少页面层面的问题。比如页面配色不统一、布局不协调、导航栏UI细节处理不到位等等。然后现在使用新模型对前面的历史遗留问题进行处理。




下面就进行修复。在Claude Code里面,只要用自然语言把需求讲清楚就可以了。比如:把运维面板页面的配色和布局优化一下,参考主首页页面的风格。



局部优化就不过多阐述了,加一个新功能,如果收集到的AI新闻信息本身是一个视频怎么办?



现在需要设计一个视频讲解页面,这个页面应该长什么样子,布局,配色,有哪些UI等等,在团队中这些工作是前端,UI和产品的工作,对于个人开发者来说,这些可能了解比较少,这个时候就可以让AI帮我们先设计一份前端UI的界面。这样前面的页面结构和视觉方向会更清楚一些,也方便后面继续落地。这个是GPT帮我生成一张前端UI页面效果。


提示词:


做一个页面做视频讲解的页面,需要有视频的预览窗口,点击视频分析后右边弹出窗口进行视频讲解的输出,根据网页的美观化设计,帮我设计一个这样的页面图



制定任务,对于项目加一个新的功能,需要模型对项目结构的理解,上下文的概况:




新功能的后端接口也在Controller这个文件进行创建,做到了项目文件一致性。




虽然它和参考图相比,在风格取向上有所差异,但基本功能已经完成得差不多了,后面剩下的更多就是细节优化和页面打磨。能在这么短时间里先把核心内容搭起来,已经很适合拿来做快速验证了。



结尾

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: