2026-05-29 13:45

多模态Agent 到底能干啥？我用Step3.7 Flash 跑了一遍

叶小钗

本文来自微信公众号：叶小钗，作者：叶小钗，原文标题：《多模态 Agent 到底能干啥？我用 Step 3.7 Flash 跑了一遍》

下面测试一下这个新模型的图片识别能力。这个原图：

可以看出来，基础的图片识别基本没有什么问题。识别完成之后，还可以顺手利用这个能力去制作一个产品介绍页，整个链路会比较自然，也更符合真实使用场景。

产品页搭建

可以看出，它基本是按照提示词的要求来创建这个产品介绍网站的。网站整体的配色风格也和键盘的主题色比较接近，视觉上会更融洽一些。同时它还加上了一些前端动效，让页面的交互感更强，观感也更完整。

Agent长任务

这个是我的任务提示词：

这个任务需要先联网搜索相关数据，下一步再把拿到的数据整理成一份Word报告，之后还要把Word里的内容继续做成可视化页面。这里用到的技能是Knowledge Site Creator Skills，它本身是一个偏知识学习方向的技能，所以很适合承接这类内容型任务。

生成的报告：

从报告里可以看出来，Word内容还是比较全面的，同时也用到了一些数据分析，以及表格、柱状图这类内容展示方式。整体可读性还可以，完成度也不低。

然后再把这个Word继续做可视化处理。

从Agent反馈出来的网站结构里就可以看出来，这个skill其实更适合用来做教育方向的知识网站。当然，拿来做产品介绍也没有什么问题，只是它在知识型内容上的优势会更明显。

使用这个skill生成的页面，会天然带有很多学习型元素，比如卡片学习、知识点回顾等等。这些模块放在知识内容里，会显得很顺手，也更容易形成完整的学习体验。

那么它就很适合拿来做教育类的知识网站。

比如，对历史感兴趣的同学，可以做一个历史相关的知识点复习网站；对AI感兴趣的同学，也可以做一个AI相关知识点的学习网站。这样一来，内容生产和内容展示就能直接衔接起来，效率会高很多。

就比如利用下面这段提示词：

联网搜索，调研Agent调用相关的能力发展和应用，尽量从权威的机构或者信息源进行获取。包括技术博主，行业报告，AI平台资料，官方的技术文档等等。重点梳理Agent从单轮问答到工具的调用，多任务执行，工作流的编排。分析核心能力，应用场景，未来趋势这些。

首先给我一份3000字的word的报告，要求结果清晰，内容完整，语言专业具有易读性。分析上述的这些问题。

然后调用，Knowledge Site Creator Skills，利用这个技能制作一份知识学习网站，网页制作参考技能中的说明，包括首页，Agent调用，发展时间线，核心技术架构等等。

把这段提示词给到Agent，等待几分钟后就会得到下面这种网页：

一个可视化的知识学习网站也就建好了。这个技能就适合做这种知识类的网页。

新模型在实际编程里的效果又怎么样呢？

编程任务

上次做的AI新闻收集网站，其实还只是一个demo状态，里面还有很多BUG，也有不少页面层面的问题。比如页面配色不统一、布局不协调、导航栏UI细节处理不到位等等。然后现在使用新模型对前面的历史遗留问题进行处理。

下面就进行修复。在Claude Code里面，只要用自然语言把需求讲清楚就可以了。比如：把运维面板页面的配色和布局优化一下，参考主首页页面的风格。

局部优化就不过多阐述了，加一个新功能，如果收集到的AI新闻信息本身是一个视频怎么办？

现在需要设计一个视频讲解页面，这个页面应该长什么样子，布局，配色，有哪些UI等等，在团队中这些工作是前端，UI和产品的工作，对于个人开发者来说，这些可能了解比较少，这个时候就可以让AI帮我们先设计一份前端UI的界面。这样前面的页面结构和视觉方向会更清楚一些，也方便后面继续落地。这个是GPT帮我生成一张前端UI页面效果。

提示词：