扫码打开虎嗅APP
出品|虎嗅科技组
作者|陈伊凡
编辑|苗正卿
头图|AI生成
“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「54」篇文章。
“创业只能挣到自己认知范围内的钱,认知范围外是一个巨大的陷阱,把我们这帮青蛙陷在井里。”
梅涛用这句话来描述创业公司面临的挑战和作为视频模型生成公司智象未来创始人兼CEO的焦虑,不是技术不够强,也不是钱不够多,是认知边界。如何跳出这口井?梅涛的办法是:自身迭代、团队的碰撞,朋友圈的刺激。
近日,全球知名独立第三方AI模型评测平台Artificial Analysis的文生图榜单(Text to Image Leaderboard)更新,HiDream-O1-Image 开源版本跻身文生图(Text to Image)模型榜单前列,并位列开源模型第一。Artificial Analysis是目前全球公认最具权威性和参考价值的独立 AI 基准测评机构之一,在业界常被誉为“AI 领域的 Gartner”。

Artificial Analysis的文生图榜单
走进智象未来合肥的办公室,首先映入眼帘的是一面员工照片墙。所有头像,都是AIGC生成的动漫风格。这家公司的核心业务是图像和视频生成——AI时代的自己,是他们在智象未来的第一课。

智象未来合肥办公室门口的照片墙 图片由智象未来提供
梅涛的会客厅,满墙合影。这是梅涛的朋友圈,也是全球人工智能行业的半壁江山。随便指向哪一张,梅涛都能说出来龙去脉——哪年在哪里,当时聊了什么,那个人后来去了哪里。微软的同事,京东的伙伴,投资人,行业里来来往往的导师、朋友和合作伙伴……照片背后的故事,他细数家珍。

梅涛在世界人工智能大会上发言 图片由智象未来提供
智象未来成立四年,从图像、视频生成到原生全模态世界模型,从工具到co-creator,从DIT架构迭代到UiT架构,每一次转向都是对原有认知的突破。(虎嗅注:以 Sora 为代表的 DiT架构,它将图像或视频拆解为大量细小单元,并统一推演它们之间的关系,因此能够生成细节丰富、视觉冲击力强的结果。UiT思路则是将文本 Token、视觉信息和控制条件纳入同一个模型空间,由统一 Transformer 直接完成对齐、理解与生成。简言之,UiT能让理解与生成更统一。)
智象未来这次的就是用UiT架构,将8B参数的模型打出了超出56B模型的效果。
对于普通用户来说,直接感受到的结果就是:模型更能理解用户想要什么,生成效果更稳定,复杂修改也更容易一次完成。
我们聊天的时点,恰逢视频生成模型赛道加速升温的时间节点和拐点。年初,Seedance2.0把AI视频生成从“能用”推向“可控且可规模化”。近日,快手计划分拆旗下视频生成大模型业务可灵 AI,并以约 200 亿美元估值寻求融资。商业化、资本化与模型能力同步提速,意味着视频生成正成为生成式 AI 的核心战场。
与此同时,初创公司也出现了分化,除了智象未来,还有爱诗科技、生数科技这样的头部公司,资本和用户都在涌入,格局也在固化。
在这场竞争中,智象未来不是融资最多的,也不是体量最大的。东方富海合伙人王兵选择智象未来,看中的是这家公司强大且稳定的底层技术班底。梅涛本身,就是视频生成的开创者,2017年,梅涛是全球第一篇文生视频论文的作者。智象未来这么多年,该论文的核心研究者都没有离职,极其稳定。“最终能融到持续多资金的公司,一定是人才密度最高的公司,这是所有行业通律。”王兵说。
与此同时,另一个重要的赛道正在向视频模型公司打开——具身智能世界模型,新的钱也开始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3亿美金种子轮,估值35亿美元;李飞飞的World Labs在2026年2月完成了10亿美元融资,估值飙升至50亿美元。2026年年初至今,已经有超过13亿美元流向世界模型赛道。
当越来越多公司开始说世界模型时,我问梅涛,智象未来提出这个概念,是为了讲故事吗?梅涛说不是,早在 2022 年,他已经带着团队在京东亚洲一号物流仓里研究如何让机器人如何稳态运营识别海量的包裹分拣,创业之初也在具身智能和视觉生成两个方向之间深度思考过,最终选择了视觉生成赛道,而2024年,智象未来内部已经在讨论世界模型,“做视频生成模型的这波人,是最有可能把世界模型做成。”
智象未来CTO姚霆说,智象的核心逻辑是做视觉创作,核心是解决创作本身的问题。这也是智象决定开展不同业务的底层逻辑。不管是面向影视、营销行业做创作,还是给机器人做相关内容创作,都属于创作。在服务不同行业的过程中,会沉淀对应的行业know-how,将其转化为相关功能,未来随着智能体发展,还可以沉淀为具备行业属性的skill。
虎嗅交流了智象未来的创始人兼CEO梅涛、CTO姚霆、东方富海合伙人王兵以及诺亦腾创始人戴若犁,试图还原在新技术浪潮到来之时,一家以创作为主线的初创公司如何建构新的世界。
在一场智象未来的内部讨论会上,梅涛他们在白板上用不同颜色的笔写了团队对于世界模型的理解,其中特别用红色的笔写下“mold the world”——建模这个世界的同时,构建世界。
在梅涛的思考中,世界模型需要三个要素:第一,能够学会各种模态的表达,能够对整个世界进行建模;第二,能够结合物理规律和因果关系进行推理,“Reason the world”;第三,能够把物理世界按照想象重建出来,也就是“mold the world”。
如今,对于世界模型的定义有三类,第一类路线是以李飞飞的World Labs为代表,核心理念是指一种空间智能,他们认为世界模型应该构建一个持久的、三维的、可交互的实体空间;第二类路线是Yann LeCun为代表,认为世界模型是智能体内部的一个模块,用于在抽象层面预测后果;第三类路线就是以DeepMind为代表的"视频即世界",将视频生成作为世界模型的表现形式。
在王兵看来,到 2026 年行业对世界模型的理解逐步形成共识:无论是做 VLA 还是世界模型,核心都是底层基模能力。世界模型本质上要训练出一个能够理解并预测物理世界的大模型,不具备大模型训练能力的公司,很难真正做好这件事。拥有视频模型训练能力的公司,已经具备世界模型训练基础。从文艺创作类视频模型拓展具身智能相关的世界模型,本质上是把训练数据换成符合物理规律、面向具体场景的具身数据,训练方法和工程能力是一脉相承的。真正的关键,是场景数据的选择、规模和标注质量。
也因此,具身智能成了智象未来进入世界模型的切口。
作为机器人数据公司诺亦腾的创始人,戴若犁思考世界模型相关的合作和布局已经半年多。他很清楚,诺亦腾内部虽然有擅长世界模型训练等团队,但训练多模态基础模型耗时至少两个月到三个月,成本千万级,重复研发属于资源浪费,因此和视频模型公司合作,是效率更高的做法。戴若犁说,视频生成模型和具身智能的核心能力是同一个,那就是预测。
戴若犁举个了例子, 假设你要训练一个机器人抓取桌上的杯子。传统的做法是,给机器人大量的抓取数据让它学会"看到杯子——伸手——抓住"这个动作序列。但这种方法的问题是,如果杯子的形状、位置、材质发生变化,机器人就不知道怎么办了。
但如果用视频生成模型的思路,机器人会先预测:如果这样伸手,杯子会怎么动?如果我用这个力度抓,杯子会不会碎?它会在脑子里模拟一遍整个过程,然后选择最优的行动方案。这种能力,就是视频生成的世界模型带来的。
诺亦腾的需求很清晰:把动捕数据里的视觉缺陷修掉。操作者戴着动捕手套,手套遮住了手部,给后续训练留下一个视觉盲点;测试场景太单一,缺乏多样性。
戴若犁考察了国内合适的合作方,最终敲定和智象未来的合作,除了发现智象未来也有向具身智能布局的规划,“手快”也是这场合作达成的关键原因。提出需求之后,智象未来就开展 POC 验证,很快得到积极结论。
智象未来CTO姚霆负责了这场合作,他说之所以“手快”,其实是两个原因,一是模型能力已经到了成熟阶段,接到数据后很快完成生成,初始精度就达标。二是智象之前做过大量视觉理解任务,这类数据生产工作流要生成能力和理解类算法同时到位。
这个合作在2025年初开始落地。智象未来用诺亦腾提供的动作捕捉数据,训练了一个具身智能的原型模型。这个模型能够完成抓取、放置、推动、旋转等基础动作,并且在执行任务时,会自动考虑物理约束。更重要的是,这个模型的泛化能力很强。用杯子训练的模型,能够直接迁移到抓取其他物体上。这种泛化能力,正是世界模型的核心价值。
智象未来想成为一家什么样的公司?梅涛的类比是视频领域的Anthropic。这个类比的标准是基于ToB的企业服务,这也是智象未来的商业模式。这家后起于OpenAI的公司,突破了1.2万亿的估值。
梅涛把大模型赛道分为三层。第一层是大型互联网公司,有流量入口、C端用户,像Google、字节。第二层是做基础模型的公司,例如OpenAI的Sora。第三层是做各种agent和垂类应用的公司,像Cursor这样的。
智象未来的定位在第二层和第三层之间——既做模型又做应用,模型和应用双轮驱动。但梅涛很清楚,他们的模型一定不是要做非常通用的模型跟大厂竞争,而是基于自己的场景来优化,做有特色的模型。
“大模型的能力有点像海平面,一直在往上涨,很多公司就被淹没了。”
梅涛用这个比喻来描述AI行业的变化,那么没被淹没的是什么?要么是足够高的山,要么是随水而涨的船。智象未来的定位是两者都做:图片和视频模型是一座高山峰,三个场景的Agent 是三艘船:一个是跨境电商的短视频营销,另一个是影视制作,还有一个面向专业级C端用户的场景,社媒内容创作。三种场景,ToB是核心。
“在AI的商业模式里,最长久、最健康的应该一定是企业服务。”梅涛说,原因很简单:企业客户的复购率极高,随着产品深度的增加,客单价可以不断提升,其商业天花板远超C端。
至于C端,纯工具性的C端产品,用户新鲜感一过,留存率极低,且Token消耗巨大,价格昂贵。如果无法让C端用户大量付费,这种模式无法形成完整的商业闭环。
什么时候数据飞轮开始转起来?梅涛说,第一个是跨境电商短视频营销。智象未来有一个 agent 专门分析电商平台上的爆款视频,把它拆解、重构成想要的视频生成模板,然后复刻这个模板提供给跨境电商平台商家使用,每天更新。生成视频之后,根据用户的观看量反馈去决定是复刻还是放弃。这个完整链路今天已经跑起来——一天能支持商家产出做将近50条短视频广告。

智象未来生成的广告图 图片由智象未来提供
第二个是专业级C 端的创作工具。在不同国家流行不同的模版——在巴西做球星相关短视频,在印度做舞蹈动作控制模板。如果不通过用户反馈,根本不知道这个国家的喜好。现在智象未来面向专业级C 端的APP 每个月有超过千万的新增下载量。
第二种模式叫做RaaS(Results as a Service,按结果付费服务),则展现了AI颠覆传统商业模式的巨大潜力。梅涛说,所谓RaaS,就是他们在给客户提供AI生成服务的同时,直接为客户的商业结果负责,客户愿意按最终的转化结果来付费、甚至是返佣。
这件事听起来简单,但智象未来跑了有一年半的时间。“直到2024年的七八月份,我们才真正感觉自己活下来。”梅涛回忆,在最初的一年多里,公司内部也在摇摆,最初他们试图将AI能力打包成标准的SaaS软件卖给企业客户,但很快发现,当时的视频生成工具使用门槛依然很高,不同悟性的使用者,用同样的软件生成出来的效果天差地别,“既然效果无法标准化,你就很难给这个软件制定一个公允的价格,客户也不愿意买单。”
转折点在2024年夏天悄然降临。借着Sora发布后的市场东风,他们在当年5月底推出了一款类似架构的商业化产品。这款产品上线当月便斩获了两三百万的月活跃用户。如今,其付费用户的留存率已稳定在50%以上。
2025年年底,随着应用的爆发,多模态的token消耗量极大,加之Seedance的发布,视频模型领域迎来了类似GPT3.5的智能涌现时刻,梅涛发现公司的估值也出现了明显的增长。
智象未来的Agent战略,本质上是在为两个世界搭建桥梁:一个是人类创作者的世界,一个是智能体的世界。在人类创作者的世界里,Agent是co-creator,是帮助人类更好地表达创意的伙伴;在智能体的世界里,Agent是能力提供者,是让机器人理解和生成视觉内容的基础设施。
作为智象未来的CTO,姚霆最近思考最多的事情就是智能体,如何通过智能体放大智象未来的能力?如何为智能体设计交互?
2026年初,OpenClaw出现,这个被称为"龙虾"的智能体,定义了一个新概念——co-worker(共同工作伙伴)。 “但我们要在此基础上升级成co-creator(共同创作者)。”姚霆说。
姚霆对Agent的理解,来自一个更底层的架构思考。他用一个公式描述了未来智能化应用的范式,未来所有的智能化APP等于Harness(在AI 智能体的世界里,它就是那个让智能体既能够发挥能力,又不会失控的"安全脚手架")乘以一些skills,底层就是OS。
比如在影视创作场景中,一个“分镜生成”的skill,不仅要能根据剧本生成画面,还要理解镜头语言、叙事节奏、情绪表达,甚至要知道不同类型的作品(短剧、广告、纪录片)对分镜的要求有什么差异。这种深度的行业理解,不是调用几个API就能实现的。
这也是为什么智象未来要自己承接影视作品、自己做短剧、自己服务营销客户,是为了在真实场景中沉淀出不可复制的能力。姚霆说,未来的skill会像互联网时代的网页一样多,会有大量的工作需要做——评估、筛选、推荐、组合。姚霆把这些能力分成四层。
第一层是基础模型能力,以API的形式提供给开发者,这是智象未来的底座,也是和大厂竞争的基础。但这一层的竞争会越来越激烈,价格会越来越低,利润会越来越薄。
第二层是标准化的skill,比如"文生视频"、"图生视频"、"视频延长",这些是通用的功能模块,可以被集成到各种应用中。这一层的价值在于稳定性和易用性,但差异化空间有限。
第三层是行业定制的skill,比如"短剧分镜生成"、"产品广告视频制作"、"纪录片素材生成"。
第四层是完整的工作流,比如"从剧本到成片的短剧生产线"、"从产品图到投放视频的营销自动化",这些工作流串联了多个skill,形成了端到端的解决方案。这些skill深度融合了行业know-how,是智象未来真正的护城河。
“我们和大厂做通用基础设施的路线形成明显的差异化竞争优势。”姚霆说,这个差异化,就体现在第三层和第四层——那些深度绑定行业、不可轻易复制的高价值能力。
另一个让姚霆更关注的事情就是交互,这能够决定产品是否能够吸引足够多的用户。"是用命令行、图形界面,还是聊天加画布的形式,甚至是多模态的联动交互。"姚霆说,只要在交互这一个点上实现突破,就能吸引很多用户。
姚霆和梅涛对视频模型领域的“Aha moment”有一个共同的判断:用户提供一个剧本,系统就能直接生成符合需求的长视频故事。至于现在,这个“Aha moment”还没有到。
以下为虎嗅整理的部分访谈摘要:
虎嗅:你们做跨境营销、影视、具身智能……一直在做加法,有没有做过减法?
梅涛:也做了减法。我们一开始想做游戏,后来发现游戏这个生意比较难做。大游戏公司想自己建体系;小游戏公司成本要求严格,而且很难把数据放到体外,只能私有化部署,很难规模化,所以果断放一放。
还有一个惨痛的经验教训——我们做了线下打印店的素材管理,后来发现打印店本身就是夕阳产业,这些人自己也不确定将来是否还会在这个行业做下去,学习速度也慢。所以我们确实踩了一些坑。
经过第四年的探索,基本形成了可以规模化的三个 ToB 模式:第一是线上线下商业体的短视频营销和服务,软硬件一体;第二是短剧多人协作平台;第三是给全球用户做的媒体创作工具和平台。在一段时间内,我们会在这三个方向上不断深耕。
虎嗅:现在视频模型领域还是以Scaling Law为主,对于资源有限的创业公司,要怎么堆资源和大厂竞争,是靠不断融资吗?
姚霆:融资肯定是需要的,但创业公司的融资体量和大厂相比依然有很大差距,要和大厂竞争主要要做好三点:第一是认知要快,对模型架构、下一代模型的技术走向和选型判断要精准,认知比大厂超前半个身位甚至3个月就有很大机会;第二是落地速度快,确定方向后能快速迭代出模型,同步推进产品化和商业化,形成产品或者用户壁垒;第三是组织架构调整快,创业公司相比大厂的优势就是灵活性高,组织架构扁平、转身快才能应对各类产品变化,发挥自身优势。
虎嗅:如果有一天智象失败了,你觉得可能是什么原因?
梅涛:可能是认知停止迭代了。当然这件事我觉得也不太可能发生,因为每天都在大量接触新的东西。
虎嗅:怎么定义“认知”?
梅涛:认知包括对技术的认知、对商业化的认知、对竞争态势的认知,这包含了各个方面。今天的创业对创始人要求很高,你要懂技术,有技术路线的判断力和前瞻性,还要有商业化的认知、团队健康度的认知、资本化的认知,基本上要求你是一个六边形的战士,不能有短板。
虎嗅:那你现在每天最焦虑的是什么?是融钱的问题吗?
梅涛:不是钱的问题,也不是人的问题,而是认知的问题。我最担心的一点,是我自己的认知迭代不够快,赶不上行业的迭代速度;以及团队核心的那些人,认知迭代不够快,甚至不如我快——那就有问题了。创业,你只能挣到自己认知范围之内的钱,认知范围之外是一个巨大的陷阱,把我们这帮青蛙陷在井里。我希望大家在认知层面上一定要卷起来。
虎嗅:在过去这几年里,你自己认知最大的一次迭代是什么?或者直接推翻过去的认知。
梅涛:我觉得我每天都在迭代。Sora这件事对我在技术认知上是一次反省。很简单,如果相信某一条技术路线,就应该坚持,而不是东试西试。我当时其实觉得 DiT 这个方向很好,但没有下定决心,因为创业资金和资源有限,没法多条线试错。Sora 出来后,我们就坚定走 DiT 的路线。
虎嗅:但你们不是又转向新的UiT架构吗?
梅涛:因为如果光拼数据、光拼算力,这不是创业公司该干的事,要想用更少的成本、更高效的框架达到下一个阶段的效果,创业公司就必须从架构层面重新思考。
这也是我们开始做 UiT 的原因。UiT 不是简单换一套模型,而是希望从底层把文本、图像和控制条件统一到同一个模型空间里,让模型更早、更直接地完成理解、对齐和生成。我们认为,这种原生统一的架构,才是图像生成继续走向视频生成、乃至世界模型的重要基础。
虎嗅:那你对于公司未来的发展最担心什么?
梅涛:我最担心的地方就是:第一,我的方向不对,没有前瞻性;第二,我的认知成为公司天花板。我有时候会担心船员发现方向不对但不告诉我。我希望每个人都有自己认知迭代的角度,哪怕跟我不一样也要告诉我,让我有更多触角去感知方向是否正确。
虎嗅:现在AI领域人才薪酬很高,你们担心团队核心成员被“挖角”流失的问题吗?
姚霆:多少会有压力,我和团队也说过,大家聚在一起做这件事不是为了钱,如果只看薪资大家都应该去大厂。我们的团队成员尤其是模型团队的人,对模型研发都很痴迷,大家的共识是想在这个领域做出能被记住的成果,比如以后墓志铭能留下自己参与研发的知名模型的名字。
虎嗅:你自己希望以后世界以什么记住你?
姚霆:我肯定希望能留下因为我而存在的模型的名字,比如后续我们推出的出色的、被行业广泛认可的模型,大家提到的时候知道是我参与做的,对我来说就足够了。
