扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-02-09 09:10

用完Seedance2.0,Tim 第一次对AI 产生了恐惧

本文来自微信公众号: Z Finance ,作者:ZF编辑部,原文标题:《ZPedia丨用完 Seedance 2.0,Tim 第一次对 AI 产生了恐惧》


我一开始以为是常规合作——这年头新模型上线,找头部创作者做一条测评,属于标准流程。但看到一半就发现不太对劲。这不是广子。


Tim确实在夸,但那种夸法不像好用推荐,更像“危险提示”。语气里有明显的克制和警醒感。不只是在告诉你这个工具多方便,更是在提醒:这东西的意义,可能比我们现在理解的大得多。


而且,这种判断并不只来自Tim。


过去两天,Seedance 2.0在B站和小红书持续发酵,从影视区一路蔓延到AI圈,从职业剪辑师到普通观众,情绪几乎同步。你很少能看到一个产品,跨圈层后评价还这么一致。评论区反复刷屏的就那几句:“牛逼”、“这真的是AI吗”。


这种共识式震惊,其实比任何技术参数都更有信号。



因为它不是那种“新滤镜、新特效”的短期刺激,而更像是某个瞬间突然意识到,原本属于人的能力,正在被模型稳定接管,而且不是试探性接管,是可复现、可规模化、可工业化的那种接管。


这才是让人真正不安的地方。


当然,这篇也不是广子。


只是接着Tim的那个情绪,我也想认真聊一聊一件事:为什么Seedance 2.0很可能不只是一次产品更新,而是多模态模型真正意义上的一道分水岭。


Seedance 2.0到底牛在哪?


先看一段测评博主Niko哥用Seedance 2.0生成的视频,据说从构思到剪完,大概花了两个小时。


如果不告诉你,大多数人可能以为这是哪部武侠电影的片段。


Seedance 2.0的强,简单来说是三个方面。


第一是运镜和人物一致性。


过去视频生成有个行业笑话:静态一张图,美到能当海报;一动起来,像橡皮人集体团建。镜头一推,脸开始漂;镜头一拉,身体开始扭;再切两下,主角已经换了三次脸。


Seedance 2.0完全不一样了。它不是偶尔稳,而是默认稳。人是那个人,声音是那个人,环境氛围也跟着人物情绪走,整体是一套完整的表演,而不是一堆拼起来的片段。


更离谱的是,这样的效果,只抽了两次卡就出来了。不是反复试错后的“天选样本”,而是接近正常发挥。


12秒动画视频提示词(偏电影级机甲战斗、强调大范围运动):生成一段约12秒的高质量机甲战斗动画,主题为阿姆罗·雷图片1驾驶RX-78-2高达,与夏亚图片2驾驶红色扎古在宇宙战场中高速交战。整体风格接近日系机甲动画与电影级镜头语言,突出“大范围位移”和高速空间机动。0–3秒:超远景开场。深空战场,大量碎片漂浮,镜头快速推进。阿姆罗的高达从画面左下方高速掠过,推进器强光喷射,拉出长轨迹;远处夏亚红色扎古高速侧向切入,形成交叉航线。3–6秒:大范围机动对冲。镜头跟随高达做长距离俯冲,高达在碎片带中高速穿行并突然翻滚规避;夏亚扎古从远处大弧线绕后推进,推进器全开,空间位移明显,距离感强烈。6–8秒:高速接近战。两台机体从远距离高速逼近,镜头拉远呈现巨大运动范围;光束步枪射击划过空间,形成长距离能量轨迹;机体高速变向、急停、再加速。8–12秒:对峙与爆发。两机在宇宙中央急停悬浮,推进器余焰喷射;随后同时再次加速冲锋,两机体掏出光剑交锋碰撞。音效:推进器轰鸣、金属摩擦、远距爆炸回响。画面重点:高速位移、长距离运动轨迹、空间纵深、机甲体积感与惯性


那如果画面里不止一个人,甚至出现多个主体同时运动,还能不能保持这种稳定?


结果更离谱。


用《进击的巨人》的场景做测试,Seedance 2.0的表现依然很稳。艾伦的人物一致性保持得相当好,动作连贯,身体比例没有出现那种常见的“关节错位”和形变;声音和环境音也能跟着画面情绪走,而不是各说各话。


而且,这样的效果同样只是抽了两次卡就出来了。


12秒动画视频提示词:生成一段约12秒的高强度追击战动画,背景为《进击的巨人》式城墙与荒野环境。整体风格偏写实日漫,突出高速机动、远距离位移与空间纵深感,镜头语言具有强烈运动感与压迫感。0–3秒:超远景开场。破损城墙外的荒野与森林延伸至地平线,多名调查兵团成员使用立体机动装置在森林中高速穿梭。镜头从远处推进,展现大范围移动轨迹与地形尺度,远处巨人群体缓慢逼近。3–6秒:高速追击。主视角跟随艾伦@d695f292-3d1c-49d9-856f-2a5f12a23b23在树林与废墟间长距离摆荡,钢索射出、回收、再次射出,身体做大幅弧线运动;镜头连续横移与拉远,体现追逐距离不断扩大,地面尘土与树叶被气流卷起。6–9秒:巨人加入追逐。数名巨人从后方大步跨越地形高速追赶,步幅巨大、震动明显;士兵从低空急速上升至高空再俯冲,完成一次大范围空间位移,画面呈现高度差与纵深。9–12秒:艾伦斩杀巨人高潮。镜头快速切入战场侧上方,艾伦使用立体机动装置高速绕至巨人后颈,长距离摆荡后突然加速;镜头跟随其俯冲路径,刀刃划出弧形轨迹,一击确认切入后颈,巨人身体失衡倒下;镜头后拉至远景,呈现巨人与人类在广阔区域中的动态对比与战斗余波。音效:气流呼啸、钢索发射与收紧声、巨人沉重脚步、远处低沉震动。画面重点:长距离摆荡运动、快速高度变化、广域地形移动、强烈速度感与空间尺度。


那如果是其他画风呢?测评博主事故唠怪做了测试,大家可以直接看效果。


Seedance 2.0最可怕的地方,是它把“人物一致性”这件事,直接设成了默认选项。


以前的视频生成像抽卡:静态很好看,一动就露馅。脸漂、身体扭、情绪断层,主角随时可能换人。你可以多试几次,赌一个“刚好没崩”的结果。


但Seedance 2.0的感觉不一样。镜头推拉,人还是那个人;镜头切换,人还是那个人;情绪从平静到爆发,人依旧是那个人。没有那种熟悉的失真瞬间,也没有“这次运气好”的侥幸感。


因为它稳定。


稳定到什么程度?稳定到你开始意识到,这不再是“模型偶尔成功”,而是基础能力。


第二是分镜设计。


很多产品号称会“分镜”,实际是会“切片”:给你一堆看起来很炫的片段,但中间完全没有故事和思考。


Seedance 2.0的逻辑刚好反过来。它像是先把叙事骨架搭好,再往骨架上填镜头。什么时候用全景把空间关系交代清楚,什么时候用中景推进动作,什么时候切到特写把情绪直接按到你脸上,它是有判断的。


某种意义上,它已经不是在生成视频,而是在执行导演的工作。


在《咒术回战》的测试里,这种感觉更明显。不只是多角色同时出现时的一致性还能稳住,从招式释放的节奏,到角色特写的落点,你能看出模型在做分镜的时候是在围绕“故事怎么讲”做选择,而不是单纯把动作做得更炫。


这个视频只抽了一次卡成型。


12秒动画视频提示词:生成一段约12秒的日漫战斗动画,背景为《咒术回战》式现代都市废墟与结界场景。整体风格高对比、强节奏,突出多角色协同作战、连续分镜切换与大范围空间移动;包含短促台词与战斗冲突。0–2秒|远景开场夜色下的城市废墟,结界展开,空气扭曲。虎杖悠仁图片2与伏黑惠图片3从两侧高速冲入战场,地面碎石被气流掀起。虎杖低声:“来了。”伏黑:“数量不止一个。”2–4秒|第一波接触中景快速切换,钉崎野蔷薇图片1从高处跃下,咒具落地,三人形成包围阵型。钉崎冷声:“别拖,我直接开打。”4–6秒|咒灵压迫巨大咒灵从废墟后方冲出,身体扭曲扩张,地面震动。镜头后拉展现体型差与空间尺度。咒灵嘶吼,人群被迫分散。6–8秒|多人物协同伏黑召唤式神从侧翼扑击,虎杖正面高速突进,钉崎远程投射咒具;镜头高速横移与俯冲切换,展现大范围位移。虎杖怒喊:“现在!”8–10秒|强攻分镜近景连续切换:拳击、咒力爆发、式神撕咬。空间中出现多条运动轨迹与冲击波。伏黑低声:“压住它。”10–12秒|高潮压制远景拉开,五条悟图片4从高空瞬移进入结界,气场压制全场;咒灵动作瞬间迟滞。五条悟轻声:“你们退后。”画面定格在多人物对峙与咒力波动中。音效:城市回响、咒力爆裂声、冲击波、碎石崩裂。画面重点:多角色同时行动、快速分镜切换、咒力效果、大范围空间移动与战斗节奏爆发。


视频生成Prompt:生成一段约12秒的日式手绘动画视频,场景设定在神秘汤屋内部与外廊。整体氛围温暖又略带压迫感,灯光昏黄、蒸汽弥漫、人群忙碌;镜头强调空间层级(走廊—楼梯—浴池区域)与人物关系变化。以千寻与白龙的短暂交流为核心,包含台词与动作。0–3秒|汤屋环境建立远景,汤屋内部繁忙:妖怪客人走动、蒸汽升腾、木质楼梯与灯笼延伸至高处。镜头横移穿过人群,营造空间深度与热闹气氛。3–5秒|千寻@cd6f993f-66e6-4a8f-a69c-c04767371354穿行中景,千寻端着物品在走廊快步移动,四周角色擦肩而过,环境嘈杂。音效:水声、脚步声、低语。5–7秒|白龙@54f74d44-1268-4e7c-8521-4c3f4f2324c9出现白龙从侧面楼梯走下,拦住她去路,周围人流继续移动。白龙压低声音:“别停下,被发现就麻烦了。”千寻紧张点头。7–9秒|短暂对话两人并肩在木质走廊快速前行,蒸汽从浴池区域涌出,灯光晃动。千寻小声:“我还没适应这里……”白龙回应:“记住规则,就能活下去。”9–12秒|情绪收束两人停在外廊边缘,远处浴池与灯火连成一片,空间辽阔。白龙准备离开:“我会再来找你。”千寻望着他离去,人群再次淹没走廊。音效:水流声、蒸汽声、木地板脚步、远处铃声。画面重点:汤屋空间纵深、多角色穿行、蒸汽与灯光氛围、人物短暂交汇与紧张情绪。


那如果换成真人电影感的分镜呢?


用《穿Prada的女魔头》的经典开场做重拍测试,Seedance 2.0的表现更说明问题。它不是简单模仿画面,而是抓到了原电影的分镜逻辑:从纽约城市空镜建立氛围,到人物登场,再到开车门的声音落点,每一步都贴着原片的节奏走。


整体观感非常接近真实影视拍摄。空间有层次,声音有距离感,环境音不是贴上去的,而是和画面同步存在。那种电影是被拍出来的的感觉,被还原得相当细。


15秒视频生成Prompt(复原《穿普拉达的女王》开场“主编进入公司”经典情节,多人物、多分镜、强调空间调度与权力气场):生成一段约12秒的电影质感都市职场视频,场景为纽约顶级时尚杂志公司早晨办公时间。整体风格精致冷色调、快节奏剪辑、写实电影光影;重点复刻“主编进入公司”时引发的全员紧张与空间秩序变化,多人物、多分镜并行。0–2秒|城市与节奏建立清晨城市街景快速切换:咖啡杯、报纸、通勤人群、高跟鞋落地声。镜头节奏加快,进入办公楼外景。2–4秒|公司内部运转开放式办公区,全员忙碌:编辑翻稿、电话响起、助理奔走。镜头横移扫过多个岗位,人群大范围移动。背景低语:“她到了吗?”4–6秒|主编@dd86e99a-a54f-4133-b482-0ea27acda7e9进入大楼黑色高级轿车停下,主编下车,镜头低角度跟随,高跟鞋踏地清脆。门卫、前台迅速站直。环境瞬间安静。6–8秒|电梯与预警助理收到消息,快步穿过办公室。助理压低声音:“主编进电梯了。”人群开始加速整理桌面、换鞋、补妆。8–10秒|进入办公区电梯门打开,主编走出。镜头从侧后方跟拍,众人自动让出通道,空间层级瞬间改变。无台词,仅高跟鞋声与翻页声。10–15秒|权力落地瞬间主编走进主办公室,随手放下包与外套。助理紧张跟上:“今天的日程已经调整好了。”主编冷静回应:“我十分钟后开会。”镜头后拉,全公司恢复高速运转,但气氛明显收紧。音效:高跟鞋声、电话铃声、纸张翻动、电梯提示音、环境低语。画面重点:群像紧张反应、空间秩序变化、人物走位、大范围办公区调度与“权威进入”带来的气场转变。


更离谱的是,如果直接丢给它一段漫画,它已经可以顺着分镜逻辑直接生成动画。


输出结果当然谈不上完美,但在漫画本身只提供有限信息的前提下,模型已经尽可能把能补的都补上了。画面完成了上色,节奏配上了音乐,分镜也被最大程度地还原出来。


它不是简单把漫画“动起来”,而是试图把漫画里本就存在的镜头语言和叙事节奏,直接翻译成动画表达。


这件事的含义其实很直白:从“静态内容”到“动态内容”的那道生产门槛,被模型直接跨过去了。漫画不再只是漫画,它可以直接成为动画的中间形态;分镜不再只是创作工具,而是可以被模型直接执行的生产指令。


短剧行业很可能要变天了。不是慢慢变化,是那种生产方式被整体改写的级别。


第三刀是音画同步。


你以前看到的“音画同步”,很多时候是后期同步:先生成画面,再用配音、口型、对齐工具拼一下。Seedance 2.0的感觉更像“它在生成阶段就把声音当成画面的一部分”。于是你看到的不是“嘴动得对”,而是“节奏对、情绪对、停顿对”。


前面的测试中,其实Seedance 2.0的音画同步功能已经可见一般,现在让我们上点难度,在同一条视频中,让Tim测试不同场景的音乐生成效果。


生成一段约12秒的视频,同一主角@7efae12f-1591-463c-8087-da89a2da57f4在多个环境中连续说同一句台词,用于测试模型“口型—声音—环境声”同步能力。要求:人物形象一致、口型逐帧匹配台词、不同空间声场变化明显、剪辑无音频错位。统一台词(每个场景重复):“现在开始测试音画同步,你能听清我说的话吗?”0–3秒|图书馆(安静空间)中景,主角在书架之间正对镜头说话,悄悄的说话。音频:安静环境、翻书声、轻微脚步声。3–6秒|街头车流(开放环境)切换至户外街道,主角边走边说同一句话,车辆与人群从后方经过。音频:车流声、人声嘈杂。6–9秒|工厂车间(高噪声空间)主角站在运转机器旁说话,背景有传送带与机械运动。音频:机械轰鸣、金属碰撞声。9–12秒|高处天台(强风环境)主角迎风对镜头说同一句话,衣物与头发被风吹动。音频:明显风声干扰。


在图书馆的场景里,Tim压低声音说话的状态被完整还原出来,环境也随之收紧。那种带着空间回声、却不刺耳的安静感,是很典型的真实室内声场。


切到马路,车流声立刻铺开;换到工厂,流水线的嘈杂、金属摩擦的密度也跟着上来,环境音不再是统一贴上的“背景音效”,而是跟着场景一起变化。


到了楼顶更明显:风声是有方向和强度变化的,不只是简单的一层白噪音。同时Tim的衣服、头发也随风产生了对应的动态反馈。声音、环境、人物动作在同一套物理逻辑里运行,这种统一感,才是最接近真实拍摄的地方。


Tim为什么会觉得恐怖?


毫不夸张地说,从实际效果来看,Seedance 2.0已经把字节推到了全球多模态大模型的第一梯队。这种级别的跃迁,很像去年Gemini带来的Nanobanana时刻。不是参数更大,也不是速度更快,而是能力边界突然被整体抬高了一截。


但这一次,除了兴奋之外,我和Tim的第一反应反而更接近一种本能的不安。


因为这次被还原的,不是“视频”,而是“人”。


回到那条测试视频。输入里只有Tim的照片,没有任何音频素材,但模型却自动生成了像Tim的声音,连说话时的节奏、停顿、肢体语言都一起出现。这已经不是简单的口型对齐,而是把“Tim作为一个表达系统”整体还原出来。


某种意义上,它已经可以让Tim在AI世界里“赛博存在”。你不需要他开口,也不需要他出现在现场,只要触发条件足够,模型就能补全剩下那套表达逻辑。


第二个更让人背后发凉的能力,是空间的补全。


在原视频里,Tim只给了一张办公室的侧面截图,但模型生成出来的另一半空间,却与真实环境几乎一比一还原。


这里的差别非常关键。生成一个普通办公室不难,但生成“像Tim办公室的办公室”才真正说明问题。办公室这种空间,本质上是高度具体的。当模型可以在只给出局部信息的情况下,把细节完整的还原出来,它就不再是在“生成场景”,而是在“回忆场景”。


这背后的原因,大概是Seedance 2.0的训练大量的使用了影视飓风的素材。



从这一刻开始,被模型学习的,不再只是画面质量和镜头技巧,而是创作者本人。你的声音、你的动作、你的空间、你的表达习惯、你构建世界的方式。这些原本属于“人”的资产,开始被拆解成数据,再被模型重新组合。


过去我们担心的是作品被搬运。现在更棘手的是,人被复刻。它不需要复制你的一帧素材,只要复现“像你”的概率分布,就足以骗过大多数观众。


而一旦模型能够稳定地做到这一点,内容行业就会出现一个非常残酷的变化:创作者最大的资产,不再只是作品,而是“你这个人本身是否还能被替代”。


这大概是Tim感到恐怖的真正原因。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜