失意职场人，迷上了烧钱做短视频-虎嗅网

出品 | 虎嗅科技组

作者 | 王沁

编辑 | 苗正卿

头图 | AI生成

在白天，Danny是一位白领，朝八晚五。他大学毕业后，就进了老家南昌的一家公司，一待就是七八年，如今30岁出头，住在公司大楼内的出租屋，是一位勤勤恳恳的UI设计师。

当夜晚降临，Danny回到独居的小屋，成为自己的造梦师——用AI把自己各种神奇的梦境变成短片。他是艺术生，高中时一直梦想去4A广告公司做创意片，但工作后从事的是没有那么热爱的UI设计师，在业余时间做电商产品创意带货短视频，来靠近职业梦想。

今年7月，看到一场AI短片的创作大赛通知后，Danny决定all in AIGC，“你不需要高昂的拍摄设备，不需要场地，不需要演员，甚至不需要配音，都可以用AI实现很多天马行空的创意。”

Danny本来打算年底离开南昌，去上海北京求职，但是AI让他看到机会：“不用离开自己的城市，也可以创作。”

自此，Danny每天晚上回到独居的小房间，熬夜到凌晨两三点，用可灵AI做短片。几秒钟的镜头，从Midjourney生图片再到可灵AI生视频，常常要抽卡十几、二十多次，直到满意。

他以西游记的白骨精为题材，做了两集AI短剧，为了调试不同镜头中白骨精的发型、头冠、衣服的统一性，每张图片都要重绘几十次，甚至上百次，“非常大的工作量，快做崩溃了。”

AI生成一组图片/视频的过程中，每个图片/视频的效果都不同，有些会变形扭曲，或者动作、表情和预期的不一致。创作者们只有不断调整提示词，生成多次，在一组图片/视频中挑选效果合适的，这个过程被称为“抽卡”。

为了制作白骨精的短片，Danny抽卡一共花了五六千元。Danny对画面细节要求高，花费也比其他创作者高，别人可能抽卡几遍，但他要几十遍，找到最满意的版本。他用自己的工资来支撑制作费用，“赌的成分很大，如果流量不好，就相当于打水漂了。”

《白骨精前传》截图。图片来源：受访者提供

后来Danny用名为“怪物集”的账号，发布了《白骨精前传》短片，最后在快手和抖音的播放量一共近2000万，他在快手可灵的AI短剧大赛中获得一等奖，拿到了5万元奖金，“我终于被大家看到了。”Danny说。

AI视频作为内容形态的“新物种”，来势汹汹。各家大模型厂商和互联网大厂纷纷发力AI视频生成。

今年8月，昆仑万维昆仑万维推出AI短剧平台SkyReels。9月，字节跳动发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。到了11月，腾讯混元也开始内测视频生成模型，又在12月把视频模型开源。

快手在9月上线了可灵大模型的1.5版本，根据快手2024 Q3财报，可灵AI的月活跃用户在9月超过了150万。

如何烧钱，又如何省钱

谈起AI视频的制作，创作者们纷纷感叹烧钱，但烧钱也要冲，因为长远收益大，AI视频是他们的人生“第二增长曲线”和“第二春”。AI视频创作者们，大多是副业做AI，主业分布在各行各业，如设计师、游戏工程师、广告、电影导演、VR从业者等等。

对UI设计师Danny来说，AI圆了他的广告创意的梦。

对主业从事VR的葛老板来说，AI是事业的转机。今年40岁的葛老板在十年前从一家视频网站辞职，后来与人搭伙做VR公司，做了十年，经历了VR行业的潮涨潮落，“还在苦苦支撑”，又在当下发力AI视频。

“AI的生意比VR好落地很多。”相比于VR内容需要Apple Vision Pro、XR眼镜等硬件终端作为载体，AI视频在手机上就可以大范围传播。

葛老板的AI动画短剧《胡相公》获得快手可灵AI短剧大赛的最佳创意奖，奖金两万。他的AI视频作品也给他带来了一些影视剧制作和AI文旅宣传片的商单。

AI视频的烧钱，都围绕一个核心：在AI生成的不确定内容中，为了保持人物角色的一致性和故事连贯，要不断抽卡。

可灵在10月底开始内测人脸模型，用户上传一些关于同一人物的动作/表情视频，每段视频10-15s左右，就能训练出这个人物的数字人，之后就可以生成这个数字人在不同角度、不同景别的视频，而不会发生人物的形变。

生成这样一个人物模型，需要2000点数左右（给超级创作者打完折后需要1000点数，约合人民币100元），每次从人物模型生成一段视频，需要消耗35点数左右（约合人民币3元多）。

AI视频创作者葛老板在使用可灵的人脸模型后发现：“如果是简单的表情，比如微笑，用眼神看你一眼，是可以的。大笑、哭泣以及过于细腻的表情演绎，就会比较吃力，表情容易不自然，可能要多次抽卡才能效果满意。”

Danny表示，目前业内常用的Lora训练模型，可以大致解决人脸长相上的一致性，但对于更多细节例如发型、发饰、妆容、服装造型等，还无法完美还原。例如，Danny的《白骨精前传》中，白骨精头顶上银色金属的发冠，用AI生成图片后常常形态、大小不一致，“几乎每张图片都需要进行几十次甚至上百次的局部重绘。”

《白骨精前传》AI短剧截图，创作者Danny几乎每张图片都要几十次上百次重绘。图片来源：受访者提供

“一段5秒钟的片段，常常要抽十几二十次，花一两百块钱。要做两分钟的视频，就很费钱。我会执着一些细节，花费比别人高一些。”Danny 表示当时做白骨精短片花了五六千块，都用自己工资支撑。

虽然抽卡很烧钱，但是国产视频模型相比于国外模型，已经把价格打下来很多。

对于非会员，国产视频模型如可灵、即梦给用户每天赠送登录积分，有一定的免费生成视频的额度。

在基础包月会员价条件下，用提示词文生视频，生成一个5秒片段，Runway需要约1美元，Pika需要约0.25美元，即梦需要约0.4美元（约3元人民币），而可灵只要约0.1美元（约0.9元人民币）。在卷价格方面，可灵AI已经走在前面。

虽然AI视频要抽卡烧钱，但相比于传统影视制作，AI视频的性价比到底如何？

对于传统电影行业出身的青年导演朱智立来说，AI影像相比于电影实拍，已经大大降本。

朱智立的AI短片《新桃花源记》入选了“工业强国·工业与科幻影像展”，讲述了一位宇航员为地球寻找新家园的故事，影片海报的画面是一位宇航员走向桃花缤纷的山洞，原图是用文生图模型Midjourney制作的，片中镜头是再用AI工具图转视频。“（如果是电影实拍），要呈现这样质感的洞，还要有桃花，肯定要制景。还需要特别大功率的灯，以及一个非常好的灯光指导，才能打出这种有层次的光效。如果实景找不到这样的洞，就需要绿幕加特效或虚拟拍摄，成本比AI生成要高得多。”

朱智立的AI短片《新桃花源记》海报，用AI工具做出堪比电影实拍的效果。图片来源：受访者提供

影片结尾使用的音乐是用音乐生成模型Suno制作，朱智立最开始以为AI音乐会非常机械，没想到AI生成的配乐展现出非常复杂的情感，“有一段是十分纠结的旋律，完全能够体现出这个人物最后离开桃花星时，居民告诉他‘不足为外人道也’，但他又想把这个地方公之于众的复杂心理状态。”

令朱智立惊讶的是，AI不仅能很精微地表达出他的创意，还会自己产生新的创意，“AI还会自己加戏。”比如，他用图生视频生成一个镜头，表现有一群外星居民围住宇航员，宇航员跟外星居民讲自己是从地球来的。结果AI不仅生成了这个画面，还充当了半个导演，加了戏——有个外星居民竟然自己拿出手机拍宇航员，然后宇航员讲完后还跟外星居民里的一个小朋友击掌，这些都是意料之外的。“AI很聪明，会帮你加一些创意，至于适不适合，你可以自己选择。”

AI短片《新桃花源记》中的镜头，AI视频模型自己“加戏”。图片来源：受访者提供

狂奔的技术，如何影响叙事

AI视频生成模型们，在技术迭代的路上，一路狂奔。

针对人物一致性的痛点，各家纷纷出招：

10月底，可灵1.5版本开始内测人脸模型。

11月，生数科技Vidu 1.5推出了多主体一致性功能，依靠通用模型能力的提升，而非业界常用的LoRA 微调方案，宣称用三张图就能实现主体在不同场景下的一致性。

Runway也在10月底上线了Act-One功能，在从真人表情迁移到AI人物表情时，原始图像的外观特征得以保留，表情变化不会让人脸形变。

不断迭代的技术，也在影响创作者们的叙事方式。

每个创作者都有自己保持人物一致性的方法。一个讨巧的方法是，从一开始的角色形象设计上，就避开细节复杂的形象，而选择形状简洁的角色形象。例如Sora在一个demo片段中展现的气球人，头顶一个气球，即使发生些许形变，观众也不大看得出来。因此，朱智立在短片《桃花源记》中选择了身穿宇航服、头戴面罩的人物形象。

葛老板的AI短剧《胡相公》采用动画形象。图片来源：受访者提供

动画也是保持人物一致性的捷径。人类天然地对人脸更敏锐、更容易挑刺，而动画形象即使发生些许形变，观众的容忍度也更高。2024北京国际电影节AIGC短片单元中，最佳影片《致亲爱的自己》、最佳美术设计《达芬奇计划：新文艺复兴》以及近半的优秀奖短片如《AI升职记》《老鼠嫁女》等等都采用动画角色。

在故事题材选择上，一种方法是选择大众熟悉的故事原型加以改编，这样即使AI短片本身的叙事不足，观众能够自行脑补剧情。葛老板的AI短剧《胡相公》获得了可灵AI短剧创作大赛的最佳创意奖，讲述了狐狸与书生的爱情故事，全程没有解说词，“观众一看到狐狸和书生，脑海里面自然会有一个画面，很多东西（剧情）就不用介绍……尽量写100 字以内就能讲明白的故事，如果讲一个300字以上的故事，用AI表现就难了。”

葛老板的AI短剧《胡相公》选择了狐狸与书生的故事原型。图片来源：受访者提供

这种方法是不用解说词，另一种相反的方式是——完全依赖解说词来叙事，这在AI短片中也非常常见，例如朱智立的短片《新桃花源记》中采用古文《桃花源记》的改写版作为全片的旁白，Runway获奖影片《My Mom》全片以口述信件作为旁白。

“故事依赖解说词”的现象，背后原因是节约成本，因为AI视频还hold不住长镜头复杂叙事。要推动剧情和人物，就需要大量有效的分镜头，而不是一些MV式空镜过场画面。

如果不依赖旁白与解说词，而靠人物对话，首先要解决的是配音。AI视频创作者葛老板表示，“找一个好的配音演员其实很花时间，在短时间内做到是很难的”。其次，即使找到好的配音演员，如何把配音与AI角色的嘴型同步，也是个难题。

针对这种问题，视频模型的技术也在飞快进化。今年10月，可灵新增“对口型”功能，生成人物的口型与上传配音同步。

AI角色对嘴型的问题，对于Danny也是一个难点。在制作《白骨精前传》时，Danny找了全球十几个专门给角色对嘴型的网站，效果都不太好。此外，为了给AI角色配音，Danny也尝试了全球十几个AI语音合成的网站，发现AI配音仍然比不上真人说话的质感，就去找真人配音。为了在短时间内低成本完成比赛作品，他在抖音上找1万-10万粉丝量的配音博主，花几百块钱完成了2分钟AI短片的配音。

但AI技术不断狂奔，谁也说不上AI语音何时会超过真人配音的质感。Danny近期在用AI语音合成软件“Dubbing X”，该软件在发布的全AI生成台词演绎的《十二公民》中，角色台词的音色、情绪都展现出复杂层次。

最近视频模型厂商们开始卷的“多主体一致性”功能，也给AI短片的叙事带来突破。

生数科技在11月推出Vidu 1.5版本，主打多主体一致性功能，可以让人物在环境中大幅度移动，而不出现人物和环境的形变。

目前，多主体一致性的功能效果还有局限。葛老板在尝试使用时，“比如我把一个人放到卧室背景的床上，再让他抱着一只公仔小熊，他的脸会有点变化，抱熊的姿势会很怪，但是整体上画面可用。”

但这相比于之前，已经给叙事带来很大自由度。在此之前，葛老板很难制作有两个主体同时在运动的画面，如果想让两个角色同时出现在画面中且有运动，就需要把两个角色各自抠像，先各自生成视频，再放到背景上。

可以预见，飞奔猛进的视频模型，会让AI视频的叙事自由度继续提升。

本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。

失意职场人，迷上了烧钱做短视频

大 家 都 在 搜

大家都在搜