2024-08-02
Creativity = Extract + Remix
这代 AIGC 并不是用来思考和工作的,而是用来生成和创作(G)的。可是,许多人认为创作是人类的专属工作,AI只能作为辅助工具,当AI直接生成内容时,人们往往不认可它的成果。
折衷一下,在在实际的产品设计中,我们通常会将“创造”拆解成两个步骤:提取(extract)和重新组合(remix)。这样,人类在创作过程中会有更多的主控感。
举个例子,服装设计师如果让 AI 直接设计一件衣服,可能会觉得自己没有参与到创作中,从而对AI 的设计不满意。但是,如果先做提取这一步,让设计师依然去他原本寻找灵感的地方(比如大牌发布会或时尚杂志)找灵感,他就会觉得仍然是自己在思考和创造。AI 可以做的事情是,在他觉得有启发的地方,精准地帮他把这个“灵感”提取出来。比如提取一条裙子的版型,一个特定的花纹,或者一个特殊的颜色搭配。
这些提取出来的元素可以通过向量来表达,然后AI 可以帮助设计师将这些元素重新组合(remix)到其他设计中。例如,他提取的灵感可能来自一件连衣裙,但他想把这个版型应用到羽绒服设计中,就只需要点击一下就能看到一系列和自己期待的版型相关的羽绒服设计。
通过这种提取和重新组合的过程,设计师可以获得大量新的灵感,也能快速原型看到更多的可能性。更重要的是,这个过程中每一步看起来都是人类在做选择——提取哪些灵感以及如何组合,这就增加了设计师的主控感,也确保了设计的个人风格。这样的过程更容易被当下的市场接受。
这个问题其实有点类似如何帮助“中人之资”的作家写出好作品,虽然可以通过指导或培训来影响,但估计成果会非常可怜。
比较有帮助的,其实是“NB 的设定”。因为基于 NB 的、新奇的设定,然后用普通的能力发展,也能创造出有趣的故事。比如现在已经泛滥成灾的“穿越”、“复活”、“时间循环”……最早一批用这些设定的创作者就非常占便宜,他们不需要多么深刻的洞察、多么完美的故事能力,只需要基于这个设定去自然而然发展故事,就可以创造出非常有趣的情节。而在这种“有趣”中很容易让内容消费者看到新鲜的视角,而“新鲜的视角”也可以被理解成深度。举例来说,如果每天晚上 12 点钟时间就会重置到 24 小时前重新过这一整天(但是仍然保留记忆),世界会发生什么呢?根据这个规则设定,不需要多好的能力,就可以推演出各种好玩(可以买东西不要钱了,因为24小时会重置)或者深刻(这时会如何处理仇恨?)的场景。
不过这其实也可以理解成“并没有解决问题,只是转化了问题”,因为 NB 的世界观设定也很难找啊,怎么办呢?上次和捏TA的修涵聊天,觉得受到他很大的启发——1. 不一定要 NB 的世界观设定,可以是 NB 的人物或者场景设定;2. 不一定要直接期待设定的 NB,可以走量,让各种维度相互 remix 出 NB 的设定。懒得展开,有两个案例可以参考一下,一是“蟑螂娘”,二是“绫波丽在正常学校生活”。
经过这两层转化,我们就把一个“高智力,低算力”的要求,转化成了一个“正常智力,高算力”的要求,这就更匹配当下 AI 的实际能力了。
我们会用思维模型去对世界进行分析和解读,不见得是因为这些模型有多好用,而是因为我们的大脑在处理信息的能力上有着天然的限制。为了能更高效地理解和处理信息,我们需要对世界进行极大的抽象和简化,模型只不过为了迁就我们的“笨”而产生的简化工具。当我们使用 AI 来处理类似问题的时候,可能会忘记模型是妥协的方案,仍然把它们当宝贝,这就可能会反过来限制 AI 的发挥。
比如在市场研究中,我们传统上需要对市场进行建模,把它分成若干个细分市场,做一些用户访谈,最后建立一些典型的用户画像(persona)。这些用户画像实际上是我们对市场的简化,我们将市场中的复杂性归结为几个典型角色,比如“足球妈妈”或者“新生代少年”,然后基于这些画像进行分析和决策。为了将就我们的“笨”,本来做了 3000 个用户调研,50 个用户深访,一共百万字的录音,就只能表达成简单的几个画像——只是为了方便人类理解和分析。
但更 AI 原生思维的话,其实不需要考虑这个思维模型,完全可以直接把这 3000 用户建模,再把这 50个用户建更精细的模,直接设计新的产品和营销方案,直接对这 3050 人的模拟器来模拟,甚至于可以根据这 3050 人的反馈信息,结合公司历史上所有对用户的了解信息,构建一个整体目标市场(可能 100 万人,就 100 万个 Agent)的模拟器,测试不同的方案对应的不同用户的感受和反应,用模拟替代分析。这时可以利用的算力和信息量,都比人类对着几个“画像”要大得多。
事实上,很多公司和学术机构已经在这条路上走得很远,这类的产品在 toB 侧也已经出来一批。给我们最大的启发就是,我们会从自己的能力和缺陷出发,设计辅助的工具,这些工具对 AI 可能是束缚而非帮助。应该反过来,从 AI 的能力和缺陷出发,设计适合它的方法和工具。
AI 的智力在什么水平?高还是低?
回答这个问题比较无聊,很容易陷入哲学探讨。但我们可以比较安全地说:不管 AI 智力水平在哪里,到底脑子好不好,我们比较确定的是“它脑子比较大,装的东西比较多”。
这个“多”分成两方面,一是知识多,正常人类很少有人又懂藏传佛教又懂十四行诗还懂区块链还懂肯尼亚历史,但对 AI 来说则是小 case,它脑子里啥都有;二是维度(其实也可以理解成某种类型的知识)多,比如可以从文化角度看、从商业角度看、从语言学角度看、从量子力学角度看……
那么,如何把 AIGC 的着力点,从 AI 的“强”换成这个“多”呢?
如果我们只是要创造更好的内容,其实就是在比谁的智能“强”,拿 AI 去和人类最高水平(我们看的内容,大部分是超级头部内容,就是最高水平)比,很未必能取胜。但是,如果我们不是要创造更好的内容,而是要创造更好的“连接”呢?AI 脑子里有 1 万亿个可以连接的对象,而且有 1 万亿种可能连接的维度,在这个领域,很容易就可以欺负人类了。
而如果我们的着眼点,是把用户的某个数据点,用独特的维度,连接到用户觉得 NB 的东西上,这个连接,是不是也可以成为用户 value 的超优质内容呢?
我们设计产品总是在思考帮助用户解决具体的问题,总是在想“有什么用”,但思路经常被困在具体的、常规的功效上。然而,像QQ 秀这样的产品,其实满足的是用户的自我表达和创造的深层心理需求。这表明,创造和表达本身是用户的一种需求,而不仅仅是达到某个目的的手段。
人们的行为是由内在动机驱动的,满足自主性、胜任感和关系性是基本心理需求,用户通过自我表达和创造体验到内在的满足感和幸福感。同时,当人们完全沉浸在创造性活动中时,会进入一种心流状态,获得极大的快乐和成就感。
在 Character.ai 相关的市场,很多用户并不是觉得这些Characters有多逼真、多好,而是享受创造和调教的乐趣。这与组装乐高积木、拼四驱车、捏泥巴的快乐相似,这种创造和表达的过程本身就已经满足了用户的深层需求。
刚读 Linus Lee,再次被他神奇视角震撼。他说以前制作音乐时,我们只能通过摩擦、打击和弹奏乐器产生各种声音,然后编成曲子。这些声音受限于我们使用的具体物理物质,这些东西无法发出的声音我们就无从创造,甚至于也从来没想过。然而,当我们把这些声音数字化后,它们就变成了不同的数学表达,所有的声音变成了一种数学形式,变成了波长和频率的叠加。通过数字化表达,而非模拟生成之后,不仅仅是让我们创造“原来的音乐”更高效,更是让我们可以创造原来没有的音乐。
更明显的例子可能是颜色,以前绘画需要用实际的物理颜料来制作颜色,有些颜色可能就受限于原材料很少能被做出来。现在用数字化的 RGB 3 个数字来表达,不再受限于物理世界,我们就可以通过调整这几个值创造出很多以前没见过的颜色。
最终,我们的脑子可能也是如此,尽管可以想出各种好的和坏的想法,但它仍是一个物理构造,有很多既定的模式和限制,很多潜在的思维空间没有被打开。当我们把脑子里所有的想法映射到数字空间后,两个想法之间的空隙就能填满。比如,我们脑子里原来只有 99 和 121 两个数值,现在可以从 100、101、102 ……填满所有空隙,所有可能性就被完全打开了。虽然其中大部分应该是(至少对于进化和生存)无用的垃圾,但这个之前看不见的隐空间里,可能也有我们从未听过的音乐、从未想过的颜色、和靠自己永远看不见的可能性。
AI炼金术