扫码打开虎嗅APP
作者| 宇多田
出品| 虎嗅科技组
封面| 视觉中国
就在袁行远兴高采烈地讲自己的新软件在B站多受00后欢迎时,我的心情却逐渐沉入谷底。
这是一个叫“彩云小梦”的AI故事续写程序。只要输入几十字,它就会给你一个令人头秃的故事导向。
在B站上,不少喜欢网文的年轻up主们,虽然没有从它身上获得什么写作灵感,但却似乎找到了流量密码。因为,算法显然比人类要可爱多了:
在AI的世界里,“特朗普可以在爱上拜登后,第二天爱上马克龙…”;
三国演义里的曹操,可以借钱和借粮给刘备;
以“中国足球赢得了世界杯”为开头,没几段就出现了“世界杯后国足遭受重创,被网络群嘲”的梦回式预言……
来自B站流量让年轻人打了鸡血的续写结果
动辄几十万的播放量,是小梦受到年轻人群体追捧的最好证据。只是在捧腹大笑之后,任何一家盈利组织,都不得不去追溯这款程序的商业想像空间。
坦率讲,在过去6年时间里,这种带有娱乐性质的算法用途并不少见。
即便是身处人工智能圈外的大众,也都见证了AlphaGo在游戏竞技场的巨大成功到其制作公司Deepmind陷入的营收困境;从换脸软件Zao的爆火到仅仅一年便迅速过气儿;还有谷歌、百度等科技公司的AI弹琴与作画写诗的“综合技术营销套餐”层出不穷,商业意义也仅仅停留在技术验证层面。
可以说,在产业6年我看到的是,不依赖大平台、以娱乐为导向的AI算法与系统,在中国市场上的“热度时长”,大部分平均只有一个春节假期的时间。
“所以,如果新鲜感过了,他们还会来玩儿吗?” 比起这个应用累积100多万的下载量,我对年轻人的忠诚度更好奇。
而这个软件的开发者袁行远很诚实。因为这是互联网时代开启以来,所有应用开发者的痛症。这个在2021年下半年推出的应用,虽然使用者增长幅度还不错,但留存率并不高。
“7日留存有5%,而30日留存可能更低。”
毕竟年轻人好奇心来的快,去的也快。一旦掌握和习惯了AI续写故事的套路,就很难保证他们再长时间呆在一个只有文字和简单逻辑构成的世界里。
作为创业公司彩云科技的创始人,袁行远曾在过去6年里推出了两款非常具有口碑的AI软件产品——彩云天气与彩云小译(大部分人应该更熟悉前者)。
前者是据称是中国第一个将下雨时间精确几点几分的天气预报软件,这要归功于他们在人工智能技术的分支——计算机视觉领域的算法手艺;
来自手机APP截图
而后者,则是一个记者朋友曾极力推荐我在谷歌浏览器上“一定要下载”的外文翻译插件神器。
不过,在全球庞大的手机应用市场,这两个产品都不能算是极致的成功,但至少是“小而美”。这也就保证了,即便是在人工智能商业潜力起伏不定的过去5年里,公司也能有持续和相对稳定的营收进账。
但是,很明显,这两款软件都是市场相对青睐的“生产力工具型应用”。也就是说,你可以因为“不得不用”而产生更久且持续的留存;
而这次的“彩云小梦”,暂时来看,则更像一个“只能博年轻人一笑”和“文学与艺术价值远高于商业价值”的算法程序,而这也是我最大的疑虑之一。
“今天有虎嗅的记者来访”是我输出的一句话
最难的那座堡垒,攻不下
从另一个角度来看,正是由于这套算法跟“商业化”的弱关联,袁行远应该是我见过对人工智能技术怀有最真挚情感的技术创业者之一。
比起,图像识别、人脸识别这些现阶段在工业应用界已经“卷出花儿来”的技术,人工智能的另一个重要分支——“自然语言处理”,如今无法得到大规模应用的根本原因,是因为它还无法对现实世界中的大量抽象概念,语义和逻辑推理做“代码级描述”。
举个例子,两个文盲不识字,但他们俩聊天就能完全无障碍。
这段对话里,“200次”更像是一种形容词或表达心情的感叹词,然而从语义角度,机器很难理解。
近年来,深度学习的崛起,一下子解决了计算机视觉(CV)“用手工提取特征费劲儿”的难题,所以带来了CV领域爆发性的进展。
然而从本质来看,即便是计算机视觉,也仅仅是在感知层面取得了突破,并未在下一次层——语义和逻辑推理上多大突破。这也是为何自动驾驶的“规划决策”如此难。
而比起直观的图像,必须要越过“感知”,对“高层语义、记忆、知识抽象以及逻辑推理”要求极高的自然语言处理(图像识别也需要,只是在感知阶段商业化好一些),难度显然要大,成就感更强。
来自网上Siri的对话
你可能会质疑,怎么能说“自然语言处理”没有大规模应用?苹果的Siri、智能音箱、机器翻译,还有隐藏在各种电商与社交平台背后的算法推荐,都是这项技术的存在形式。
但实际上,这些都是“自然语言处理”山脚下最好收割的第一批果实。
就像智能音箱无论卖5000万台还是1亿台,仍然被冠以“智障”的头衔。因为,它仍然不能“理解这个世界背后的运行逻辑”——这才是山顶上最有价值的药材。
“除了写作之外,其他都不值得人工智能去研究!” 袁行远很坚决。他让这个项目,更像是一个算法工程师或科学家,在跟市场和技术难度较劲儿。
“就像‘写作文’是语文试卷上的最后一道题。它比什么下围棋,比自动驾驶和人脸识别都要难!因为难,才有做的价值!
因为图像数据是高密度、低信息量数据;而文字则是高密度,同时又高度抽象化数据,背后的数据空间比我们想像地大太多。”
当然,产业里并不只有袁行远抱有相同的“理想”。国外不但开始地更早,而且已向外界展示过自己的强大。
微软CEO纳德拉(左)与Open AI CEO 阿特曼(右)在2021微软Build大会上
2020年5月,OpenAI 推出了被称为“全球最先进语言模型”的GPT-3。这个由马斯克等硅谷大佬在2015年支持创建的人工智能研究组织,在2018年与马斯克 Say Goodbye之后,便于第二年正式走上商业化之路,并马上接受了微软投资的10亿美元。
如今,新一代语言生成器GPT-3,被以一种云服务的方式,卖给想用它自动续写文本的机构。毋庸置疑,它建立在自然语言处理技术之上——
在网络上搜集了近1万亿字的文本,在一台嵌了几十万块处理器的超级计算机上做训练。对了,这台计算机是微软做的,后者也算是把投资的10亿美元多少收回了一些本儿。
有趣的是,英国卫报曾用GPT-3写了一篇专栏文章——《你害怕了吗?人类》。大致中心思想就是“虽然我是一个会思考的机器人,但别怕,我不会消灭你们,我是人类的命运共同体”。
截自英国卫报
然而,我同时觉得微软这10亿美元的投资,可能有一小部分会打水漂儿。
因为在发布两年过去,这个语言生成器模型,虽然在技术层面取得了重大突破,甚至被澳大利亚哲学家与认知学家大卫·查尔莫斯称为“史上最重要、最有趣的人工智能系统之一”;但是,它并没有获得太多企业界用户的青睐——
除了以研究和训练为目的企业,只有一些“起到文本微调作用”的教育辅助工作。
虽然我没有接触过GPT-3,但同样作为另一种形式的“文本生成器”,既然关键基础技术尚未取得突破,那么彩云的故事续写算法,其实本质上也没有脱离“会犯傻”的范畴。
但的确长了几岁。
首先,虽然在续写的段落里,它不仅可以重现文本的模式,还能够在逻辑上表现十分正常,甚至比一些写拼凑水文的网文作家要好(下图,表现的确不错)。但由于对世界缺乏常识性理解,它才会不假思索说出“特朗普爱上马克龙”。或许,这是工程师们将其属性定义为“写小说”的一大原因。
其次,它仍然受限于原始训练文本的知识属性。算法是由3万本网文小说训练出来的,那么我在输入科技产业的新闻报道与非虚构故事时,续写的内容就会驴唇不对马嘴。
第三,很多时候,我发现它一直在说正确的废话(如下图)。也就是说,AI在不断对你输出的文本进行模仿与复制,对原始句做若干次同义句意的替换。
AI更擅长废话文学
第四,前几点决定了,它还不能讲一个超长、完整且逻辑架构正确的故事。所以程序也只能限制你可以输入的字数和它能够输出的字数。
有趣的是,袁行远在说做这个项目的缘由时,多次提及“实验”、“研究”以及那个更加宏大的主题——“推动人类文明进入下一个阶段”,对《三体》的崇敬之心溢于言表。
虽然作为一名普通的科技编辑,我还远不能与工程师天马行空的想象力同频,只能听着对方执着于“科幻小说《三体》描述的充满光速飞船的未来,便是当代科学的目标”,从附和,再到逐渐陷入沉默。
但我很清楚,解决眼下的问题也同等重要。
很显然,除了基础科学遭遇的瓶颈,彩云也绝对避免不了会遇到GPT-3遇到的商业化难题。
让年轻人付费,不能靠好玩儿
尽管袁行远很乐观地告诉我,目前这个项目的确“是在开开心心做公益”,完全免费,只图年轻人能享受算法带来的一时快乐。但作为一个创业者与企业管理人,他必然要考虑设计一个面向中国C端年轻人市场的付费方案。
而目前他们关于此的想法,在我看来,尚存有较大缝隙——还不具备足够产品力。
首先,最简单粗暴的商业化模式,就是让用户为“续写”买单。
不过,按照公司团队预设的100元/月定价,几十万的日活,以及“将网络文学作者作为目标用户”的前提,这款产品的营收空间能否超过他的前两个应用,可能会让人产生一些疑问。
我们找到了中国音像与数字出版协会在2020年发布的《2019年度中国网络文学发展报告》。 其中明确提到,2019年网络文学作者数量虽然达到1936万人,但签约作者数量为77万,网文作者平均月收入5133.7元。
当然,我们不能将TAM(某产品在市场中的总量)作为这款续写软件能cover住的市场规模,而是应该圈出它的SOM(有能力得到的市场)。
按照目前这款程序当下的娱乐属性、大众知名度、续写段落长度受限、故事内核构建能力欠佳,以及“原创性作品在文学领域更容易被承认”(不过抄袭问题很严重)等因素来看,它将作为一款生产力工具产品的市场覆盖率,还需进一步验证。
2021年11月阅文发布的网文作家数据,其中末烟是00后
其次,做一个面向内容生产者与内容消费者的中介对接平台。每个用户在里面创建自己的“故事小世界”。袁行远觉得,内容消费者们应该愿意为自己喜欢的故事创意买单。
他打开后台,每个用户ID对应了自己创立的“小世界”——故事主角名称、执行的主要任务,以及故事主线。在这里,你可以感受到年轻人想象力的天马行空:秦始皇对话特朗普、哈利波特大战魂斗罗、吸血鬼爱情故事、星际都市修仙……
“3~5年里,我们平台上会有大量用户贡献的‘世界’,这些设定世界的人可以把它Share出来,所以他就是我们平台上的内容生产者;
而有意向使用这些世界设定的人,也就是我们的内容消费者,会向生产者付费。我就相当于做了一个游戏平台,抽取一定费率。”
这样乍听似乎没有问题,而且很类似于开源平台的商业模式。但一方面,作为内容从业者,我深知国内内容付费产业并不好过,绝不能跟代码相提并论;另一方面,我很快发现,这些用户构建的故事,水平参差不齐:
有人构建了一个完整的故事主线,但故事情节并不吸引人;
有人写了一半就离开了;
有人连故事主线都写不清楚,故意胡乱输入一通。譬如,有人只记录了一个“粑粑很好吃”的名字,就没有后续了……
不可忽视的是,数据质量除了影响算法质量,更会影响商业化的可持续性。而这样的“小世界”即便有100万个,对创意内容有需求的消费者也不会为之付费。
袁行远同意我提出的疑问——只有“精品世界”才会有付费的可能性,而现在更多呈现出一种无序状态。但至少,他们坚持已经看到一种可能性,就是“年轻人愿意付出时间在这个软件上”。
来自《矮人要塞》,被誉为世界上最难上手、最复杂的游戏之一
第三,就是做一款十分完整的游戏。
如果把小梦看作一个带有游戏玩乐性质的创意性软件,那么它就具备了做为一款游戏或元宇宙产品的部分特质。而现在往游戏和元宇宙靠拢,的确…可以吸引投资人的注意。
袁行远觉得这个尚未得到进化的算法,未来可以变成一套文字版《我的世界》。后者是微软一款非常有名的沙盒游戏,有点像虚拟版乐高。其最大特点,就是允许玩家在一个3D世界里采集各种资源来自由打造和定制属于自己的世界。
但是,无论是要做下一个《我的世界》,还是做《矮人要塞》;无论玩家会遇到多少随机生成的“世界”,在游戏设计和开发过程中,不会全部呈现让AI给出随机结果的无序状态。
譬如,洞穴、神殿、怪物的巢穴、废弃的高塔这些元素,是游戏设计剧本里本就存在的,但最终取决于玩家怎么去激活并获取它,并拿这些元素去创造自己的世界。
当然,更重要的一点是,将一款纯粹基于文字的算法应用,进化为一款面向全球游戏玩家的2D或3D图像+文字的沙盒游戏,中间存在一个巨大的经验与成本鸿沟。
游戏市场竞争激烈程度,即便外行如我也略知一二:
每年有几万款游戏在开发,每天都有几十款游戏在测试,而能活下来的可能每年不过数百款,大火的就只有我们听过的那几个了;
此外,企业除了要另组建至少5人以上游戏开发团队,还要负担运营与发行所需的巨额资本。这些都是一家以“自然语言处理技术”发家的应用软件公司很难承担的。至少在交流过程中,我并没有听到关于团队的具体规划细节。
当然,从另一个角度来看,既然是“图像”与“文字”,那么彩云就必然跳不出“人工智能”设定的商业模式——所以,从“彩云天气”、“彩云小译”,再到“彩云小梦”,本质上,都没有跳出“单维技术导向”的五指山。
而现有的消费端大趋势,是以自然语言、图像、视频以及元宇宙相关技术所综合构建的商业模式;单纯的文字世界,是否是一种逆向而行?
图片来自视觉中国
而打造单纯的文字世界,这让我有种似曾相识的不详预感:6年来,多少人工智能公司,都试图用单维技术打开需要综合素质才能稳赢的竞赛大门。
但有一点,我必须承认袁行远利用AI做游戏的灵感是有据可寻的——他看到了一个游戏产业存在多年的弊病:
把文字与图像仅仅作为游戏的壳。大多游戏都在追求把每个人的汗毛画的非常精细,但他们说出的话却非常弱智。
“可能开发成本90%都在这上面。然后都是我打你一拳,你不动;你打我一拳,我不动。世界都是围绕一个固有规则在运转,游戏画面远超智能度。这个需要自然语言处理技术的提高来改变。”
图片来自视觉中国
因此,我们在彼此提出的想法、质疑、反驳与默认中,不断寻找一个更可行、不全靠想像支撑的商业交叉点——
或许,为更具备综合能力的游戏工作室提供API的技术输出,进行联合运营,更适合“小而美”的公司。
更重要的是,靠向其他企业输出API技术的商业模式,在他们推出的第一个成功应用——彩云天气上做了有效验证:90%市面上有“分钟级降水预报”的应用软件,都是彩云天气提供的相关底层技术。
譬如我们打工人常用的外卖软件“饿了么”,你每次在下雨天,看到外卖小哥在降雨模式下进行派送的页面,就使用了彩云的技术。
而至于这样的单维产品与技术,是否遭遇过大厂围堵与竞品模仿。当然,如今市场上排名第一的某天气app就“模仿”彩云,紧随其后发布了同样的产品。这让袁行远感到既愤怒又无奈。
2017年袁行远路演时,一个投资人曾站起来用同样的问题拆台:
“你这算法再牛逼,我不能再花几千万做的比你更好,不就干掉你了吗?”
而袁行远的回答倒是有一个技术人的脾气和尊严:
“那你就跟我比一比!”
其实按照我这几年的观察,大厂虽然综合实力极强,但似乎“需要偏宠的孩子”太多,在很多细分垂直领域反倒总也扶不起来。
譬如某游戏大厂,旗下的AI、自动驾驶还是医疗、半导体项目,说不行就不行,说不要就不要。
因此,对于细分技术“拿来主义”适用于大厂;对于较重的产品模式,小而美的软件技术创业公司除非有孤注一掷的勇气、资本鼎力支持与强大执行力,否则我只见过两个结局:
与“科技改变人类与生活”相关的嘴炮打得叮咚响,但不愿做脏活累活儿,演变成了吃老本和靠山吃饭的“内容创作公司”或房地产公司;
关掉了公司,回学校或回家继承家业去了。
写在最后:荒腔走板的可能性
虽然在交流过程中,我屡次提出对这款程序商业化的质疑与忧虑,但我对袁行远持有的技术信心,未曾改变。
这首先来自于对彩云小译的好感:作为一名每天都会头秃的文字工作者,这款每月12块人民币的翻译插件,方便到可以给我打开难懂晦涩的外文技术文章的些许勇气。
其次,它还来自于我对中国一批互联网软件技术人秉性的信心:无论是否在自由市场,工程师们天生似乎跪服于“绝对实力”——虽然表情总是没有变化,但嘴里总会蹦出几个“干翻他”的豪言壮志。
这是一种什么感觉呢?
就像我们在看冬奥会时,为何会面对王濛等名将的“绝对实力”由衷感到倾慕,为何又对中国足球“像山一样不能被动摇”的垃圾实力而感到心痛?
在技术的世界,每一个人都想挑战最难的东西,摘下最高处的那颗果实,最终利用这种以技术维度为唯一标准的“绝对实力”,冲出商业重围。
只是,我们的确需要让好技术有一个好壳,以及靠谱的应用方式。
一个烂了,其他就会烂的特别快
实际上,让我最担心的,反而不是自然语言处理技术的瓶颈和AI故事续写的“不赚钱”。
而是,往往人类在寻找商业模式的过程中,到头来,挖掘出的最容易商业化成功模式,恰恰是一些随着正常产业发展衍生出来的“歪门邪道”。
举个例子,人脸识别技术从论文走进门禁与闸机,整个过程从来没有人提过,它能被房产中介用来杀熟,辨别出老客户以此提高几十万房价。
但这种应用不仅发生了,而且仔细想想,这恰恰是2B技术最容易被人买单的商业路径。
而AI故事续写会发生什么呢?
它可能会被应用在教育市场的一些旁门左道生意里(我本来不想写出来的)。譬如,“论文帮写”、“作业代写”“考试作弊”,甚至加剧“作品抄袭”概率的发生。
其中,国外学术界已经发生了一些对GPT-3引发的学生负面行为的激烈讨论。
但从纯铜臭角度来看,这些难道不比“娱乐”和“游戏开发”更具有让人买单的刚需性吗?
希望我的担心与忧虑,不会因为下次自然语言处理技术突破瓶颈后的爆发,而变成现实。
我是虎嗅科技组主笔傅博,关注自动驾驶、半导体以及智能制造。(微信:fudabo001,加微信请务必备注身份信息)。