扫码打开虎嗅APP
本文来自微信公众号:晚点LatePost (ID:postlate),作者:贺乾明,编辑:黄俊杰,题图来自:OpenAI
2011 年 2 月,微软和诺基亚宣布全面合作,合力挑战 Android 系统。Google 高级副总裁维克·冈多特拉(Vic Gundotra)在社交媒体上评论这件事:“两只火鸡加一起,也变不成一只鹰。”
冈多特拉自然是说对了,微软和诺基亚没几年就败走手机市场。弱弱联手挑战强者,一般都是这样的结局。
ChatGPT 大热后,它的缔造者 OpenAI 被贴上 “PayPal 黑帮”“乌托邦式创业” 之类的标签。但在 2015 年,这个团队成立之初看起来也是一个妄图挑战雄鹰的 “火鸡大联盟”。
OpenAI 的第一批投资者虽然都是硅谷响亮的名字:埃隆·马斯克(Elon Musk)、彼得·蒂尔(Peter Thiel)、山姆·阿尔特曼(Sam Altman)、里德·霍夫曼(Reid Hoffman)、杰西卡·利文斯顿(Jessica Livingston),但他们所执掌的公司和机构都不是各自领域里最专精于人工智能的那些。
海量数据和顶级人工智能科学家一般被认为是发展人工智能的必备资源。而美国最有资源的正是四大科技巨头——Google(手机、地图、搜索、邮件)、Facebook(社交)、苹果(手机)、亚马逊(购物)。这四家公司都在几年内达到万亿美元市值,并将人工智能用在自己的产品上。它们当中,只有亚马逊参与了 OpenAI,但只是捐了一些云计算资源。
霍夫曼掌管的 LinkedIn 在数据量层面无法和 Facebook 相提并论。阿尔特曼接手的 Y-Combinator 虽然有名,但孵化的公司最大的也只是 Airbnb。特斯拉是其中唯一一家人工智能巨头,今天有上百万辆车每天在全世界搜集数据——但在 2015 年,它只是一个年产 5 万辆,前途未卜的创业公司。三年后,特斯拉销量激增、加大人工智能研究投入,马斯克便退出 OpenAI 董事会,说双方有 “利益冲突”。
就是这样一个开局,七年后的 OpenAI 成为全球最受关注的人工智能公司,让 Google、Facebook 等科技巨头措手不及。
创办 OpenAI 之前,阿尔特曼在斯坦福大学的课堂提出了公式:创业成功 = 想法 * 产品 * 执行 * 团队 * 运气。
OpenAI,他唯一成功的创业项目,完美证明了这个公式。
共同的恐惧,帮 OpenAI 招揽到一批顶级 AI 科学家
OpenAI 故事的起点是 2015 年 7 月在加州门罗帕克的一场晚宴。召集者是刚接任硅谷著名孵化器 Y Combinator 总裁一年多的阿尔特曼。晚宴出席者们相识已久,不少在创业时代有过交集。他们还都熟悉瑞典哲学家尼克·博斯特伦(Nick Bostrom)的观点,都对人工智能的未来充满恐惧。
那时,AlphaGo 还不是全球围棋冠军,但计算机识别人脸的准确度已超过人眼,Google 的自动驾驶汽车也早在路上行驶多年,数千万人使唤苹果、亚马逊的语音助手。机器越来越聪明,虽然还不到人的水平。
但根据博斯特伦 2014 年出版的《超级智能》(Super Intelligence):以计算机发展规律,如果人工智能的聪明程度达到接近人类,它的智力用不了多久就会远远甩开人类——差距就像人类与老鼠那样大,但这一次,人类扮演老鼠的角色。
马斯克和阿尔特曼多次公开引用这个观点,认为人类必须提前做好准备。阿尔特曼和马斯克没想着限制它,而是想积极推动开发造福全人类的人工智能,让每个人都用上,去对抗坏的人工智能。正是这个宏大的愿景帮他们聚拢了顶级人才。
晚宴上,负责 Google Brain 项目的人工智能科学家伊尔亚‧苏茨克维(Ilya Sutskever)当场表示有意加入。他在 2012 年参与提出 AlexNet 模型,证实了深度学习潜力。这被认为今天新一轮人工智能浪潮,包括无人驾驶技术的起点。
另一位加入的技术天才是今天的 OpenAI 董事长、CTO 格雷格·布罗克曼(Greg Brockman)。布罗克曼是硅谷新兴独角兽 Stripe 的第 4 位成员,任首席技术官,推动 Stripe 的估值涨到 35 亿美元,并重新塑造了美国电商的支付体验。如果他继续陪着 Stripe 长大,可以在接下来七年获得数亿美元回报——现在 Stripe 的估值已经涨到 630 亿美元。但在当时,布罗克曼认为,投身人工智能研究更重要。
左侧是格雷格·布罗克曼,右侧是伊尔亚‧苏茨克维。来自布罗克曼的博客。
晚宴结束后,布罗克曼就开始四处挖人组建团队。他找的第一个人是约书亚·本吉奥(Yoshua Bengio)。2019 年,因为对深度学习的贡献,本吉奥和杰弗里·辛顿(Geoff Hinton)、杨立昆(Yann LeCun)一起获得图灵奖,唯独他不在为大公司效力。
本吉奥给布罗克曼列了深度学习领域最好的研究人员名单。接下来的几周,布罗克曼挨个联系名单上的人,尽管没有 Google 、Facebook 等公司的天价薪水,他还是靠着宏大的愿景说动了其中 9 位加入。
2015 年底,世界顶级的人工智能学术会议 NeurIPS(当时还叫 NIPS)举办期间,OpenAI 带着 10 亿美元的投资承诺宣告成立,目标是开发 “通用人工智能” 技术,专利和研究成果全部开放。
人们惊讶于 OpenAI 的愿景,但没多少人对这个缺少数据的联盟有信心。那一年担任 NeurIPS 大会主席的计算机科学家尼尔 · 劳伦斯(Neil Lawrence)说,OpenAI 的愿景令人钦佩,但 “没有数据共享,OpenAI 将无法造福人类”。
沿着 Google 打下的基础,找到可行的技术方向
2016 年,主流的人工智能技术路线是 “监督式的深度学习”,需要用精心标注的数据教会计算机自动完成任务。比如你想让计算机识别照片中的猫,你需要用上万张有猫的照片训练模型,而且要人去标清楚每张图片中什么是猫,然后计算机才能在新的照片里认出这种毛绒绒的动物。如果之后要识别狗,还得再来一次。
但 OpenAI 没有大规模的数据,也没足够多的钱雇佣人手去标注数据。它选的技术路线是 “非监督的强化学习”。强化学习是指让机器不断试错学习如何做某件事。非监督代表着让机器自己学,不要人引导它。这是 DeepMind 重点研究的技术,他们用它做出了 AlphaGO。
曾在 OpenAI 负责技术路线图的人工智能科学家达里奥·阿莫代(Dario Amodei)评价说,OpenAI 早期开展研究的方式类似风险投资,在一个领域设定 “投资组合”,不同的团队往不同的方向下注,最终选出最有可能做出通用人工智能的项目。
OpenAI 早期选了三个方向:一是做机器人,他们认为 “机器智力的发展需要物理实体”,于是开发出了可以单手玩魔方机器手系统 Dactyl;另一个是做游戏人工智能,借助打游戏提升机器智力水平,一开始在雅达利复古游戏中实验,后来研做了打 Dota 的人工智能;第三个是开发语言模型,让人工智能用文本语言学习理解世界,也就是 GPT 系列。
前三年,OpenAI 的研究成果没什么特别的。“我们所做的一切都只是简单的想法,但正确吗?我们还没有搞清楚,有点茫然”,OpenAI 联合创始人布罗克曼 2018 年接受采访说。这时 Google 已经遥遥领先,它的语音机器人在发布会上伪装成人打电话给餐厅预订位置——这很快引发了商业公司滥用人工智能的讨论。
OpenAI 的转折时刻是 2019 年 2 月 14 日发布 GPT-2 模型,主要功能是根据用户输入的内容,生成续写文本。比如输入《指环王》中的句子,它会在几次尝试当中的某一次,生成让人无法分辨真假、剧情和原著不同,但看上去符合逻辑的续文。
GPT-2 是一个主要用 800 万篇 Reddit 论坛帖子、总计 40GB 文本训练出来的语言模型,从数据中提炼出来的规律和特征——也就是参数有 15 亿,是上一代语言模型 GPT 的十倍。
阿尔特曼当时参加一档播客录制时说:“自然语言模型变得越来越好,是人工智能领域最令人兴奋的发展之一。” 一向言简意赅的他,把这句话说了两遍。
大型语言模型也是许多大公司投入的方向。Google 发布了 BERT 系列模型,在阅读理解、对话等多个文本任务的表现超过人类,并刷新世界纪录。微软在 2020 年初训练出 Turing-NLG 的大模型,有 170 亿参数,是当时最大的模型。
不过在大公司,训练大语言模型只是人工智能研究院的一个项目。而在 OpenAI,这是优先级最高的事项,研究员投入 30 多位,它招揽的顶级科学家几乎都参与其中。
除了之前训练 GPT-2 时用到的 Reddit 上的数据(后来大幅扩充),OpenAI 的科学家还把此前 12 年从 6000 万个域名中收集的新闻报道、帖子、书籍全文以及各种网页等数千亿个单词的英文资料喂进模型,英文维基百科全部只占数据量的 3%,然后消耗数千万美元的计算资源开发出了 GPT-3。
GPT-3 的参数是 Turing-NLG 的 10 倍,不需要针对训练就能写诗歌 / 报道、回答问题、编写代码,大多数情况下结果让人难辨真假。《纽约时报》随后发布的一篇专栏文章称,GPT-3 写散文、诗歌、代码的能力 “令人惊奇”“令人羞愧” 又 “令人毛骨悚然”。
但这类大语言模型仍然存在一些问题,当时调用一次就需要消耗不少资源,等待几分钟甚至十几分钟才能出一个结果,想要在商业中应用基本不可能。
GPT-3 发布后,OpenAI 朝着两个方向继续前进,一是开发 GPT-4,大概率会在今年发布。另一个是从 GPT-3 拆出参数更少、聚焦特定任务的模型,用更新的数据训练它,配合人类反馈数据强化能力,降低成本、提高能力,使其在商业应用上可行。
ChatGPT 就是 GPT-3 大幅度强化对话能力、并用数十万人类反馈数据训练后的结果,它的基础模型被命名为 GPT-3.5。据报道,ChatGPT 是 OpenAI 在 2022 年 11 月中旬临时开发出来的,只用了 13 天时间。起因是 OpenAI 的高管担心对手先发布同类产品 “抢它风头”。结果超出预期,ChatGPT 在全球掀起风暴。
在 Meta(Facebook 母公司)首席人工智能科学家、图灵奖得主杨立昆看来,ChatGPT“不特别具有创新性”“没有什么革命性”。
ChatGPT 和它的基础大模型 GPT-3 的确建立在多年技术积累上,不少都出自 Google。它最核心的技术是 Google 在 2017 年提出的 Transformer 模型架构,让大规模并行处理海量数据成为可能。
因为 ChatGPT 而备受关注的 “人类反馈强化学习”(RLHF)训练方式,也是出自 DeepMind,它能让模型从人类对机器不同的结果反馈(赞扬或批评)中,不断学习、改进输出结果。
就像 iPhone 发布前,多点触控的技术也已诞生多年,历史上任何一个产生巨大影响力的产品出现前,它背后技术要素大都齐全。
相比在单个方向上实现技术从 0 到 1 的拓荒创新,OpenAI 做到不只是把各种技术融在一起,还有持续的反馈中迭代 5 年,找到一个适合给大众使用的产品形态。
对 OpenAI 来说,2018 年以来一直坚持训练大语言模型,还需要勇气。GPT-2 发布前,OpenAI 钱已经不太够用了。根据 OpenAI 提交给美国国税局的文件,2017 年它光花在云计算上的钱都有 790 万美元。布罗克曼等人测算,训练大模型消耗的计算量,每 3、4 个月会翻一倍。这个趋势得到了验证。据多位业内人士估算,OpenAI 训练 GPT-3 一年,仅算力成本就有 2000 万美元。
而那时,OpenAI 的投资人在 2015 年底承诺的超 10 亿美元资金,只到账了一小部分。
与微软结盟,巧妙的利益平衡
布罗克曼等人推动 OpenAI 完成从 0 到 1 的发展过程。之后 OpenAI 从花费巨额费用支持 GPT-3 上线到 ChatGPT 震动世界,主要靠阿尔特曼。
阿尔特曼去年初在社交媒体上发的一个帖子,恰如其分地体现了他的世界观:“我非常感兴趣的一种大学替代方案是:找出全球最聪明、最有进取心的 18 岁年轻人,给他们 10 年以上的薪水和资源,让他们做自己想做的任何项目,配上聪明的同龄人——换他们未来收入里的几个百分点。”
这差不多就是他曾在 YC 做的事:选拔聪明、渴望成功的年轻人,为他们提供培训,帮他们成功——用一小笔钱(1.2 万美元)换走创业项目 7% 股份。硅谷创业教父保罗·格雷厄姆(Paul Graham)创办 YC 后,孵化出了 Airbnb、Stripe、Cruise、Dropbox 等超级独角兽,今天这些公司的总价值已有数千亿美元,超过阿里巴巴或者腾讯。
2014 年,格雷厄姆把 YC 交给阿尔特曼时,阿尔特曼除了早年有一次不太成功的创业,职业经历主要在 YC 孵化器当导师、提供融资建议。但 YC 和大部分投资机构不同,它的合伙人不雇投资经理,坚持自己理解技术。投资核聚变项目,也是阿尔特曼自己做的功课。
阿尔特曼是阿伦·索金(Aaron Sorkin)电影里那种典型的聪明人形象,语速很快、回答简练。他有比师傅更大的野心、更激进的时间表。2015 年,阿尔特曼被问及 YC 在五年后会怎样,他回答 “一年投资一千家公司”。这个数字是他接手前,YC 十年孵化的公司总数。
山姆·阿尔特曼,来自 YC。
不过他没有待到那个时候。2019 年初,阿尔特曼辞去 YC 总裁的职务,接管 OpenAI。他在 OpenAI 做的第一件事,就是组建盈利公司 OpenAI LP,然后自己担任首席执行官(CEO),找融资。
“最引人注目的人工智能系统,除了需要算法创新,还消耗最多的计算资源。”OpenAI 同期发布的一篇博文中写道,“接下来几年,我们要投资数十亿美元采购云计算资源,吸引并留住有才能的人。”
当时硅谷有这等资源的公司基本都在投资自己的人工智能技术。阿尔特曼多次飞去西雅图,为微软 CEO 萨蒂亚·纳德拉(Satya Nadella)现场展示 OpenAI 的模型。
微软早年为了 Windows 全力打击竞争对手,是硅谷创新者们眼中的 “恶人”。但纳德拉接手微软后不再追逐操作系统的占有率,改去资本市场讲云计算的故事。双方有了合作空间。
2019 年 7 月,经过一个多月的谈判后,OpenAI 拿到微软的 10 亿美元投资,双方的利益也达成了微妙的平衡。
对纳德拉来说,投资 OpenAI 是一笔划算的生意。签约后,微软成了 OpenAI 的唯一云计算供应商——投出去的钱,相当一部分变成了微软的云计算收入。
微软还成了 OpenAI 技术商业化的 “首要合作伙伴”。这意味着其他公司想使用 OpenAI 的技术,最好的方式是通过微软的 Azure 云计算。
OpenAI 从这笔融资中获得了继续训练大模型的资源。布罗克曼随后接受采访强调,授权部分技术(给微软)是为了获取研发通用人工智能的资金,OpenAI 仍有选择权,没义务必须把微软选定的技术授权给它,“如果与 OpenAI 的使命相悖,我们不会做”。
据市场消息,在 2019 年到 2023 年之间,微软又投资了 20 亿美元。2023 年初,OpenAI 发布 ChatGPT 引发大量关注的同时,微软再次向它投资 100 亿美元。
除了业务上协同,OpenAI 还在股权架构与利润分配上,与微软等投资方达成了一种罕见的协议:
微软新一轮投资完成、OpenAI LP 首批投资人收回初始投资后,微软有权获得 OpenAI LP 75% 利润;
微软收回 130 亿美元投资、从 OpenAI LP 获得 920 亿美元利润后,它分享利润的比例从 75% 降到 49%;
OpenAI LP 产生的利润达到 1500 亿美元后,投资方的全部股权转让给 OpenAI 的非营利基金。
可以说,微软这上百亿美元的投资是 “租了 OpenAI”。等 OpenAI 开始赚大钱之后,微软能直接分钱。但如果 OpenAI 变得极其赚钱,就能拿回微软手中的股份,不再受其制约。
不过 1500 亿美元是个非常遥远的目标。据多个媒体获取的 OpenAI 财务信息,OpenAI 预计今年营收会达到 2 亿美元,2024 年会达到 10 亿美元。全球最赚钱的商业公司苹果也是最近一个财年才有 1000 亿美元利润。
虽然何时能够盈利仍是未知数,但它已经有了获取收入的能力,而且它赚钱的方式也是更有想象力的平台模式。
是一个产品,也是一个基础设施
过去两个多月,ChatGPT 的影响力迅速扩大,成千上万关于它的截图和模仿者的努力,让更多人关注到它背后的 OpenAI 和 GPT-3 系列模型。
在 ChatGPT 出现之前,OpenAI 就已经从 GPT-3 中拆出了两个模型:
一个是优化编程能力的 CodeX,成为 GitHub 上自动补齐代码应用 Copilot 的基础,辅助了上百万程序员写代码。Copilot 去年 8 月开始收费,每月 10 美元。
另一个是 DALL-E,在 120 亿参数的 GPT-3 基础上用网络上的数亿图片训练的模型,它的迭代版 DALL-E2 可以根据一句话生成逼真图像,去年也曾掀起 AIGC (人工智能生成内容)潮流。
在这些应用中,OpenAI 的主要商业模式是出售 API(应用编程接口),让开发者调用基础模型开发应用,按最终用户使用服务的次数收费。
GPT-3 系列模型带来的新机会不只属于重金投资 OpenAI 的微软。2021 年 5 月,OpenAI 设立创业基金,到现在投资了 10 多家使用 OpenAI 模型接口开发应用的公司。阿尔特曼还把 YC 模式带到了 OpenAI,推出创业加速器项目 Converge,用 100 万美元投资换创业公司 10% 的股份。
还有更多淘金者冲进来。根据 gpt3demo 网站统计,现在已经有了 628 个调用 GPT-3 系列模型开发的应用程序,比 ChatGPT 出现前多了 160 家。背靠 GPT-3 模型的写作辅助工具 Jasper,成立 18 个月估值就窜到 15 亿美元。
今天最成功的技术巨头,几乎都是先做了一个成功的产品,然后将这个产品变成一个基础设施,孕育一代新的创业公司。
1980 年代初,IBM 开放个人电脑标准,在卖电脑的同时让电脑硬件有了统一的标准,成为一个平台。随后微软开发更易用的 Windows 操作系统,砍掉了得会编程才能用电脑的门槛,让更多人用上电脑,孕育软件和互联网的创业机会。再到互联网时代,一开始只做搜索引擎的 Google 和卖书的亚马逊都各自成长为平台,支持不同的新公司,从中抽取收入。智能手机也是类似的演化路径,从 iPhone 开始,全程以比 PC 更快的速度、更大的规模重来了一遍。
人工智能也在延续类似路径发展。过去几十年,英伟达等芯片公司和 AWS、微软搭建出了算力基础设施。在这个基础上,Google 和 Meta 开发出了 TensorFlow、Pytorch 等软件基础设施,一步步压低门槛,各种人工智能尝试随之出现。GPT-3 和 ChatGPT 在生成文字逗你玩的同时,也是人工智能生成内容的基础设施,意味着创业公司有可能在它的基础上找到突破口,让这个技术找到现实的应用。
最终,OpenAI 的成功不仅属于一家公司,也属于一个生态;这个生态对一个离奇点子的包容,让灵活商业探索成为可能。
本文来自微信公众号:晚点LatePost (ID:postlate),作者:贺乾明,编辑:黄俊杰