扫码打开虎嗅APP
本文来自微信公众号:刘润 (ID:runliu-pub),作者:刘润,编辑:二蔓,原文标题:《刘润:我对OpenAI,知之甚少》,题图来自:AI生成
今天终于如常所愿。
在网上,我看过太多关于OpenAI的新闻,见过太多关于OpenAI的分析,我自己也根据这些新闻和分析,写过不少关于OpenAI的思考。
但是,说实话,我并不确定我的思考对不对。因为我从来没有和接近OpenAI的人,有过直接的交流。我对OpenAI,知之甚少。
所以,这次来硅谷,我一个非常重要的目标,就是能约到接近OpenAI的人。最好是OpenAI的员工。最好最好是OpenAI的早期员工。因为他们,最能理解这家公司如何崛起。如果能和他们做些深入交流,就能纠正自己的很多错误思考。
今天,问道全球的企业家朋友们和我一起,见到了Pieter Abbeel。
(Pieter Abbeel&刘润@硅谷)
Pieter,是加州大学伯克利分校的教授,机器人学习领域有重要影响力的科学家。他曾担任OpenAI的顾问。重点来了。2016年,他全职加入了OpenAI,是OpenAI最早的10名员工之一。后来,他离职创业。他联合创立的人工智能公司“Covariant”,今天的融资规模,已经超过2亿美金。
这是一个非常难得的机会。我忍不住问了很多问题。Pieter很有耐心地逐一回答。很多问题的答案,和我想的果然完全不一样。但是很受启发。
当然这些答案,并不能代表OpenAI官方。我想强调一下。下面这些,是Pieter的观点,不是OpenAI的观点。但我还是想分享给你。希望你能至少多听到一种,可能不同,也可能不对,但至少离OpenAI比较“近”的声音。
好的。我们开始。
一、AI,是不是过热了?
我们的第一个问题是:AI,是不是过热了?
是的,Pieter说,AI是过热(Hype)了。
2012年之前,我每天的工作,就是回回邮件,读读论文,教教书。很清静。因为校园外面根本就没有人关心,AI是什么。
但是,2012年之后,一切都变了。亚马逊的杰夫·贝佐斯邀请我,一起讨论AI可以做什么,微软的比尔·盖茨邀请我,一起讨论AI能做什么。一夜之间,所有人都在讨论,AI是什么,能做什么。
从这个意义上来说,AI是过热了。
但也许,AI事实上并没有过热。因为,AI并不需要这个“热度”。
你设计了一款虚拟货币,如果这款虚拟货币没有“热度”,大家都不用,它就不存在了。你设计了一款社交软件,如果这款社交软件没有“热度”,大家都不用,它就不存在了。
但是,如果有人说AI是过热,他们选择不用,没问题。不用就好了。因为他不用,丝毫不影响AI对我的价值。我用。那么,他的生产力就不如我。他会逐渐被淘汰。
这就是AI的美丽之处。它的价值,不依赖于别人。AI会越来越热。
而这一切,都从2012年开始。
二、这一切,都从2012年开始
为什么是2012年?
Pieter说,如果你走出这个房间,明天就要和某人分享什么是AI,我希望你记住,两个重要的时间点。
第一个时间点,就是1956年。
这一年,一些数学家和科学家聚集在达特茅斯(Dartmouth),讨论未来的计算机是否能像人类一样聪明。他们中间不少人,后来获得图灵奖和诺贝尔经济学奖。
在这次会议上,他们首次把这种想象中的“机器智能”,命名为人工智能(Artificial Intelligence,也就是:AI)。
因此,1956年,也被称为人工智能元年。
第二个时间点,就是2012年。
从1956年到2012年之间,AI有什么进展?
用三个字来形容,那就是:没进展(not much works)。大家尝试了很多方向,但都举步维艰。AI比想象中难太多了。直到2012年。
这一年,AlexNet横空出世。三位杰出科学家,用卷积神经网络技术,让AI对猫狗照片的识别率,首次超过人类。
这三位杰出科学家,除了AlexNet名字里的Alex Krizhevsky(亚历山大·克里切夫斯基)之外,另外两位,一位就是后来OpenAI的联合创始人、首席科学家,llya Sutskever(伊利亚·苏茨凯弗)。另一位就是谷歌副总裁、深度学习之父,Geoffrey Hinton(杰弗里·辛顿)。
他们为人工智能,找到了正确的道路。之后,就是规模的事了(Scaling Law)。参数规模。数据规模。
有意思。
参数规模很重要。数据规模很重要。但是AI学习的大规模的数据,它们的知识产权,应该归谁呢?
三、AI学习数据的知识产权,到底属于谁?
好问题,Pieter说。
2023年,《纽约时报》起诉OpenAI及其投资方微软,称其未经授权,使用了其数百万篇文章来训练AI大模型。纽约时报要求赔偿以及销毁,其使用其版权材料的AI模型和训练数据。
这个指控有没有道理呢?
Pieter说,我认为是有道理的。AI学习你的数据,应该获得你的同意。如果用AI通过用这些数据训练的模型赚到了钱,也应该分给内容创作者。
为什么?
你花100美元买一本书。然后因为学习了这本书里的知识而赚了钱,是不用把钱分给书作者的。因为你已经付过钱了。你付了100美元。像你这样的人,可能有1000人,或者1万人,甚至100万人。每人付100美元,这位作者就能养活自己,然后继续创造更有价值的知识。
但是,AI不一样。AI学完这本书之后,很可能全人类就不用学了。他们问AI就行了。也就是说,理论上一本书的作者,未来可能只有一位读者,那就是AI。因此,这位作者写一本书,就只能赚到100美元。100美元养不活一位作者。于是人类将会失去创造知识的动力。而因此,人工智能也再无知识可学。
所以,AI应该给纽约时报分钱,应该给每一位内容创作者分钱。
但是,今天AI还没有这套机制,能算清楚每一条收费的回答中,有多大比率,用了哪些内容创作者的知识。如果这套机制被创作出来,因为过于复杂,可能会用2美分的计算成本,分给了作者1美分的内容收益,得不偿失。
但是,这确实是未来需要解决的一个问题。
理解了这个问题,你就会理解,为什么《纽约时报》会起诉OpenAI,却不起诉谷歌了。
四、流量生成器
你仔细想想,谷歌是不是也抓取了《纽约时报》的内容?
谷歌是搜索引擎。搜索引擎的工作原理,是先抓取整个互联网的内容(当然包括《纽约时报》),然后分析其中的关键词,以供用户快速搜索。
那么,为什么《纽约时报》会起诉OpenAI,却不起诉谷歌?
因为谷歌是一个流量生成器(Traffic Generator),而OpenAI不是。
你在谷歌上搜索“特朗普今年会当选吗”。出来很多文章链接。其中一篇来自《纽约时报》。你点了进去。谷歌生成了流量,然后转手送给了《纽约时报》。然后,你是在《纽约时报》上,看完这篇文章的。你可能也同时看完了《纽约时报》上的广告。《纽约时报》赚到了钱。
但是,OpenAI不一样。因为OpenAI给用户提供答案时,并不把用户引导回这个内容的源头。创造内容的人做出了贡献却没有回报,而与此同时,OpenAI,以及所有聊天机器人,却因此而获益。
所以,人们会起诉OpenAI,却不会起诉谷歌。聊天机器人和内容创作者之间的关系,是一个需要解决的问题。
醍醐灌顶。一直以来的困惑,终于被解惑了。
那么,你觉得,美国的AI会一直领先于中国吗?
五、美国的AI,会一直领先于中国吗?
Piete说,我认为不会。
作为人类,美国人和中国人之间,并没有本质区别。只要足够努力,我觉得没有理由,一个国家可以永远领先于另一个国家。
而且从历史上来说,美国在研发上,可能是更擅长于研发,可探索新方向。可是,一旦“北极星”(North Star)被找到,就到了中国更擅长的部分了。那就是向同一颗“北极星”,拼命奔跑。
现在AI的“北极星”已经被找到。下面的问题,就是更多的数据,和更多的算力了。所以,大家最终的水平可能会差不多,因为是同一颗“北极星”。
可是,不是听说,OpenAI已经开发出更先进的ChatGPT,即将甩所有人一大截,并遥遥领先了吗?
六、OpenAI,正在憋大招吗?
我不知道。
我已经不在OpenAI工作了。如果我还在OpenAI工作,我可能也不被允许评价此事。
所以,这是我个人的猜测。我猜测,现在OpenAI肯定是领先的,但可能没有“那么那么”领先。Anthropic正在迎头赶上。Google正在迎头赶上。在公开市场上,OpenAI并不“遥遥领先”。
而OpenAI喜欢保持“领先的姿态”。如果OpenAI确实已经有了一个“遥遥领先”的版本,他们可能已经发布了这个版本,以提醒所有人,OpenAI永远是领先者。
我并不真的知道。我只是高度怀疑。
另外,最近有不少人从OpenAI离职。如果OpenAI的下一个产品遥遥领先,他们的员工没有理由激动地加入其他远远落后的公司。
OpenAI绝对是领先的。但是可能没有“遥遥领先”。
了解。感谢Pieter。那么,是什么阻止AI继续获得突破性进展呢?
三个问题。算法、算力,和数据。
七、算法:Transformer,一定是最好的架构吗
2017年,谷歌提出了Transformer的算法架构。这是今天大模型的基础。也是ChatGPT里的“T”。
Transformer模型被证明非常高效。但是,它一定是最高效的吗?我想,在某个地方,一定有比Transformer更高效的模型。我们对人类的大脑的研究,还是不够的。
这是一个开放式问题。因为大家都在寻找答案。很多大学都在研究这个问题。但是今天,谁都没有答案。
再比如,能耗。
八、算力:AI能耗,是人类的上万倍
今天的AI,需要太多的算力。也因此需要太多算力背后的电力。也就是能源。
人类的大脑,耗能只有20瓦。但是今天的GPT,功耗是几万,甚至几十万倍于人脑。
那么,有没有可能,有一天我们的AI,不是基于“硅”来计算,而是基于类似于人脑的“化学反应”来计算?
这是一个很容易想到的,但却没有人做的事情。因为这不容易。
现在,已经证明规模是有用的。所以,把规模做大,是有确定的结果的。但是从0到1研究,基于“化学反应”的计算,结果完全不确定。所以没有什么人做。
另外,还有数据。
九、数据:只有思考结果,没有思考过程
今天我们用的所有数据,都是人类“写下来”的。
但是,你认真想想。人类是不是要先做很多的思考(thinking),才有可能写下(writing)一些结论?
AI没有看到我们的思考过程,它只看到了我们的思考结果。所以,也许只有人类把所有思考的过程都写下来,或者说出来,AI才能根据这些数据,具备真正的“推理”(reasoning)能力。
所以,我们的数据看上去很大,但是缺失了非常大的一个部分。
十、打开思维的疆界
算法。算力。数据。
脑洞大开。
2022年11月,这个世界彻底变了。这个月,OpenAI发布了ChatGPT 3.5。
ChatGPT 3.5,就像按下了一个“不可撤回”的开关,打开了一扇从未见过的大门。原来,门外还有比人类更聪明的物种:AI。整个世界为AI而兴奋,也为AI的挑战而焦虑。
但是,到底AI会如何改变这个世界?我很有幸,听到真正的顶级科学家的最前沿思考。虽然这些思考,也不一定对。虽然这些思考,在科学家界也有争议,但是打开了我思维的疆界。
感谢Pieter。收获巨大。
不管这个世界怎么变,我们要做的都是去理解这个变化,适应这个变化,拥抱这个变化,最终善用这个变化。
希望,AI最终能让全人类受益。