从20分追到50分，国产大模型难在哪儿？-虎嗅网

本文来自微信公众号：硅谷101 （ID：TheValley101），访谈：泓君、戴雨森（真格基金管理合伙人），文字：钟子湫，题图来自：《机械姬》

随着AI过火，最近越来越多的中国大模型加入了这场AI大模型之战。中国的大模型跟海外大模型相比到底怎么样？真格基金做了一套大模型的大模型测试集Z-Bench，设计了300个问题去评估中外大模型之家的综合能力。

在这套评分系统下，今年3月份的测试数据，OpenAI推出的GPT03.5得分60多分，之后GPT-4发布得分80分。在这套评分系统刚刚推出来的3月份，真格对中国几家创业公司的模型水平做了测试：一家是30分，一家是19分，国产的文心一言大概是20分的水平，几个月前差距还是比较大。

“就在前两天我们也陆续拿到一些国产的上市公司或者大型公司做的模型，又进行了一些测试，商汤的模型已经到了50分的水平。这也就是说国产大模型得分一开始和GPT差距很大，但现在的差距的确在不断缩小。”真格基金管理合伙人戴雨森在接受《硅谷101》采访中称：“但这里面同时也会有一个问题，就是说大模型的提分会不会有个平台期，可能你从20追到50是容易的，但50到80可能就很难了。”

本期，《硅谷101》主理人泓君对话真格基金管理合伙人戴雨森，我们将聊聊，他对国内外顶尖大模型的使用体验；以及除了芯片问题，国产大模型还有哪些要解决的问题。

以下是部分访谈精选：

一、大模型的使用体验：效果震撼，迭代速度快

硅谷101：我对你特别感兴趣的有两点，第一是想问你对于大模型的使用体验，因为我看你是一个大模型的深度使用者，不管是语言模型还是Midjourney。第二就是想问作为一个投资人，你是怎么看这些大模型的？今天我们的采访也会分成这两个部分去聊。你是什么时候开始注意到大模型然后去使用它的？

戴雨森：首先我非常喜欢尝试新东西，所以我相信在一个大的革命发生的时候最好的方式就是去使用，体验，而不是只是研究。在GPT3出来的时候，我其实也在一些 demo 上尝试过，但坦率来讲，那个时候GPT3表现出来的对话能力，尤其是中文对话能力没有那么强。在ChatGPT出来的当天晚上，我的一位同事第一时间用上了ChatGPT，他非常的兴奋，一直用到凌晨五六点钟。我当时没有OpenAI账号，所以我还专门弄了一个国外手机号，结果终于在十几二十个小时之后用上了ChatGPT。

我最震撼的是我当时给ChatGPT用自然语言描述了一下“20 问”这个游戏的规则。这个游戏本质上就是我心里想一个东西，你可以通过最多问20个问题来尝试猜到我心中想的是什么，而我只能回答是，否，或者不确定。我大概用100多个字把这个规则跟ChatGPT描述了一遍，他就可以开始和我进行游戏了。第一次我想的是猫，它用了大概五六步就猜到了是猫。第二次我想的是拜登，它用了大概14步就猜到了拜登，我真的彻底被震惊了。

硅谷101：你觉得和真人比，ChatGPT的水平如何？

戴雨森：我觉得第一步是它能够理解我给它的这个规则。第二步是它能够有效地使用二分法去进行查找。如何高效地寻找玩家心中所想的词汇？这时候就需要做一些二分法。比如玩家心里想的词是不是有生命的？如果有生命，那它是不是人？是一个活着的人还是逝去的人？这些查找的方式都还挺不一样的，但我觉得ChatGPT其实做得非常好。后来我还尝试让ChatGPT跟我下棋，写代码，还有当我的英语老师，它可以从初中到研究生水平给我出不同的英语的题，改我写的英语作文，并且给出很多很好的建议。越使用ChatGPT，我越能发现他能不断完成不同的任务。

硅谷101：除了ChatGPT，你也是Midjourney的重度用户，你能感受到它从V3到V5的进化吗？我们刚刚在讲大语言模型，那现在再来说说扩散模型，你觉得它表现怎么样？

戴雨森：Midjourney我是从V3开始用的。那时候它虽然可以产生一些有意思的概念，但和实际使用还有很大的差距，因为它还是不太能做出逼真的画面。但V4的效果直接上了个大台阶。V4对于人物、照片的处理，包括一些很风格化的处理，很明显到了一个能够打败大多数的普通艺术从业人员的水平。

接下来再来说说V5。V5让很多细节和场景变得更真实了，所以有的时候不是那么的风格化，这就更贴近现实生活了。V5还有一个重要的功能就是“describe”。describe的功能是让你传一张图片，然后模型可以给你生成几个可能的prompt。传统的文生图工具需要你直接对着一个输入框去想你要画什么，这其实很难，因为人的创作往往是先看到某个图片或者物体，被激发了灵感，然后再在这个基础上进行调整。举个具体例子，假设我看到一个图片的构图不错，但我想改一下图中的对象，或者我看到一个图片景色不错，但我想把画中的“白天”改成“晚上”，这时候我就可以使用describe功能，让模型帮我去生成一个很好用的prompt，然后我在此prompt的基础上再进行修改。这与我之前先在脑子里主动想到一个场景，再根据语言详细描述该画面，自己从头写prompt的工作方式相比，简单不少。

再总结一下，describe就是图生文，只不过生成的文是prompt，然后你可以直接用这个prompt再生成图。

（Midjourney的describe功能）

硅谷101：我记得你之前说你一直想画一个大教堂，但是一直没画出理想的，卡在哪了？

戴雨森：可能我当时没用describe这个功能去尝试，如果我上传一张科隆大教堂的图，让模型给我生成一个prompt，再基于这个prompt进行修改，没准就能画出理想的图片了。但说实话，如果你想很仔细地画一个东西，Midjourney不太行，在这方面stable diffusion加control net会更有优势。Midjourney的特长在于帮你进行头脑风暴和画出很有艺术感的图。但当加入了describe这些元素之后，模型的可控性就会变强一些，因为我相信大多数公司都是需要有时候发散，有时候可控。大量的商业场景还是需要可控的，如果它完全不可控，那肯定不是一个最有效率的方式，但是可能是一个最有意思的方式。

硅谷101：刚刚你提到了很多大模型让你惊艳的部分，但如果反过来想，你觉得这些模型有哪些地方表现得还不够好？有一个AI研究员告诉我们说如果你不知道某个问题的答案，就不要问ChatGPT，因为他给你的可能是对的，也可能是胡诌的。从你的角度，你觉得ChatGPT在哪些任务中可以被直接应用，而哪些方面还不太行？

戴雨森：首先，我觉得所有和语言相关的任务ChatGPT都可以直接应用。这个语言包括自然语言和编程语言。实际上现在很多人的代码已经有超过一半是Copilot 写的了。ChatGPT能够很好地完成像翻译、总结、改写、扩写等一系列语言任务，因为它本身就是大语言模型。其次，需要头脑风暴的任务ChatGPT也可以很好的处理。比如列提纲，写信，或者写job description，针对这些任务，我都可以先让ChatGPT把大概的内容列出来，然后我再进行修改。

但是，如果你长期使用ChatGPT，你会意识到它的缺点非常多，但同时你应该也能发现它在非常快地迭代和修正。在ChatGPT刚出的时候，它连三位数的加法都还没法准确计算，但现在它其实能做更多位数的加法了，不过在乘法运算上还是差一些。

另外，它对于事实性问题的回答肯定还是不太行。所以，你要从语言和逻辑的角度使用ChatGPT。但如果你想从知识的角度去使用它，很多时候还是要通过prompt或者embedding的方式把增值的新信息给它快速灌进去，否则他就很可能会胡诌答案。整体来讲，当你意识到它有这些缺点的时候，就不太会被它骗。但如果有一天ChatGPT的知识准确度达到了99%，只有1%的时候胡说八道，那个时候可能才是最危险的。

（由Midjourney绘制）

二、300个问题组成大模型的评分系统

硅谷101：我看到你们做了一个专门评价大模型评估的Benchmark，为什么要设计这样一款模型？从你的评估模型来看， GPT 4比GPT 3.5好在哪？如果再把它跟一些国产的大模型比，好在哪？

戴雨森：先来介绍一下我们做这个评估模型的背景。当ChatGPT火了之后，出现了很多做聊天机器人或者做国产大模型的初创公司，有的公司用了ChatGPT，有的说自己训了模型。但是，哪怕很多资深的投资人在面对一个新的类似GhatGPT的应用时，能做的也就是随便问几个问题，这种问题可能是随便想的，或者说是难度比较低的，但这样的测试其实很难反映出这个类似ChatGPT软件的真实水平。

我们作为非技术人员，其实也不想做一个特别严谨的测试集，但我们希望能实现手工检验模型的边界能力，因此，我们希望让这些测试问题有区分度，有来历。我们有时候会问一些日常中比较有意思的问题，比如问它麻辣螺丝钉的做法，看它会不会跟着胡编乱造。同时学界也有很多NLP任务的研究，比如OpenAI在ChatGPT 出来的时候就公布说ChatGPT已经具备了48种基础能力，然后我们就通过这个构建了第一版本的测试问题。我们还从MMLU和BIG-bench这些比较成熟的NLP测试集中抽取了一些能在各个领域反映模型不同能力的内容。同时，我们也参考了ChatGPT新具备的能力，如涌现能力，写代码能力，用SVG语言画图的能力，处理更复杂应用题的能力，最后总共设计了300个问题。这样一来，非技术人员也能够通过手工输入测试，来对一个大模型的整体能力进行评价。

（备注：MMLU是一个2020年推出的包含57个不同学科的数据集，科目从STEM到人文，题目难度从初级到高级不等，主要目的是为了检验预训练模型的知识获取程度。BIG-bench同理也是一个自然语言理解基准测试，旨在评估人工智能模型的泛化能力、理解力和创造性。）

在三月份的时候我们测试了一下，GPT-3.5的分数是60多分，而GPT-4则是大概70分。

硅谷101：这个60多分是怎么打的？怎么样的评价标准？

戴雨森：用回答正确数量除以300。国产的文心一言大概是20分的水平，我们还测试了几家创业公司的模型水平，一家是30分，一家是19分，虽然我们需要鼓励创业公司，但是差距还是比较大。前两天我们也陆续拿到一些国产的上市公司或者大型公司做的模型，又进行了一些测试，整体来讲进步还是很快的。比如说商汤的模型已经到了50分的水平。到了现在，GPT-4现在也许已经可以打80多分了，这也就是说国产大模型得分一开始和GPT差距很大，但现在的差距的确在不断缩小。但这里面同时也会有一个问题，就是说模型的提分会不会有个平台期，可能你从20追到50是容易的，但50到80可能就很难了。

硅谷101：除了从分数角度对比不同的模型，能不能给大家举个例子，假设针对同一个问题，GPT-3.5，GPT-4还有文心一言的回答都是怎么样的？

戴雨森：假设你问这些大模型麻辣螺丝钉的做法，应该只有GPT-4会瞬间告诉你螺丝钉不是一个菜，不能吃；但其他的模型都会假模假样地说麻辣螺丝钉的做法是放上辣椒，加上红油，然后再加入螺丝钉少许。同样，当时我们还有一个很经典的问题，就是问大模型为什么爸妈的婚礼没邀请我参加。只有GPT-4回答了正确答案——你当时还没出生；而其他模型都回答说可能因为当时他们太忙没邀请你，或者你没时间。

硅谷101：你刚提到的这个麻辣螺丝钉的例子特别有趣。我们之前在播客录制的时候，有一个嘉宾直接在播客里问我晚上有没有吃爆炒篮球。后来在这个播客播出去了以后，就有很多听众在GPT-3.5上搜爆炒篮球，我看按照他们评论的时间，最开始GPT-3.5还会一本正经地解释这个爆炒篮球怎么做。但是隔了一两天后，GPT-3.5第一次告诉大家爆炒篮球不能吃，或者这样做是有风险的。再隔一天GPT-3.5就会告诉大家，爆炒篮球不是一个菜，就不应该这样做，由此可见GPT-3.5是在不断进化的，而且进化速度很快。

戴雨森：你去用ChatGPT的时候，你会发现下面有一行小字，这个小字就是告诉你现在用的是ChatGPT哪一天的版本。在我们不断和ChatGPT进行交互的过程中，用户可以顶，可以踩，也可以重新让ChatGPT生成新的回答，生成新回答之后ChatGPT可能还会问你这个新答案比原来的更好还是更差。所以其实我们用户是在不断通过人工反馈，来让模型训练的越来越好，这就形成了数据的飞轮效应。虽然很多地方都有这种用户的对话数据，但是就用户跟特定聊天机器人的对话数据而言，ChatGPT的数据量远远大于其他人。

硅谷101：说到大模型的变化，过去两个月的进展真的太快了。在过去一两个月内，大模型领域有哪些进展？你现在的认知跟两个月以前有什么不一样？

戴雨森：我觉得进展非常大。在ChatGPT刚出来的时候，我只是把它当作一个聊天机器人，我们惊讶的是它能够进行多轮对话，还能够根据下文给出合适的回答，但这基本都属于NLP的任务。

后来，我们逐渐发现它可以写代码，写营销文案，甚至图像类的生成模型还能帮我们生成精美的图片、照片、还有漫画。这时候，ChatGPT就从聊天机器人进入到下个Copilot阶段。在这个阶段，它能够帮助我们去做很多事情，而我们要做的就是给出目标，帮助Copilot进行选择和调整。

接下来，得益于像reflection、Hugging-GPT这几篇论文，Auto-GPT和Baby AGI这类大模型也逐渐发展起来了。这些模型能够识别一个任务，把它进行拆解，分解成子任务，调动合适的工具去完成子任务，观察自己完成的结果，对结果进行反思，并且调整他要做的任务，实现了从识别任务到调整任务的一整个循环。同时，GPT-4也出了插件系统，之后它就可以调用外部的插件去检索信息，写代码，然后完成很多更复杂的任务。在这个阶段，大模型又从Copilot进一步变成了Agent。那么在Agent的设定下，大模型就可以基于人给出的初始目标，然后通过自我迭代去完成目标了。

如果我们把大模型的迭代跟自动驾驶去对比的话，大模型也可以有一个五级分类：

L1就相当于AI没有做任何事，都是人做事情。

到了L2，人可以去问AI很多问题， AI可以给我们信息，但还是人来做事情，这个就比较像现在我们和ChatGPT的交互模式。

L3则是Copilot阶段，就是人和AI都要做事情，并且付出的精力都是50，比如像写代码的GitHub Copilot，或者像需要人给出prompt才能生成图片的Midjourney。

到了L4，人更像一个监督者，人要做的主要就是给出目标，监督AI，以及提供一些必要的接口和计算资源。Auto-GPT和Baby AGI就是L4的雏形，当人给出了目标后，AI将会去自主地分解任务，选择工具，并且最终完成任务和进行汇报。在这个阶段，AI做了大部分工作，而人需要做的则是指定任务和监督。

那么L5是什么样子的呢？到了这个阶段，可能人只需要给出目标，连监督都不用了，AI就能把所有的事情全都做完，并且可以一直延续下去。冯诺伊曼提出的冯诺伊曼机器人就是可以进行自我复制的机器人，他可以自己搜集资料，复制自己，最后扩展到整个银河系。从某种意义上讲，人可能也是一种完全自主的生物，如果有上帝的话，人类可能就是一个达到了L5的智能。

综上，在不同的范式下，人和AI的关系其实是不一样的。

三、国产大模型：不只是芯片问题

硅谷101：国内最近也有很多大厂的大模型在密集发布，比如说百度、阿里、华为；另外，上一批移动互联网创业的成功者也在做大模型，比如王慧文，王小川；像贾扬清、李志飞之前说要做大模型，但现在做的应该算是应用。你能否介绍一下，中国市场大家做的大模型分别都是什么？

戴雨森：目前来看，像百度、字节、阿里、腾讯、商汤、360这些大厂，包括王慧文、王小川的公司，唐杰带队的智谱，这些都是想做一个类似GPT-3.5或者GPT-4的大模型。这类大模型一般都有上百亿参数，能够解决很多NLP和通用领域的问题。但是像贾扬清，他可能是想做一个偏中间层的创业公司。我觉得在这过程中肯定大家也会去思考到底大模型是不是适合做，以及现在是不是做这件事的最好时机。

同样，大家现在是基于有了ChatGPT才能够去延伸的这么一个逻辑。但越到后来大家可能越会有不同的观点出现：第一，如果出现了一个很好用的国产大模型，没有抢到头筹的团队可能就会去想是不是转去做应用会更好？第二，做大模型真的是了解现在的AGI或者未来AGI能力的唯一途径吗？也许大家未来会有其他理解方式，所以其实也没必要做大模型。

举个更形象一点的例子，目前大家只有坐船才能到美洲，所以所有人都先造船。如果有一天大家有飞机了，那也不用造船了。但就目前没有飞机的情况来看，还是得先造船。现在在中国，所有人都没有船，因此大家的第一反应都是要自己造，这是个很正常的情况。美国为什么没有独立做大模型的新公司了？因为美国已经有几条固定的“大船”了，如OpenAI号，Claude号（Claude是由Anthropic开发的聊天机器人，Anthropic是由OpenAI黑手党创立的AI公司），Cohere号（Cohere是一个在多伦多的NLP处理平台公司，由Google前研究人员创立），还有Bard号（Bard是Google开发的基于LaMDA大语言模型的聊天机器人）。有了船之后，人们就该思考“到美洲之后我该做什么”了，有的人去种棉花，有的人去挖煤炭，于是各种用于不同场景的应用就相继出现了。

硅谷101：那中国的大模型未来是一个怎么样的格局？是一家独大，还是百家争鸣？

戴雨森：我觉得这个问题目前来看还没有答案，我觉得未来的大模型格局会是一个光谱。

第一种就是集中度最高，也就是赢者通吃的局面。如果大模型未来是一个主要ToC的场景，也就是说未来很多人都会用像ChatGPT这样的助理，那么我可以想象，大部分人最后都只会用某一个最领先的助手，可能是ChatGPT，也可能是另一家公司，但我完全没有理由用一个第二名的。就像Google的搜索引擎占了93%的搜索引擎份额，你如果做的引擎超不过Google，我肯定不用你，就算你超过了，但没超过太多，我也没动力为你改变我之前的习惯。

第二种，也有可能形成一个寡头垄断的局面。假设未来使用大语言模型的场景是ToB而非ToC，并且OpenAI没办法长期保持一个特别遥遥领先的状态，那么第一梯队可能会有2到3家或者3到4家都还不错，各有特点的公司。这就像公有云一样，有的公司跑在AWS上，有的跑在Azure上，还有的跑在Google Cloud Service上。

第三种，也有可能形成一个百家争鸣的局面。大模型这事现在很厉害，但当它逐渐变成开源的，越来越多的人都可以把开源的模型微调之后部署在自己的服务器上，那这个时候可能就变成了一种百家争鸣状态。也许OpenAI就是一个开创者，未来它的大量技术都变成了人类共有的技术。

硅谷101：在聊到大模型的时候，大家都会谈到芯片。如果未来芯片不能持续供应，或者说芯片性能跟不上，但美国的芯片还在持续进化中，你是否觉得中美大模型之间的差距会越来越大？

戴雨森：第一，我们要弄清楚大模型训练是个百米赛跑，还是百公里长跑？如果它是一个很快会遇到瓶颈的事情，那可能现有的算力就够了。但是，如果模型未来会变得越来越大，那现在这些芯片就不太能用了。虽然现在很多人认为后者是未来格局，但是也不一定。

第二，模型训练的效率和方法本身也在不断提高，在之前需要很多算力才能被训练的模型，现在也许会有更省算力的训练方式。

第三，芯片虽然是我们现在看到的一个显著问题，但我们在数据、基础设施、算法这些方面其实都有很多待解决的问题，因此我们不能把问题的解决方式只简化成“买一万块A100芯片”。你如果非要一万块A100，其实国内是有这个数量的，但是我们离用好1万块A100还差很远。

假设你想探索怎么去做一个像GPT-3.5那样的模型，其实根本用不到一万块A100，你想想GPT-3其实是在一万块V100上训练出来的，而且GPT-3.5 本身就是一个更小的模型。所以，这件事反映出来我们其实有很多跟芯片一样重要，甚至在短期内比芯片更重要的问题还没有被解决。

硅谷101：中文互联网的数据你觉得会是一个问题吗？

戴雨森：我觉得完全不是问题。简单来说，ChatGPT并没有用什么独有的中文数据，它就已经在中文上具有这么好的表现了。如果从预训练的部分来看GPT-4的话，实际上维基百科和Common Crawl对应的论文都是通过英文，然后泛化到中文来的。

所以，我并不觉得Open AI拥有我们没有的中文数据，但如何将现有的中文数据进行清洗，标注，提供人工反馈，这才是真正的难点。可见我们需要解决的是一个工程问题，而非语料问题。

四、AI的安全风险与未来

硅谷101：GPT是怎么做出来的，它中间经历了哪些重要的时刻？能否介绍一下几个关键节点？

戴雨森：现在微软可以每天训练一个GPT-3，因为训练GPT-3已经变成了一个顺手可做的事情。但是微软自己没办法训练GPT-4 ，只有在Azure那一台专门为训练GPT-4打造的超算上才可以训练，可见 GPT-4的训练难度高了很多。

硅谷101：为什么微软可以随便训练一个GPT-3？而GPT-4就不行？

戴雨森：GPT-3所需要的算力以及对应的架构已经很成熟了，你可以直接通过云服务获得算力，但 GPT-4所需要的算力达到了一个新的级别。其实GPT-4初始的能力比现在强很多，我看过一些没有经过微调的GPT-4画出来的图像，它比现在GPT-4画出的图像精细很多。如果你看了“通用人工智能的火花”这篇论文，你会发现GPT-4是可以画图的。在论文中它画了个独角兽，但是那已经是经过微调之后的GPT-4画的了。没有经过微调的GPT-4画的图其实要比那个精细很多。换句话说，GPT-4为了和人类对齐，牺牲了很多它的能力。

硅谷101：你刚提到GPT-4没有经过微调的版本比现在强大很多，为了让它符合安全标准，不要说不该说的话或者有种族歧视，它经历了八个月的安全测试。你觉得OpenAI的下一步会怎么走？它有可能会把之前未阉割的模型版本再放出来一些吗？

戴雨森：这个问题可能只有Sam Altman（OpenAI总裁）能回答。首先，OpenAI让我觉得很厉害的一点就是他们一开始是一个研究机构，而且研究内容比较发散，但后来就变成了一个做产品的公司。

GPT=4发布之后，我听到两种声音：一部分人觉得很失望，因为它没有做文生图或者多模态，主要还是文字。但同样还有一部分人觉得很厉害，当然后面插件和Auto-GPT出现之后，就更厉害了。这恰恰反映了OpenAI在用一种做好产品，做一个上亿人使用的基础产品的态度去做这件事情。如果是个学术研究机构，他可能会更有动力去发表一个视频到文字，或者说文字到视频的研究结果。

OpenAI不光把已有的基础打好了，它还在努力的让产品去和现有的价值观匹配，那么这个价值观主要是美国加州白人男性的价值观。全世界有很多文明，在一个文明完全正确的事情，在另外一个文明可能就是不正确的。同样我们的价值观变化也非常快。

在价值观不断演变的过程中，你会发现AI该跟什么价值观对齐，该如何动态调整，都还存在很多问题。那么在这个过程中我觉得也需要一些跨国的合作，就像核不扩散国际公约一样，但核不扩散条约大家是否遵守还比较好检验，但是在计算机里运行着的最先进的AI实际上很难被看出来。因此，我们一定要去思考该如何对这种未知，同时又可能具有很大破坏性的应用进行监管。

举个例子，电话诈骗、杀猪盘，现在可能是比较弱智的骗术，但以后有了AI的加持，就会变得更加强大。进一步去想，假设在一个选举中可以用AI打电话给100万个关键选民，结果有1万人改了投票，也许美国总统就变了，这可能就是非常大的一个变化。另外，如果AutoGPT调用了一个发消息应用的API，它完全可以不知疲倦地生成虚假内容，去填塞整个互联网。AI消灭人类还是比较偏科幻，但是它目前是个强大的语言工具，而我们又缺乏对于一个看似形式很完善的谎言的识别能力，所以这其实非常危险。现在有些人抨击OpenAI说它不开源，但我认为如果我们还没意识到GPT的能力，冒然开源可能会有很大的风险，至少我们等到知道该怎么防御，再进行开源。

硅谷101：除了AI的安全风险，我觉得OpenAI的股权设置也很值得讨论。Sam本人他是没有任何OpenAI的股权的，主要股权都给了OpenAI的科学家。OpenAI一开始是一个非盈利型公司，但后来又在非盈利下面设了一个盈利型公司。如果在盈利型公司有股权，就意味着可以获得财务回报，但是在董事会就会没有投票权。Sam不持盈利性公司的股权，也就是说不要财务回报，而要投票权，我在想为什么Sam要去做这样一种设置？

戴雨森：Sam其实提到了一点，微软现在虽然有49%的收益权，可以赚钱，但是它没有控制权。因为他们从一开始就相信这样的技术很危险，需要得到有效的监管和控制，不能够落入邪恶的大公司手里。但是，又因为大公司有钱，能够帮助小初创公司去开发，所以大家才定下来这种收益和控制分开的协定。这是一个很有意思的设定，大家提前把话说清楚，赚钱，控制，你只能选择一个。最开始，OpenAI就是因为不在这种大集团里，才吸引了很多优秀人才，但是随着公司未来越做越大，还是得解决被资本裹挟的问题。

硅谷101：我看到你们也投大模型的应用层，我很好奇从投资的角度，你会怎么去判断一个项目，甚至是一个人他值不值得投？

戴雨森：底层能力我们一直认为是类似的，比如说学习力、领导力、创新力、意志力，这些都是普世的优秀品质。但是，每个公司的情况不一样，创始人所需要具备的技能也不一样。某个新领域的第一家公司可能需要创始人有很强的探索能力，但第二家公司可能就需要更强的执行能力，所以我觉得不宜直接去类比。

另外，OpenAI几个人的搭配非常厉害，每个人在自己应该做的事情上都是世界顶级的。比如Greg Brockman有90%的时间都在写代码，在这里我不是想强调他代码写得多么好，而是想说在公司早期很多事情都不确定的时候，组织里面有一个非常有话语权，执行力非常高，且知道每一个环节都在具体做什么的人非常重要。

当公司业务已经比较清楚，且到达了一个学习，研究和探索的阶段后，如果核心成员会的东西牵涉到的领域多，牵涉到团队多，就会很有帮助了。但不管怎么说，有技术背景的人当CEO，也有老王这种商业业务背景的人当CEO，创业它永远无法是一副完美的牌，哪怕你有看上去完美的牌，你也未必能打得完美它。

硅谷101：最后还有什么要补充的吗？

戴雨森：首先，我觉得AI这一波跟之前的元宇宙，Web3这种大家觉得有泡沫的浪潮，我觉得还有些不太一样的地方。任何科技进步都有很多泡沫，没有泡沫的地方也不会有啤酒，但是我觉得判断一个事情是不是只有泡沫，取决于他是否给普通的用户提供了直接的价值。不管是AIGC还是ChatGPT，都做到了在使用门槛低的情况下给普通用户提供了价值。原来我们所有的技术其实都在改进我们使用的工具，而这次是第一次我们直接改变了工具，并且这个新工具可能是比我们人类还要更强大。数字世界的迭代是非常快的，我们看到的像Auto-GPT这样的雏形，可能三五年之后就会变得完全不一样，会完善、成熟很多。所以在这个过程中我们要保持开放心态。

然后最重要的一点，在一个技术革命的早期去预测未来，基本上都是错的。试想2010年的时候，移动互联网的浪潮其实已经开始了，然后移动互联网跟互联网比其实也差不太多，但如果让你在2010年预设2023年的移动互联网赢家，你会想到字节、快手、小红书、拼多多、美团、滴滴、Uber吗？我觉得非常难。如果预测移动互联网都这么难，那预测AI我觉得就更难。就有人说大模型会吞食掉应用的空间，有人说开源会战胜闭源，我觉得我们一定要记住，这是一个大部分人就只接触了几个月的技术，所以这个时候大家可以猜测，但不用特别在意它的精确度。尤其是对于年轻人来讲，早点去投身其中，去尝试、去探索其实才是代表命运最好的方式。

在过去几年我经常听人说80后很幸运，因为赶上了互联网的浪潮。我觉得20年之后，大家会说00后很幸运，因为赶上了AGI火花的诞生。我相信技术成熟有利于成熟创业者，但新技术反而利好年轻人。

本文来自微信公众号：硅谷101 （ID：TheValley101），访谈：泓君、戴雨森（真格基金管理合伙人），文字：钟子湫

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

从20分追到50分，国产大模型难在哪儿？

大 家 都 在 搜

大家都在搜