扫码打开虎嗅APP
本文来自:华尔街见闻APP,作者:袁伟,题图来自:视觉中国
“百模大战”正酣,谁能真正脱颖而出?
12月28日消息,创新工场董事长兼CEO、零一万物CEO李开复在接受媒体采访时表示,中国人工智能领域的竞争仍然处在预选赛阶段。在经历行业大“洗牌”过后,最终只有几个大赢家,还有部分企业可能会体面地退出,但大多数企业要么半途而废,要么转向更实际的目标,比如为特定行业构建应用和解决方案。
李开复表示,中国的大模型公司正处于技术验证阶段,它们需要证明自己有能力开发出高质量的模型。而那些通过考验的公司将迈向下一阶段,即如何增加收入并实现盈利。
在谈及中国AI公司前景时,李开复称,他更倾向于在全球范围内展开竞争,未来有机会为不同的国家构建不同的特殊模型。
今年夏天,李开复闯进了大模型的赛道,创立AI公司零一万物,并在上月发布了预训练大模型Yi-34B。与此同时,零一万物已完成新一轮融资,估值超过10亿美元,在成立不到8个月的时间即跻身独角兽行列。
李开复在采访中还谈到芯片库存问题,他称现有的库存足够零一万物使用18个月。
以下为李开复接受科技媒体“The Information”采访全文:
问:中国目前有数十家公司都在开发大语言模型,接下来会发生什么?
李开复:我认为中国以前也曾出现过很多类似现象,例如团购风潮、共享单车应用的兴起,以及在深度科技领域,比如计算机视觉和语音识别技术。当计算机视觉证明取得了突破性进展时,无数中国企业争先恐后地涌入,试图在这个行业分一杯羹。然而,大多数企业最终并未能生存下来。中国是一个竞争非常激烈的市场,甚至可能比美国还要激烈。
目前,中国人工智能领域的竞争仍然处在预选赛阶段。首先面临的考验是:在百家争鸣的竞争中,哪家公司能开发出真正有价值的高质量模型?只有模型表现出色,才有可能在实际应用中崭露头角。否则,它会更像是一个玩具,而不能解决实际问题。
在预选赛中通过技术考验的企业将进入下一阶段:商业价值阶段。你的商业模式是什么?如何盈利?很快,投资者将根据这些公司的损益表来评估其价值,并提出与云服务提供商、企业软件公司和消费者应用程序相同的问题。如果企业无法回答这些问题,那么它们的增长将面临终结。
在美国,OpenAI已经证明它拥有世界领先的技术,并且能够创造收入。由于它创造了足够的价值,人们愿意在其上构建应用程序并为之付费。
而在中国,我们最终只有几个大赢家,还有部分企业可能会体面地退出,但大多数企业要么半途而废,要么转向更实际的目标,比如为特定行业构建应用和解决方案,而不是单纯地追求大模型的研发。随着时间的推移,开发大模型的成本将越来越高。
问:中国AI初创公司及其投资者表示,中国将为生成式AI模型和应用开发自己的生态系统。你对此有何看法?
李开复:我们都不想看到平行宇宙的出现。我们更倾向于在全球范围内展开竞争,让真正出色的公司脱颖而出,这样效率才更高。但是,我们无法完全掌控自己的命运。
如果我们想进入美国市场,虽然没有规定说我们不能进入,但我不认为我们会得到很多业务。当前美国市场对中国软件存在一种不公平的偏见,这是我们不得不面对的现实。
我们对中国以外的商机持开放态度,但我们完全理解,有些事情是不可能的。比如,将我们的专有模型卖给美国公司是不可能的。他们不会购买,我们也不会做无用功。
中国显然蕴藏着巨大的机遇,但我不会将世界其他地区排除在中国公司可能进入的地区之外。一般来说,硅谷的做法是一刀切的,这或多或少对Facebook和谷歌等公司的崛起中起到关键作用,并帮助美国取得了市场主导地位。
但这次有所不同,因为大语言模型是在数据基础上进行训练的。而数据伴随着偏见、意识形态和价值观的问题。美国的价值观在某些国家并不受欢迎,甚至不被接受。中国不会是唯一的国家,我认为中东是另一个可能希望以不同方式思考问题的地区。这将导致各国希望对其模型有更多的控制权。
我确实认为,有机会为不同的国家构建不同的特殊模型。这是硅谷公司自然不会做的事情,因为他们觉得自己的价值观是正确的价值观,并希望更多的人能够接受并融入其中。而且,为不同市场构建不同的大模型,需要大量的工程工作。因此,硅谷公司不愿意开发这类模型。包括中国在内的世界其他地区的公司,可能有机会研究这种模型。但显然,他们必须赢得用户和各国政府的信任。
问:有媒体报道称,你们公司成功降低了Yi-34B的AI训练成本。你们是如何做到的?
李开复:我们拥有超级强大的基础设施团队,他们可是我们公司规模最大的团队。我之前就跟员工们说过,每增加一个建模人员,GPU的负担就加重一分。但是每加一个基础架构人员,GPU的效率就能提升一些。当然,我们也需要强大的建模团队,但从一开始,我们的首要任务就是建立一个强大的基础设施团队。
基础设施团队的成员就像是无名英雄一样。他们得负责硬件、软件还有海量的数据传输,得同时处理GPU、内存和网络,这三者中的任何一个都可能成为瓶颈。
要知道,GPU很难扩展到数千以上。从2000个增加到8000个的时候,你不可能简单地用软件就能搞定,因为随着你转向更大的模型和更大的数据集,网络需求也会发生巨大变化。
我们的基础设施团队里有好几十名工程师,是目前零一万物最大的团队。他们的工作包括研究怎么使用FP8(英伟达H100芯片的一种数据格式)来大幅减少计算量,还要弄清楚在哪里使用FP8,在哪里使用其他数据格式,以及如何无缝地转换它们。
除了这些,他们还得解决一系列头疼问题,比如应该使用什么网络协议、怎么优化编译器、怎么处理GPU故障等等。实际上,GPU经常出故障。要是一个GPU出现故障,可以热插拔呢?我们仍在努力解决这个问题。如果在一个拥有上千个GPU的集群里,就因为一个GPU故障而让你的训练停了一个小时,要是能进行热插拔,那么每天就能节省一个小时。这些时间可以积少成多。
还有一个相关的事情就是弹性训练。如果你有一个由2000个H100芯片组成的集群,而你只需要500个来执行某个任务,那你可以在检查点之间把它们移除,然后再添加回来吗?这些任务并不是AI研究人员该干的,而更多是属于网络工程师的工作。
如果把大语言模型的开发比作火箭科学,那么如果没有工程师,火箭将会永远飞不起来。SpaceX的成功不仅仅是因为它有大量研究人员,还因为它做了大量超级复杂的工程工作。
问:美国限制向中国出口先进半导体技术,包括英伟达的先进芯片。你是如何应对的?
李开复:我公开说过,我们的芯片库存足够使用18个月。这些芯片基本上是我们在限制措施出台前购买的。我们肯定在努力研究如何使用中国芯片,但这并不容易。对它们进行编程不是我们所熟悉的领域。但如果我们必须要这么做,我们也会勇敢地接受挑战。
英伟达的芯片非常出色,但有人可能会认为,更简单的芯片可以以更低的成本完成这项工作。但英伟达实力强大背后的一个主要因素是围绕其CUDA软件库的整个生态系统,这使得编程变得相对容易。如果你强迫工程师们使用非英伟达的芯片,他们基本上会反对,因为这类芯片的效率要低得多。
但我们目前面临的困境要到18个月后才会显现,而我们必须更早展开行动。如果我们无法获得英伟达的芯片,我们将寻找更简单、更专注于转换器的芯片,但工程师们编程起来会很痛苦。可是,如果我们别无选择,那就只能这么做。
众所周知,中国工程师有能力、有决心,他们可以出色地应对这种被认为艰巨的工程挑战。这与我之前所说的基础设施团队的工作类似。学习使用非常少的库来对新的非标准GPU进行编程,也是一项艰巨的工作。
中国企业家是顽强的,中国工程师很勤劳,他们不怕繁重的工作。
的确,我们面临有许多艰巨的挑战,你可以说他们是浪费时间和精力。但这是我们手中拿到的牌,所以我们会尽最大的努力打好这些牌。
本文来自:华尔街见闻APP,作者:袁伟