扫码打开虎嗅APP
本篇是《原创研究: AI 算法分析94家海外AI独角兽》的系列研究,大国竞争背景下,人工智能已经不是商业角逐,而是战略对抗。美国对我国进行了一系列技术封锁,而我国也试图后来者居上,自给自足。本文来自微信公众号:爆米花独角兽,作者:VC Popcorn,原文标题:《原创研究 | 大国竞争之中美AI(一)技术篇》,头图来自:AI生成
我们正处于一个大国竞争的时代,中美在人工智能(AI)领域的竞争尤为明显。美国在AI竞赛中似乎占据领先地位,并通过采取“赢家通吃”的军备竞赛策略,对中国实施半导体出口限制。同时,OpenAI也已停止为中国公司提供服务访问权限。
美国的技术优势得益于硅谷,其独特的科技和创业文化鼓励研究人员在没有明确产品或商业目标的情况下投入多年进行技术改进。在硅谷,创新受到高度重视,抄袭则被视为耻辱,许多公司能够依靠一次原创性突破或偶然的机会获得成功。
然而彼之砒霜,我之蜜糖,正如李开复所言,中国的创业环境恰恰相反,“速度是关键,抄袭被接受,竞争对手会不惜一切代价赢得市场。” 这种文化差异为中国带来了优势,中国企业往往通过快速迭代、充分利用大量数据以及更少的隐私限制,快速追赶甚至超越先行者。
与硅谷的小型创业公司通过技术突破后被大公司收购的模式不同,中国的大厂更倾向于等待创业公司在烧掉大量风投资金后,探索出一条明确的路径,然后再进行抄袭和复制。例如,美团涉足滴滴和携程的业务,而非选择布局和推动更前沿的技术。这种在存量市场的无意义竞争,大规模的烧钱,也是中国大厂技术创新缺乏的一个印证。
北京人工智能研究院指出,中国许多国产AI模型,如Meta的Llama系列,基于美国的开源模型构建。2023年11月,知名AI独角兽01.AI因其AI模型Yi-34B被发现基于Meta的Llama系统而引发争议。
因此,本篇是《原创研究: AI 算法分析94家海外AI独角兽》的系列文章,且将系统性地比较中美在AI领域的差异,涵盖技术、独角兽企业、创业高管及创业方向等方面。
一、模型能力
中国大模型企业数量远超美国
截至2024年3月,中国的网信办已批准了至少117款生成式AI产品。截至2024年8月,中国网络空间管理局已批准超过180个大型语言模型(LLM)供公众使用,这表明中国科技公司正在激烈争夺国内市场份额。
根据IT桔子的数据显示,中国至少有262家初创公司正在竞争推出生成式AI产品。
中国的大型AI模型分为两大类。
第一类是通用型AI平台,适用于多个行业。
第二类是专为垂直行业(如金融、生物制药和遥感)量身定制的行业专用模型。例如,好未来教育集团开发的MathGPT模型,基于广泛的数学学习数据进行训练,能够为不同的教育技术应用提供基于对话的问题解决能力。
虽然中国有许多公司正在开发强大的AI模型,但目前美国的模型在性能上仍有优势。
中美LLM之间的差距在缩小
根据2024年SuperCLUE基准测试(一个全面评估中文LLM能力的标准)的最新结果展示:
截止2024年6月,尽管OpenAI的GPT-4仍然位居榜首,但阿里巴巴的Qwen 1.5与Claude并列第二,中国初创公司DeepSeek的模型首次上榜,并与智谱AI的GLM-4和商汤科技的Sensechat模型并列第三。(了解更多,请看《 OpenAI 黑帮使命:从邪恶的OpenAI手中拯救人类》)
中国的开源LLM生态系统也在快速发展。阿里巴巴的Qwen 1.5系列在多个版本中表现出色,特别是其最大的模型拥有720亿参数。
此外,中国一些开源模型的迭代版本表现甚至优于美国同行。例如,智谱AI的ChatGLM3和百川智能的Baichuan2在性能上超过了谷歌的Gemma和Meta的Llama 2系列。
Hugging Face对开源模型进行评估后,也给予了中国初创公司01.AI的Yi系列高度评价,尤其在常识推理、数学、编程和阅读能力方面表现出色。
F1:中美LLM在SuperCLUE测试上结果对比
测试集结果价值有限,中国模型需要寻找其他突破口
基于这些基准去评估模型更像是一门艺术,而非科学。虽然从SuperCLUE测试集基准测试中看出,中美差异在缩小,但是在中国的AI社区,大家对此并不认可。大家普遍认为测试集结果与评估模型在实际应用中的效果差别较大。中国模型擅长做特定考试题,但是不擅长解决真实问题。
的确,随着如Gemini、Claude和Llama-3等领先模型的快速演进,以及即将发布的GPT-5(可能在几个月内),基准测试将继续成为一个移动的目标。这给中国AI公司在开发评估自身能力的指标时带来了不断变化的挑战。中国公司目前正在考虑如何在以下多个特性上进行基准测试:
多模态理解和生成:随着Gemini和类似技术的发展,LLM不仅限于文本,还可以处理和生成图像、音频和视频等其他模态。这需要新的基准测试来评估模型跨不同模态理解和生成内容的能力,而不仅仅是文本。
增加的上下文窗口:更大的上下文窗口允许LLM一次处理和记住更多信息,这可能导致开发更复杂的基准任务,要求理解并引用更大的文本或多模态内容,从而测试模型的长期记忆和上下文理解。Moonshot AI在2024年2月更新了其Kimi聊天机器人,能够通过上下文窗口处理多达200万汉字。
跨模态推理:基准测试可能需要评估模型跨不同模态进行推理的能力。例如,理解一段文本并将其与相关的图像联系起来,或反之亦然。
实时互动与适应性:随着多模态模型和上下文窗口的进步,基准测试也可能会演变为测试模型在实时场景中的互动能力以及适应新信息或变化的上下文的能力。
文化和语言的细微差别:对于中国的LLM来说,这些基准测试必须考虑到中文及其各种方言中的独特文化和语言差异,尤其是在解释和生成多模态内容时。
数据集的多样性和包容性:基准测试将需要包括代表广泛模态、方言、文化背景和与中国用户相关的使用案例的多样化和包容性数据集。这里中国LLM开发者面临的挑战是获取更广泛的非文本、文化特定的数据集以训练模型。
道德和负责任的AI:随着能力的提升,基准测试还需要考虑道德方面的问题,例如模型在多模态背景下避免生成有害或带有偏见内容的能力,这在更复杂且易被误解的多模态环境中尤为重要。
与现有基准的整合:现有的中文特定基准测试如CLUE和CMRC(见表2)可能会被适应或扩展到包括多模态方面和更大的上下文窗口,从而扩大其范围和相关性。
二、学术研究
中国AI论文数量超过美国,但是质量堪忧
自2017年以来,我国在人工智能学术研究的产出量上已超过美国。而到了2020年,我国首次在人工智能相关期刊的引用率上超越了美国。尽管如此,美国在人工智能会议论文的数量上仍领先中国,并且这些论文的引用率也高于中国的会议论文。
在生成式人工智能领域,截至2023年,中国发表了约12,450篇相关论文,美国则有12,030篇,双方在数量上不相上下。同时,全球前十发表机构中有一半来自中国,显示出中国的研究集中在少数几家高产机构。
但是中国AI论文大多数为应用方面的论文,缺乏算法方面的论文,因此研究影响力方面,双方差异明显。在生成式人工智能高引用论文的前十名中,中国仅占一席,而美国则占据一半,包括前五名中的四席(另一席来自加拿大)。这表明美国在研究质量和影响力上仍处于领先地位。
中国企业擅长抄袭,对原创技术贡献较少
值得注意的是,中国所有进入人工智能研究前十名的机构都是学术机构,而美国的顶尖人工智能研究机构则是学术组织与私营企业的结合体。根据2024年世界知识产权组织(WIPO)的一份报告显示,在全球人工智能研究前20名榜单中,所有上榜的企业都是美国公司,包括Alphabet、Meta、DeepMind、NVIDIA、OpenAI、Microsoft、Twitter和Indico Research。
而来自其他国家的上榜者,无论是中国还是其他地区,都主要是大学或研究机构。在美国,企业是人工智能相关学术论文的第二大贡献者,占总出版量的19.2%;而在中国,政府则是第二大贡献者,占比15.6%。
这一差异反映了私营企业在推动美国保持人工智能领导地位中的关键作用。美国企业的积极参与不仅确保了高质量的研究产出,还促使这些研究迅速转化为具有实际影响的技术和应用。事实上,美国在生成机器学习模型和基础模型方面也遥遥领先于中国。
原创模型上,2023年,美国有61个知名的机器学习模型,而中国仅有15个。此外,全球大多数的基础模型也来自美国(109个),而中国仅有20个。但是如前文介绍,虽然我国原创模型只有15-20个,但是非原创模型已经有117个模型。要完成AI技术的国产替代,自给自足,抄袭这种不良之风必须予以严惩。
干货:我举个例子来说明两者论文的质量有何不同,美国这边的论文更多的是发明了一种新锤子(作者往往也是中国人,或者华人);中国这边在此基础上可以炮制100篇论文,诸如《我用锤子砸了西瓜》,《我用锤子砸了一个香蕉》等等,然后他们彼此互相引用,造成“影响力”。事实上这样的论文毫无意义,一般是美国那边大学生的水平。我们在CV领域的论文大多数都是这种水论文(中国这种学术怪象和国内高校职级评审规则有关)。另外要说一下,计算机博士是最容易毕业的博士,比起其他自然学科和文科而言。
F2:研究发表数量和引用数量前十机构
三、人工智能人才储备
中国AI人才储备与美国并列世界第一
人才至关重要,人才质量决定了AI企业的高度,甚至,从一开始就决定了创业命运(详细请看《原创研究 | AI创业:团队决定命运?》)。在培养顶尖人工智能研究人员方面,中国已成为全球领先的国家之一。
根据保尔森研究院旗下智库MacroPolo的分析,2022年全球47%的顶尖人工智能研究人员(“顶尖”指排名前20%的人工智能研究人员)来自中国,而2019年这一比例为29%。在最精英的人工智能研究人员中(即排名前2%的研究人员),中国占比为26%,接近美国的28%。
这与2019年形成了显著对比,当时中国仅培养了10%的精英研究人员,而美国则占到了35%。从这一点可以看出,中国拥有几乎全世界最好的技术人才,那为什么我们的计算机原创研究和基础研究质量不高呢?
中国顶尖AI人才都在美国
答案在这里,尽管中国培养了大量顶尖的人工智能人才,但其中许多人最终选择前往美国。美国长期以来受益于大量中国人才赴美攻读博士学位,人工智能指数显示,80%的人工智能博士毕业生仍留在美国;进一步增强了美国在人工智能领域的竞争力。
那么为什么这些人才要留在美国呢?事实上在疫情期间大量回流的顶尖人才在疫情结束后又回到了美国。有如下原因,1.美国学术环境相对而言更加健康和纯粹,更利于做基础研究。中国学术环境叫做杨振宁来了也要打三圈。2.美国有更多的超级互联网企业,拥有更高的利润,从而可以支持前沿研究,也可以支付给研究人员更高的薪水。中国互联网企业在过去几年备受打击,利润下滑,股价下滑,给与的待遇也大幅度下滑。
四、计算能力
中国在先进芯片领域对美国及其盟友的依赖显著。最近一项研究显示,中国目前开发的20个大语言模型(LLM)中,17个依赖于美国NVIDIA生产的芯片,只有3个使用了国产芯片。
美国对中国机进行算力芯片制裁
自2022年10月起,美国对中国实施了一系列出口管制措施,限制其获取先进芯片。这一政策导致中国市场对这些芯片的需求激增,尤其在珠三角地区,芯片转售市场异常活跃。据报道,NVIDIA芯片的价格在禁令实施后迅速上涨,有的甚至在一周内价格翻倍。
中国的AI企业不得不选择通过云服务绕过了美国的出口限制,继续使用高端芯片。例如,科大讯飞等企业通过租赁NVIDIA的A100芯片维持运营,这也暴露了美国管制的漏洞。
于是,2023年10月,美国进一步收紧了对GPU的出口管控。美国商务部提出新规,要求Google Cloud、Microsoft Azure等云服务商报告使用其服务训练大型语言模型的客户信息,尤其是那些涉及大量计算资源的模型。这些报告将提交给负责出口管制的工业与安全局(BIS),以堵住之前通过云计算绕过GPU管控的漏洞。
未来,美国可能限制AI模型开源
尽管如此,绝大多数中国公司依然依赖OpenAI的GPT-X API、Google的Gemini或Meta的开源模型(如Llama-2/3),因此不太会受到新管控的直接影响。此外,阿里巴巴、腾讯、百度和字节跳动等国内大厂已囤积了足够的先进GPU,足以支持未来几年的处理需求,且它们通过自有的云服务和数据中心进行模型训练。
对于规模较小的初创公司,这些大厂提供了他们训练新模型的资源,成为AWS或Google的替代选择。而像华为这样的公司,则更加依赖其自有的云服务,基于国产的Ascend 9XX系列芯片,持续优化其硬件和GPU能力,以支持大规模模型训练。
然而,从长期来看,硬件供应问题将对中国的AI企业构成更大的挑战。
美国的OpenAI, Google和Meta等公司正在使用成千上万台先进的NVIDIA GPU,未来这些公司还计划部署更先进的Blackwell系统。相比之下,中国企业积累如此多的顶级GPU几乎是不可能的。要保持竞争力,中国的LLM企业或许只能更多地依赖开源工具。
那么问题就就在于,美国是否允许Meta、Google这样的公司继续开源AI模型? 如果无法继续开源,中国企业可能不得不独立开发更加创新的解决方案,例如通过较少的GPU训练出同等威力的小模型。例如,Llama-2的7B参数模型在某些任务中的表现优于GPT-3,甚至在某些方面可与GPT-4相媲美。这意味着理论上小模型的价值。
中国AI芯片是国家战略
因此,我国早已将半导体产业发展作为国家战略的重点,中芯国际等国内主要芯片代工厂正在利用较落后的设备生产微处理器。壁仞科技、摩尔线程等独角兽都在加紧研发AI芯片。
此外,FPGAs和ASICs市场则是中国弯道超车的机会,FPGAs架构可以在制造完成后由程序员进行修改。ASICs芯片更高效,应用范围更为狭窄,需要随着新算法的不断出现而迭代。相比于更通用的芯片,它们的设计相对容易,这使得许多公司能够生产这类芯片。然而,由于市场规模较小和开发成本高,ASIC并未广泛商业化。
新模型或许不需要大算力
此外,全球AI技术的发展趋势也可能给中国公司带来优势。在最近的达沃斯论坛上,Meta的AI开发者Yann LeCun指出,基于文本的大语言模型已经接近利用训练数据的极限,未来的方向是多模态模型。这些模型可能不需要像LLM那样庞大,也不需要消耗大量计算资源。字节跳动、腾讯和快手等中国公司拥有丰富的视频和图像内容,这为其在多模态模型的开发上提供了潜在优势。
例如,快手的KwaiYii模型在某些领域已超过GPT-3.5,并接近GPT-4的水平,而其KeTu文字转图像模型在部分测试中表现甚至优于MidJourney 5。腾讯的混元大模型也在生成图像和视频方面取得了全球领先的成绩,最新推出的助手“元宝AI”还具备文档总结和内容生成的能力。
总的来看,尽管受到硬件供应限制,中国AI企业正在通过多元化的技术路径和创新手段,努力缩小与西方领先企业的差距。
五、开发工具
华为、百度替代Nvida和Google
中国的AI开发生态不仅仅面临高级GPU的获取问题,开发工具栈的选择同样至关重要。目前,全球主流的AI开发工具包是开源开发环境,如PyTorch和TensorFlow,通常与Nvidia的CUDA库配合运行在Nvidia的GPU上。
在中国,华为和百度也提供了替代方案,分别是MindSpore和PaddlePaddle。然而,由于华为的Ascend 9XX系列AI专用芯片被认为比百度使用的国产替代品更强大,且在某些方面可能已接近Nvidia A100 GPU的性能,华为在这方面相较百度具有一定优势。
与中国AI行业观察者的讨论显示,业内普遍认为华为是唯一有机会在中国成为Nvidia替代品的公司。尽管这一进程可能需要时间,但华为最终有望开发出一个硬件-软件紧密结合的开发栈,类似于Nvidia通过GPU与软件开发环境的深度整合为开发者提供的协同效应。
对于开发者而言,切换开发栈是一个痛苦的过程,因此目前中国AI企业对外国开源框架的依赖程度值得关注。由于许多公司和研究人员不公开其内部工具和实践,确定开发框架的使用情况具有挑战性,但一些迹象表明,外国开源工具被广泛使用。例如,2021年中国信息通信研究院(CAICT)的一项调查发现,PyTorch和TensorFlow是最广泛使用的框架,其次是MindSpore和PaddlePaddle。
然而,也有迹象表明MindSpore的采用速度可能会迅速增加,主要包括以下几个方面:
华为及其合作伙伴的采用:作为华为开发的框架,MindSpore有望在华为及其合作伙伴的AI模型开发(包括大语言模型)中得到广泛使用。华为在中国技术行业拥有显著的市场份额,这可能有助于MindSpore的推广。尽管MindSpore目前还未在市场份额调查中占据重要位置,但其发展潜力不可忽视.
开源社区的增长:MindSpore拥有一个活跃的开源社区,在GitHub等平台上贡献者和项目数量不断增长。这表明MindSpore在中国开发者和研究人员中获得了相当的关注。
基准测试中的表现:MindSpore已用于训练多个先进的中国大语言模型,如PanGu-Alpha和Noah-Alpha,这些模型在各种中文自然语言处理基准测试中取得了顶尖成绩,显示出MindSpore在高效训练大规模模型方面的能力。
六、资金与资源
模型更多,资金更少
技术发展离不开投资。但是,中国的AI模型开发生态系统在规模和结构上与美国存在显著差异。在美国,AI领域由少数几家大公司主导,如OpenAI、Meta、Google和Anthropic。这些公司通过与超大规模云计算企业的合作,获取了开发和部署AI所需的计算资源。
相较之下,中国的AI行业则呈现出"百模大战"的局面。截至2024年8月,中国网络空间管理局已经批准了超过180个大型语言模型(LLM)供公众使用,这导致了投资和计算资源的分散。
这些公司在争夺市场份额的同时,也面临着经济滞胀和中国VC行业凋亡带来的融资压力。尽管许多中国初创企业已经获得了来自阿里巴巴、腾讯等科技巨头的投资。
以百度、阿里巴巴和腾讯(统称为BAT)为例,2024年上半年,百度在AI方面的总投资额达42亿元人民币(约5.892亿美元),阿里巴巴和腾讯的AI投资则分别达到了230亿元人民币。根据企业财报显示,BAT在AI上的资本支出总计超过500亿元人民币,同比增长超过一倍。
但是有越来越多的投资者对AI初创公司在短期内产生收入的能力仍持怀疑态度。在寻找经济效益投资的过程中,许多中国VC正在寻求通过资源整合来分散风险,这表明资金环境更加分散。
据《2024世界人工智能法治蓝皮书》报告,2023年中国AI行业共发生了815起投融资事件,融资总金额达2631亿元人民币。然而,2024年截至目前,AI领域的投资事件约为317起,总融资金额超过333亿元人民币。2024年平均每月发生约40起AI融资事件,远低于去年的月均68起;平均每月的融资金额为42亿元人民币,仅为去年的19%(月均219亿元人民币)。
考虑到中国AI开发者面临的资金和硬件限制,未来中国的AI行业可能需要通过整合资源来推动少数公司或AI实验室的发展。然而,这些整合努力必须具备选择性和针对性,以降低投资风险并提高回报的可能性。
七、总结
总体而言,人工智能技术的全球合作至关重要。美国在算法开发方面具有优势,而中国在数据资源上占据优势。如果两国能够优势互补,这将有助于推动人工智能技术的发展。考虑到AI技术潜在的负面应用风险,不应让任何一个国家垄断这项技术,以确保其不会被滥用。
此外,应呼吁中国的互联网巨头积极布局前沿技术,而不是总是滞后于市场,甚至通过抄袭创业公司的创新成果。这样的行为不仅扼杀了创新,也可能导致行业进入恶性循环,最终削弱企业的长期竞争力与生命力。
本文来自微信公众号:爆米花独角兽,作者:VC Popcorn