AI新风口，多模态大模型值得关注 | 行研 - 妙投

出品 | 妙投APP

作者 | 董必政

头图 | 视觉中国

核心看点：
近期，谷歌发布的Gemini大模型的亮点在于视频理解能力、多模态技术；
大模型的视频理解能力，利好视频行业的发展；
多模态大模型的发展，会给自动驾驶等新兴行业带来赋能；
在国内AI大模型中，科大讯飞、百度等凭借先发优势名列前茅；
百度等互联网大厂在研发能力、算力资源、可训练的数据具备优势，不容小觑。

2023年，ChatGPT为代表的AI大模型成为最大的风口。ChatGPT火爆不久后，阿里、华为、腾讯、百度、360、商汤、科大讯飞等一众大厂纷纷入局，并官宣亮相大模型。而AI大模型的初创企业，更是如雨后春笋般冒出。

资本、人才不断涌入AI大模型赛道，一场“百模大战”正在越演越烈。

12月6日，谷歌又发布了Gemini多模态大模型，首次实现了多模态的技术路线，再次将AI大模型推上风口浪尖。

那么，现阶段AI大模型又出现了哪些新趋势？哪些行业将会受益大模型新的发展呢？国内AI大模型又有哪些值得关注呢？接下来，让我们一起来分析一下。

一、多模态大模型已至

当前，AI大模型正在从单模态向多模态演进。

在大模型发展的前期，单模态大模型只能处理一种类型的数据（语言、语音、视觉等），例如：GPT-3系列只能处理自然语言，无法处理图像、视频等。而多模态大模型则能识别并处理文字、图像、音频、视频等不同的数据。这犹如：AI大模型正从“哑巴英语”向“听说读写精通”的阶段迈进。

而如今，谷歌官宣多模态大模型Gemini1.0版正式上线，意味着多模态大模型的时代开始到来。

作为降本增效的工具，AI可以给各个行业赋能，也就是常被津津乐道的“AI + 各行业”。AI在不同时期有新的技术突破，也会在不同时间点利好不同行业。

多模态大模型的到来，利好当下的视频行业，未来也将利好自动驾驶、人形机器人等新兴行业。

谷歌的Gemini可以泛化并无缝地理解文本、代码、音频、图像和视频等不同类型的信息，尤其在视频理解能力超出其他AI大模型。此前，即使GPT-4V也只能理解视频中的关键帧（即图片模态），无法理解完整视频。

例如：Gemini大模型可以看懂“猜哪个杯子藏着东西”的视频，首次展现出视频理解的能力。

（图片来源：Google）

正因如此，大模型的视频理解能力的提升，也让业内看到视频生成、3D生成等相关视频应用有望迈入新的阶段。

这也直接反映在A股市场上，资本开始对AI视频概念进行炒作。例如：自12月以来，因赛集团股价累计涨幅已近80%。因赛集团12月3日在互动平台表示，公司自研的AIGC视频智能剪辑和创作能力，在交付视频物料后已获得国内头部游戏客户的认可。

此外，虹软科技、万兴科技、当虹科技等也在互动平台上表示，公司在AI视频方面有所布局。

除了视频行业迎来利好，不少新兴的行业也看到被多模态大模型赋能的希望，例如：自动驾驶、人形机器人等。

一直以来，自动驾驶的技术痛点在于，自动驾驶汽车面对复杂交通场景和突发情况时，难以做到完全自主决策。

考虑到成本、法律限制等因素，“重感知，轻地图”成为智驾方案长期发展趋势。许多车企提出了以感知为基础，以大模型深度学习为实现路径的技术路线。

AI大模型在自动驾驶的应用，也将出现了阶段性成果。

2023年8月26日，特斯拉CEO马斯克开启了一场路测特斯拉FSD V12的直播。据称，FSD Beta V12是有史以来第一个端到端AI自动驾驶系统，也采用多模态技术。

这次直播共45分钟，马斯克只有一次驾驶干预，这发生在一个繁忙的十字路口，马斯克所驾驶的特斯拉试图闯红灯，他立即控制了车辆。在其余时间内，FSD BetaV 12系统在行驶全程进展非常顺利，能够轻松绕过障碍物，识别道路各种标志。

马斯克表示，V12系统从头到尾都是通过AI实现，我们没有编程，没有程序员写一行代码来识别道路、行人等，全部交给了AI模型。

此外，人形机器人亦是如此。人形机器人识别物体、听取声音等，也离不开多模态大模型。

多模态大模型已是大势所趋，现阶段已在视频理解方面有所突破，利好AI视频等行业的发展。长期来看，随着多模态大模型的成熟，这将会赋能自动驾驶、人形机器人等新兴行业。

随着ChatGPT引领大模型的浪潮、谷歌推动大模型进入多模态的阶段。那么，国内AI大模型又是怎样的呢？哪些国内AI大模型又值得关注呢？接下来，我们一起来探讨。

二、国内大模型比拼

相较海外大模型，国内的大模型仍有代际的差距，在多模态技术上仍在秣马厉兵。

目前，国内的AI大模型，主要有百度文心一言、商汤-商量、智谱AI-ChatGLM、360智脑、讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工等。

那么，国内哪个AI大模型的综合能力更强呢？

新华社研究院对国内主流的多个AI大模型进行了3次测评，以下是近2次测评的结果：

8月15日，新华社研究院发布了《人工智能大模型体验报告2.0》，对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型（讯飞星火、商汤商量、智谱AI-ChatGLM、360智脑、阿里通义千问、昆仑万维天工、澜舟科技孟子、百度文心一言）。

这次测评针对基础能力、智商测试、情商测试、工具提效能力4个层面，最终讯飞星火、百度-文心一言、商汤-商量、智谱AI-ChatGLM、360智脑分别排列前5名。

11月，新华社研究院发布了《人工智能大模型体验报告3.0》，对10家国内主流大模型（讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意）进行了测评。

相较上次测评，这次测评增加了厂商技术和潜力评估的维度。测评结果显示，在综合能力方面，讯飞星火、商汤-商量、智谱AI-ChatGLM、澜舟科技-孟子、360-360智脑分别排列前5位。

（图片来源：新华社）

从近2次测评的结果来看，科大讯飞、商汤科技、360、百度（未被选取进入第3次测评）、智谱等公司的AI大模型排名靠前。

短期来看，科大讯飞、百度、商汤等国内AI企业，凭借在AI领域的先发优势，在训练AI模型的算法、数据、算力有一定的积累，在国内AI大模型的性能上取得了领先。

长期来看，各AI大模型的迭代拼的更是研发投入、算力资源、可以训练的数据。

在研发投入方面，2023年上半年，百度、商汤、科大讯飞、三六零的研发费用为118.0亿、17.83亿、15.17亿、15.60亿。在AI企业中，百度的研发投入更大。另外，腾讯、阿里、华为等大厂也具备较强的研发实力，其主要业务分别为社交及游戏、电商、智能硬件，在AI上的研发投入无法进行准确地评价。

在算力资源方面，大型互联网企业具有明显的优势。当下，由于算力GPU的供应不稳定，百模大战导致需求激增，算力资源十分紧缺。而因业务需要，BAT等互联网企业的资本雄厚，拥有云计算业务，每年都有在算力（机房、AI服务器等）投入一定的资本开支。根据市场研究公司Omdia Research的最新报告，2023年腾讯、百度、阿里获取大量的英伟达的H100GPU，位列国内企业的前三位。

在可训练的数据方面，除了公开的数据源以及网络爬虫抓取的数据之外，各企业也会通过业务积累一定的数据，用于大模型的训练当中。例如：布局自动驾驶的百度、布局AI教育、AI医疗的科大讯飞、拥有电商平台的阿里、拥有社交平台的腾讯、布局安防的商汤等均拥有积累的行业数据。从机构统计参数量、训练数据规模来看，阿里的通义千问、华为的盘古大模型有一定的优势。

综合来看，AI企业百度、科大讯飞、商汤等，具备一定的先发优势。值得一提的是，百度的文心一言4.0已经率先在C端领域进行收费，实现商业化。而腾讯、阿里、华为等后发者，在算力资源、研发实力、数据上具备一定的优势，仍拥有弯道超车的可能。

结合先发优势、算力资源、研发实力、数据等来看，百度在各方面均有很好的卡位。目前百度文心一言用户数已达7000万，其后续的迭代可持续期待。

三、小结

谷歌的Gemini大模型发布，在视频理解能力上实现了从0到1的突破，利好视频行业的发展。同时，正在成熟的多模态大模型，也将给智能驾驶、人形机器人等新兴行业赋能，加快其落地。

国内AI大模型与海外大模型尚有一定的差距，但正在蓬勃发展。目前，百度、科大讯飞等AI企业凭借先发优势，在国内AI大模型中名列前茅。长期来看，百度不仅具有先发优势，而且其研发能力、算力资源也超过其他AI企业，其AI大模型文心一言可持续关注。

免责声明：本文内容仅供参考，文中信息或所表达的意见不构成投资建议，请读者谨慎作出投资决策。

AI新风口，多模态大模型值得关注 | 行研

评论

最新评论