去搜搜
头像
AI新风口,多模态大模型值得关注 | 行研
2023-12-13 20:24

AI新风口,多模态大模型值得关注 | 行研

文章所属专栏 妙解行业
释放双眼,听听看~
00:00 06:32

出品 | 妙投APP

作者 | 董必政

头图 | 视觉中国

 

核心看点:

  1. 近期,谷歌发布的Gemini大模型的亮点在于视频理解能力、多模态技术;

  2. 大模型的视频理解能力,利好视频行业的发展;

  3. 多模态大模型的发展,会给自动驾驶等新兴行业带来赋能;

  4. 在国内AI大模型中,科大讯飞、百度等凭借先发优势名列前茅;

  5. 百度等互联网大厂在研发能力、算力资源、可训练的数据具备优势,不容小觑。

 

2023年,ChatGPT为代表的AI大模型成为最大的风口。ChatGPT火爆不久后,阿里、华为、腾讯、百度、360、商汤、科大讯飞等一众大厂纷纷入局,并官宣亮相大模型。而AI大模型的初创企业,更是如雨后春笋般冒出。

 

资本、人才不断涌入AI大模型赛道,一场“百模大战”正在越演越烈。

 

12月6日,谷歌又发布了Gemini多模态大模型,首次实现了多模态的技术路线,再次将AI大模型推上风口浪尖。

 

那么,现阶段AI大模型又出现了哪些新趋势?哪些行业将会受益大模型新的发展呢?国内AI大模型又有哪些值得关注呢?接下来,让我们一起来分析一下。

 

一、多模态大模型已至

 

当前,AI大模型正在从单模态向多模态演进。

 

在大模型发展的前期,单模态大模型只能处理一种类型的数据(语言、语音、视觉等),例如:GPT-3系列只能处理自然语言,无法处理图像、视频等。而多模态大模型则能识别并处理文字、图像、音频、视频等不同的数据。这犹如:AI大模型正从“哑巴英语”向“听说读写精通”的阶段迈进。

 

而如今,谷歌官宣多模态大模型Gemini1.0版正式上线,意味着多模态大模型的时代开始到来。

 

作为降本增效的工具,AI可以给各个行业赋能,也就是常被津津乐道的“AI + 各行业”。AI在不同时期有新的技术突破,也会在不同时间点利好不同行业。

 

多模态大模型的到来,利好当下的视频行业,未来也将利好自动驾驶、人形机器人等新兴行业。

 

谷歌的Gemini可以泛化并无缝地理解文本、代码、音频、图像和视频等不同类型的信息,尤其在视频理解能力超出其他AI大模型。此前,即使GPT-4V也只能理解视频中的关键帧(即图片模态),无法理解完整视频。

 

例如:Gemini大模型可以看懂“猜哪个杯子藏着东西”的视频,首次展现出视频理解的能力。


(图片来源:Google)


正因如此,大模型的视频理解能力的提升,也让业内看到视频生成、3D生成等相关视频应用有望迈入新的阶段。

 

这也直接反映在A股市场上,资本开始对AI视频概念进行炒作。例如:自12月以来,因赛集团股价累计涨幅已近80%。因赛集团12月3日在互动平台表示,公司自研的AIGC视频智能剪辑和创作能力,在交付视频物料后已获得国内头部游戏客户的认可。

 

此外,虹软科技、万兴科技、当虹科技等也在互动平台上表示,公司在AI视频方面有所布局。

 

除了视频行业迎来利好,不少新兴的行业也看到被多模态大模型赋能的希望,例如:自动驾驶、人形机器人等。

 

一直以来,自动驾驶的技术痛点在于,自动驾驶汽车面对复杂交通场景和突发情况时,难以做到完全自主决策。

 

考虑到成本、法律限制等因素,“重感知,轻地图”成为智驾方案长期发展趋势。许多车企提出了以感知为基础,以大模型深度学习为实现路径的技术路线。

 

AI大模型在自动驾驶的应用,也将出现了阶段性成果。

 

2023年8月26日,特斯拉CEO马斯克开启了一场路测特斯拉FSD V12的直播。据称,FSD Beta V12是有史以来第一个端到端AI自动驾驶系统,也采用多模态技术。

 

这次直播共45分钟,马斯克只有一次驾驶干预,这发生在一个繁忙的十字路口,马斯克所驾驶的特斯拉试图闯红灯,他立即控制了车辆。在其余时间内,FSD BetaV 12系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。

 

马斯克表示,V12系统从头到尾都是通过AI实现,我们没有编程,没有程序员写一行代码来识别道路、行人等,全部交给了AI模型。

 

此外,人形机器人亦是如此。人形机器人识别物体、听取声音等,也离不开多模态大模型。

 

多模态大模型已是大势所趋,现阶段已在视频理解方面有所突破,利好AI视频等行业的发展。长期来看,随着多模态大模型的成熟,这将会赋能自动驾驶、人形机器人等新兴行业。

 

随着ChatGPT引领大模型的浪潮、谷歌推动大模型进入多模态的阶段。那么,国内AI大模型又是怎样的呢?哪些国内AI大模型又值得关注呢?接下来,我们一起来探讨。

 

二、国内大模型比拼

 

相较海外大模型,国内的大模型仍有代际的差距,在多模态技术上仍在秣马厉兵。

 

目前,国内的AI大模型,主要有百度文心一言、商汤-商量、智谱AI-ChatGLM、360智脑、讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工等。

 

那么,国内哪个AI大模型的综合能力更强呢?

 

新华社研究院对国内主流的多个AI大模型进行了3次测评,以下是近2次测评的结果:

 

8月15日,新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型(讯飞星火、商汤商量、智谱AI-ChatGLM、360智脑、阿里通义千问、昆仑万维天工、澜舟科技孟子、百度文心一言)。

 

这次测评针对基础能力、智商测试、情商测试、工具提效能力4个层面,最终讯飞星火、百度-文心一言、商汤-商量、智谱AI-ChatGLM、360智脑分别排列前5名。

 

11月,新华社研究院发布了《人工智能大模型体验报告3.0》,对10家国内主流大模型(讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意)进行了测评。

 

相较上次测评,这次测评增加了厂商技术和潜力评估的维度。测评结果显示,在综合能力方面,讯飞星火、商汤-商量、智谱AI-ChatGLM、澜舟科技-孟子、360-360智脑分别排列前5位。


(图片来源:新华社)


从近2次测评的结果来看,科大讯飞、商汤科技、360、百度(未被选取进入第3次测评)、智谱等公司的AI大模型排名靠前。

 

短期来看,科大讯飞、百度、商汤等国内AI企业,凭借在AI领域的先发优势,在训练AI模型的算法、数据、算力有一定的积累,在国内AI大模型的性能上取得了领先。

 

长期来看,各AI大模型的迭代拼的更是研发投入、算力资源、可以训练的数据。

 

在研发投入方面,2023年上半年,百度、商汤、科大讯飞、三六零的研发费用为118.0亿、17.83亿、15.17亿、15.60亿。在AI企业中,百度的研发投入更大。另外,腾讯、阿里、华为等大厂也具备较强的研发实力,其主要业务分别为社交及游戏、电商、智能硬件,在AI上的研发投入无法进行准确地评价。

 

在算力资源方面,大型互联网企业具有明显的优势。当下,由于算力GPU的供应不稳定,百模大战导致需求激增,算力资源十分紧缺。而因业务需要,BAT等互联网企业的资本雄厚,拥有云计算业务,每年都有在算力(机房、AI服务器等)投入一定的资本开支。根据市场研究公司Omdia Research的最新报告,2023年腾讯、百度、阿里获取大量的英伟达的H100GPU,位列国内企业的前三位。



在可训练的数据方面,除了公开的数据源以及网络爬虫抓取的数据之外,各企业也会通过业务积累一定的数据,用于大模型的训练当中。例如:布局自动驾驶的百度、布局AI教育、AI医疗的科大讯飞、拥有电商平台的阿里、拥有社交平台的腾讯、布局安防的商汤等均拥有积累的行业数据。从机构统计参数量、训练数据规模来看,阿里的通义千问、华为的盘古大模型有一定的优势。



 

综合来看,AI企业百度、科大讯飞、商汤等,具备一定的先发优势。值得一提的是,百度的文心一言4.0已经率先在C端领域进行收费,实现商业化。而腾讯、阿里、华为等后发者,在算力资源、研发实力、数据上具备一定的优势,仍拥有弯道超车的可能。

 

结合先发优势、算力资源、研发实力、数据等来看,百度在各方面均有很好的卡位。目前百度文心一言用户数已达7000万,其后续的迭代可持续期待。

 

三、小结

 

谷歌的Gemini大模型发布,在视频理解能力上实现了从0到1的突破,利好视频行业的发展。同时,正在成熟的多模态大模型,也将给智能驾驶、人形机器人等新兴行业赋能,加快其落地。

 

国内AI大模型与海外大模型尚有一定的差距,但正在蓬勃发展。目前,百度、科大讯飞等AI企业凭借先发优势,在国内AI大模型中名列前茅。长期来看,百度不仅具有先发优势,而且其研发能力、算力资源也超过其他AI企业,其AI大模型文心一言可持续关注。


免责声明:本文内容仅供参考,文中信息或所表达的意见不构成投资建议,请读者谨慎作出投资决策。


本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声