出品 | 妙投APP
作者 | 董必政
头图 | 视觉中国
核心看点:
近期,谷歌发布的Gemini大模型的亮点在于视频理解能力、多模态技术;
大模型的视频理解能力,利好视频行业的发展;
多模态大模型的发展,会给自动驾驶等新兴行业带来赋能;
在国内AI大模型中,科大讯飞、百度等凭借先发优势名列前茅;
百度等互联网大厂在研发能力、算力资源、可训练的数据具备优势,不容小觑。
2023年,ChatGPT为代表的AI大模型成为最大的风口。ChatGPT火爆不久后,阿里、华为、腾讯、百度、360、商汤、科大讯飞等一众大厂纷纷入局,并官宣亮相大模型。而AI大模型的初创企业,更是如雨后春笋般冒出。
资本、人才不断涌入AI大模型赛道,一场“百模大战”正在越演越烈。
12月6日,谷歌又发布了Gemini多模态大模型,首次实现了多模态的技术路线,再次将AI大模型推上风口浪尖。
那么,现阶段AI大模型又出现了哪些新趋势?哪些行业将会受益大模型新的发展呢?国内AI大模型又有哪些值得关注呢?接下来,让我们一起来分析一下。
一、多模态大模型已至
当前,AI大模型正在从单模态向多模态演进。
在大模型发展的前期,单模态大模型只能处理一种类型的数据(语言、语音、视觉等),例如:GPT-3系列只能处理自然语言,无法处理图像、视频等。而多模态大模型则能识别并处理文字、图像、音频、视频等不同的数据。这犹如:AI大模型正从“哑巴英语”向“听说读写精通”的阶段迈进。
而如今,谷歌官宣多模态大模型Gemini1.0版正式上线,意味着多模态大模型的时代开始到来。
作为降本增效的工具,AI可以给各个行业赋能,也就是常被津津乐道的“AI + 各行业”。AI在不同时期有新的技术突破,也会在不同时间点利好不同行业。
多模态大模型的到来,利好当下的视频行业,未来也将利好自动驾驶、人形机器人等新兴行业。
谷歌的Gemini可以泛化并无缝地理解文本、代码、音频、图像和视频等不同类型的信息,尤其在视频理解能力超出其他AI大模型。此前,即使GPT-4V也只能理解视频中的关键帧(即图片模态),无法理解完整视频。
例如:Gemini大模型可以看懂“猜哪个杯子藏着东西”的视频,首次展现出视频理解的能力。
(图片来源:Google)
正因如此,大模型的视频理解能力的提升,也让业内看到视频生成、3D生成等相关视频应用有望迈入新的阶段。
这也直接反映在A股市场上,资本开始对AI视频概念进行炒作。例如:自12月以来,因赛集团股价累计涨幅已近80%。因赛集团12月3日在互动平台表示,公司自研的AIGC视频智能剪辑和创作能力,在交付视频物料后已获得国内头部游戏客户的认可。
此外,虹软科技、万兴科技、当虹科技等也在互动平台上表示,公司在AI视频方面有所布局。
除了视频行业迎来利好,不少新兴的行业也看到被多模态大模型赋能的希望,例如:自动驾驶、人形机器人等。
一直以来,自动驾驶的技术痛点在于,自动驾驶汽车面对复杂交通场景和突发情况时,难以做到完全自主决策。
考虑到成本、法律限制等因素,“重感知,轻地图”成为智驾方案长期发展趋势。许多车企提出了以感知为基础,以大模型深度学习为实现路径的技术路线。
AI大模型在自动驾驶的应用,也将出现了阶段性成果。
2023年8月26日,特斯拉CEO马斯克开启了一场路测特斯拉FSD V12的直播。据称,FSD Beta V12是有史以来第一个端到端AI自动驾驶系统,也采用多模态技术。
这次直播共45分钟,马斯克只有一次驾驶干预,这发生在一个繁忙的十字路口,马斯克所驾驶的特斯拉试图闯红灯,他立即控制了车辆。在其余时间内,FSD BetaV 12系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。
马斯克表示,V12系统从头到尾都是通过AI实现,我们没有编程,没有程序员写一行代码来识别道路、行人等,全部交给了AI模型。
此外,人形机器人亦是如此。人形机器人识别物体、听取声音等,也离不开多模态大模型。
多模态大模型已是大势所趋,现阶段已在视频理解方面有所突破,利好AI视频等行业的发展。长期来看,随着多模态大模型的成熟,这将会赋能自动驾驶、人形机器人等新兴行业。
随着ChatGPT引领大模型的浪潮、谷歌推动大模型进入多模态的阶段。那么,国内AI大模型又是怎样的呢?哪些国内AI大模型又值得关注呢?接下来,我们一起来探讨。
二、国内大模型比拼
相较海外大模型,国内的大模型仍有代际的差距,在多模态技术上仍在秣马厉兵。
目前,国内的AI大模型,主要有百度文心一言、商汤-商量、智谱AI-ChatGLM、360智脑、讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工等。
那么,国内哪个AI大模型的综合能力更强呢?
新华社研究院对国内主流的多个AI大模型进行了3次测评,以下是近2次测评的结果:
8月15日,新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型(讯飞星火、商汤商量、智谱AI-ChatGLM、360智脑、阿里通义千问、昆仑万维天工、澜舟科技孟子、百度文心一言)。
这次测评针对基础能力、智商测试、情商测试、工具提效能力4个层面,最终讯飞星火、百度-文心一言、商汤-商量、智谱AI-ChatGLM、360智脑分别排列前5名。
11月,新华社研究院发布了《人工智能大模型体验报告3.0》,对10家国内主流大模型(讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意)进行了测评。
相较上次测评,这次测评增加了厂商技术和潜力评估的维度。测评结果显示,在综合能力方面,讯飞星火、商汤-商量、智谱AI-ChatGLM、澜舟科技-孟子、360-360智脑分别排列前5位。
(图片来源:新华社)
从近2次测评的结果来看,科大讯飞、商汤科技、360、百度(未被选取进入第3次测评)、智谱等公司的AI大模型排名靠前。
短期来看,科大讯飞、百度、商汤等国内AI企业,凭借在AI领域的先发优势,在训练AI模型的算法、数据、算力有一定的积累,在国内AI大模型的性能上取得了领先。
长期来看,各AI大模型的迭代拼的更是研发投入、算力资源、可以训练的数据。
在研发投入方面,2023年上半年,百度、商汤、科大讯飞、三六零的研发费用为118.0亿、17.83亿、15.17亿、15.60亿。在AI企业中,百度的研发投入更大。另外,腾讯、阿里、华为等大厂也具备较强的研发实力,其主要业务分别为社交及游戏、电商、智能硬件,在AI上的研发投入无法进行准确地评价。
在算力资源方面,大型互联网企业具有明显的优势。当下,由于算力GPU的供应不稳定,百模大战导致需求激增,算力资源十分紧缺。而因业务需要,BAT等互联网企业的资本雄厚,拥有云计算业务,每年都有在算力(机房、AI服务器等)投入一定的资本开支。根据市场研究公司Omdia Research的最新报告,2023年腾讯、百度、阿里获取大量的英伟达的H100GPU,位列国内企业的前三位。
在可训练的数据方面,除了公开的数据源以及网络爬虫抓取的数据之外,各企业也会通过业务积累一定的数据,用于大模型的训练当中。例如:布局自动驾驶的百度、布局AI教育、AI医疗的科大讯飞、拥有电商平台的阿里、拥有社交平台的腾讯、布局安防的商汤等均拥有积累的行业数据。从机构统计参数量、训练数据规模来看,阿里的通义千问、华为的盘古大模型有一定的优势。
综合来看,AI企业百度、科大讯飞、商汤等,具备一定的先发优势。值得一提的是,百度的文心一言4.0已经率先在C端领域进行收费,实现商业化。而腾讯、阿里、华为等后发者,在算力资源、研发实力、数据上具备一定的优势,仍拥有弯道超车的可能。
结合先发优势、算力资源、研发实力、数据等来看,百度在各方面均有很好的卡位。目前百度文心一言用户数已达7000万,其后续的迭代可持续期待。
三、小结
谷歌的Gemini大模型发布,在视频理解能力上实现了从0到1的突破,利好视频行业的发展。同时,正在成熟的多模态大模型,也将给智能驾驶、人形机器人等新兴行业赋能,加快其落地。
国内AI大模型与海外大模型尚有一定的差距,但正在蓬勃发展。目前,百度、科大讯飞等AI企业凭借先发优势,在国内AI大模型中名列前茅。长期来看,百度不仅具有先发优势,而且其研发能力、算力资源也超过其他AI企业,其AI大模型文心一言可持续关注。
免责声明:本文内容仅供参考,文中信息或所表达的意见不构成投资建议,请读者谨慎作出投资决策。
评论