扫码打开虎嗅APP
英伟达大会首次提出、腾讯在7月快速布局,向量数据库这一AI数据基础服务在AI投资热潮中逐步走向大众视野,AI商业化问题再度引发热议。
目前国内大模型发展状况如何?作为AI大模型的基础,向量数据库为代表的数据服务将如何影响国内大模型的发展?AI大模型的商业化目前进展如何?妙投邀请某知名创业公司大模型产品负责人来为大家做解读。
核心看点:
国内AI大模型的整体集中度有限,核心玩家包括成熟大厂、头部研究机构、创业企业和传统企业等。
数据问题是国内AI大模型开发痛点之一,向量数据库有望成为解决方案。
随着国内多模态大模型开发的逐步深入,对向量数据库的需求水涨船高,目前国内有相关核心技术和数据基础设施建设的平台仍是少数。
AI大模型商业化关注To B和To C两大模式,AI+教育、AI+法律、AI+医疗赛道潜力较大。
Llama2的免费商用影响国内大模型企业商业模式,利用认知差实现盈利的外包服务型企业面临挑战。
Q1:目前国内AI大模型目前的竞争格局几何?
不同于海外市场,国内AI大模型的整体集中度有限,对部分技术难点的解决能力均存在一定的缺陷,从结构上看,核心玩家包括成熟大厂、头部研究机构、创业企业和传统企业四类。
以百度文心一言为代表的大厂通用大模型起步较早,技术积累更为成熟,并通过百度云在政企To B领域的布局,实现了对外输出,呈现较强的产品能力;同时,大厂前期的流量规模保证了其大模型能够积累足够多的feedback数据,如百度在物联网、车载OS和搜索引擎领域,阿里在淘宝、蚂蚁、高德等积累的数据基础,使其能够在大模型的迭代中占据先机。
头部研究机构则以智源、Moss等高校实验室为代表,不仅在大模型研究上走在市场前面,同时也有开源社区的尝试,主要走的是技术普惠的路线,并向市场输出相关人才。
创业企业相对于前两类公司更注重商业化,主要的业务模式是针对客户公司的特定业务进行相应的大模型训练,以解决实际业务问题,进行定制化的训练服务。目前,技术能力较为领先的创业公司主要有Minimax、面壁等。
此外,传统企业在大模型领域的发力也是不容忽视的。一些在公众认知中与AI大模型毫不相干的企业在该领域呈现出了亮眼表现。比如彭博和同花顺,作为金融资讯和数据服务平台,在金融领域大模型的训练上已经取得了较大的优势,在投顾、搜索和财经新闻的撰写上已经呈现了良好的实际效果,让很多训练LLM的公司放弃了在相关领域另做模型的想法。其他领域的传统企业也有一些关于大模型的尝试,包括东方航空、中国电信、恒生电子等都进行了相关布局。
从目前的商业化情况来看,大模型创业企业的模式是比较顺畅的,比如在了解了客户企业需要面向什么应用场景的模型后,利用企业提供的数据进行训练,以支持定义的几种业务。从体量上来看,参数量级较小,应收规模也限制在百万级,对算力和时间的需求相对有限,利用十几张卡,进行1~2个月的调试即可。但从实际推进的角度来看,对数据的高要求和可用数据的低质量可能会阻碍模型的训练和落地过程,这也是国内AI大模型在研发过程中的共性问题。
Q2:您刚刚也提到了数据的问题,那么AI在数据上的需求主要有哪些特征呢?
对数据质量的要求高。数据质量的提升主要通过数据对齐来实现。数据对齐在大模型的训练过程中至关重要,涉及到数据的清洗、数据的编码以及数据分布的调整等。比如,如果数据存在较大的噪声,上游的应用开发将暴露非常多的问题,而在量化等领域负面效应更为显著。再比如,数据跟场景任务的一个相关性,否则大模型的训练目标(next token prediction)与我们真正使用时的目的(给一些指令,让它生成内容)并不能保持一致。数据分布则与大模型的训练方式和训练目的有关,比如谷歌T5的训练集包括了对话数据、篇章和实体识别等,与Llama的训练集就呈现较为显著的区别。
对数据的存取要求高。大模型的训练需要海量的数据,来源也遍布海内外。对于数据基础设施比较完善的企业而言,可以通过数据仓库等工具进行清洗和存取,在时间成本和操作成本上都有优势。拿我们的实际操作举例,你就能明白我们对训练数据的要求了。之前我们在开发的过程中也采集过海外的数据,主要需要数据的爬取和运输。爬取本身难度不大,但过亿级别的视频和图片在运输的成本上极高,仅就数据运输成本就花费了几百万。数据运过来以后,在数据治理上,做数据对齐也较为困难。总的来说,我们在数据方面花的精力、时间和成本非常高昂。
数据方面的需求也一直是国内大模型行业的劣势,很多大模型在训练的过程中数据质量其实不高,导致了后续的表现不佳。
Q3:那您认为近期再次引起广泛关注的向量数据库是否是解决AI大模型数据问题的关键?向量数据库与传统数据库有何差别?是否存在替代产品?
从向量数据库的原理来看,本质上是将非结构化的数据,包括多模态的图片、音频、视频等进行向量化(embedding),将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。每个向量都有一定数量的维度,范围从几十到几千不等,具体取决于数据的复杂性和粒度。而传统数据库,则更多用于结构化的数据形式,难以满足多模态大模型的训练需求。因此,向量数据库的确是多模态大模型开发的一大助力。
从刚刚提到的维度来看,通过向量的这种方式把内容存取到一个库里,如果要去做分析、搜索的话,整个的比较维度是统一的,这是向量数据库的最大优势。比如,我们可以直接用文本转换的embedding,去跟图片转换的embedding之间计算一个相似度,从而实现不同模态间数据的统一处理。
同时,向量数据库可以看作是AI的外挂式“长期记忆”。由于中文输入的token限制较多,大家就开始思考,能不能去建立一个记忆系统,把一些长文本信息结构化以后,存取到对应的库里面,并建立相应的检索机制,从而提升AI的回复能力。比如说一些上下文的信息,背景的信息,通过embedding的方式存到数据库里面,使得AI更加智能;还有一些character ai,如果你要提升情景对话的深度,语言的丰富度,还是要需要长期记忆,再进行检索和回答。
但目前,向量数据库也存在一些尚未解决的问题。
首先是性能的瓶颈问题。刚刚也说到,我们是将数据转换成高维向量实现统一,当数据的维度太高,如涉及到企业级或产业级的数据时,向量数据库的调用成本就提升的比较明显,会遭遇性能的瓶颈。
另一个问题是数据库间的一致性问题。目前多数的数据还是存在传统数据库中,比如SQL,大家需要转化成embedding后存到向量数据库中,此时,原库和新库的数据一致性就是个很大的问题。比如我在数据库中合并了一条数据,因为向量的合并是比较困难的,向量数据库中是否能够实现对应,是目前亟待解决的问题。
目前,建立向量数据库的企业不多,腾讯近期有尝试进行布局建设,很多企业采用的更多的还是开源的数据湖架构,更多数据库企业的思路还是针对特定情景提供解决方案,而非提供标准化产品,因此,数据库领域的竞争还相对分散,向量数据库作为潜在的标准化产品还有很大的成长潜力。
随着国内多模态大模型开发的逐步深入,对向量数据库的需求是水涨船高的。目前国内有相关核心技术和数据基础设施建设的平台仍是少数,海外国外厂商在向量数据库上有着更早的探索和积累,国产数据库要补齐短板是需要时间的,高昂的建设成本和有限的规模可复制性限制了向量数据库的快速商业化。
Q4:您提到了AI大模型与向量数据库的商业化互动,那您认为哪些垂直领域内大模型最有商业化潜力呢?
我认为可以分成To B和To C两大模式来看。
To B端目前商业模式最成熟的还是知识库类应用,主要是面向企业内部场景和企业的培训场景等,能够起到流程简化和成本优化作用。To B的天花板是第四范式,刚刚也说到开源模型的影响,后期随着开源模型的推出和认知差异的弥合,只有在市场上占据一定地位的企业能够通过标准化的交付流程实现解决方案的溢价。
To C端我认为市场正在觉醒,包括Meta一直在推进的AI社交、目前实用性较强的AI+游戏等等。再比如最近比较火的妙鸭相机,其实就是比较好的多模态落地形式。
还有一类难以界定To B还是To C场景的应用也值得关注。比如说AI+教育,AI+法律,AI+医疗,这个其实也是大家在探索的方向。
教育本身很适合做大模型,因为它的知识是一个封闭结构,整个知识也是高度结构化的,试卷上、课本里很难出现差错,所以这个数据质量本身就会特别的高,而且它会有比较明确的编码体系。但如果要再进一步的,比如说我要去做更好的知识关联和表述,怎么让整个教育的大模型更加智能,能够实现复杂的推理,这个可能还是会有一点难度的。之前的大模型在一些考试类的测试题上表现都还不错,这一领域有较大潜力可挖。
此外,AI+法律最近确实也有崛起,国外也有一些比较好的benchmark。国外的话他们的场景是,比如说我在这里停车,但是我的车被贴了罚单,但我有正当理由,
我要告诉他说我这个车是可以免于处罚的。但是这个过程中,你需要写个正式的文书邮件,提交给这个相关的部门。就像这样的一个比较小的case,它其实就是可以高度标准化的一个case。对比到国内环境的话,很多场景其实非常类似,包括立案,或者说法律咨询这样的环节。在国内其实也有创业团队在做这个方向。
还有AI+医疗,比如说AI去做一些心理疾病的陪伴。这个领域起步其实相对比较早,开始主要通过机器的多轮对话和问答方式进行。后来发现,其实陪伴者的很多情况是没有办法继续穷举的。他们的表述方式,对话的深度,更适合大模型去进行。因此这个赛道是比较稳妥的。既可以选择To C赛道,也可以跟健康、医疗相关的部门去合作,从政府端去收费。
Q5:您认为Llama2的免费商用会对国内大模型的商业化产生怎样的影响呢?
Llama2带来的影响是结构化的,但对国内大模型发展的影响是低于预期的。Llama2的确在很多方面已经处在开源大模型的头部,水平已经接近CHAT3.5了,但在中文的语境下,Llama2出现了很多乱码的情况,这也给了中文大模型极大的发展空间,如何在Import这个预处理的时候,用更加高效的这种优化,或者说编码的方式,降低推进的成本,是国内训练的努力方向之一。
当然,Llama2对现有国内部分企业的商业模式可能造成一定的打击。对于企业外包的特定情境大模型训练业务,Llama2给出了一条成本更低的路径。在免费商用的前提下,利用Llama2的开源资源训练一个企业可用的特定情境模型可能仅仅需要一个人、几张卡,对企业来说,招聘一个专业人士即可完成系统的研发和维护,成本远低于现有的外包模式。
换句话说,利用AI大模型认知差异实现盈利越来越难了,倒逼国内厂商进行模型优化和自研能力提升。