2024-04-13

子非AI 拥抱AI

【万字长文】窥探2024人工智能与数据(MAD)生态格局

主理人：

嗅友vR0Mh

2024年，数据和人工智能（MAD）生态系统正处于快速演变的关键时期。随着生成式人工智能的兴起，非结构化数据的重要性日益凸显，对传统数据分析和人工智能技术带来了新的挑战和机遇。

本文来自微信公众号：子非AI（ID：you_are_not_ai），作者：非子爱，原文标题：《【万字长文】窥探2024人工智能与数据(MAD)生态格局》

本报告对2024年MAD生态系统进行了全面的分析，包括：

MAD生态格局：2024年MAD生态格局呈现出两大趋势：一是数据基础设施和分析领域的整合加剧，二是人工智能基础设施初创公司不断涌现。
2024年值得关注的24个主题：涵盖了数据与人工智能领域的最新趋势和发展方向，包括现代数据堆栈的未来、人工智能炒作周期、大型语言模型的竞争格局等。
融资、并购与IPO情况：2023年MAD领域融资活动依然活跃，但并购和IPO数量有所下降。

文章内容

第一部分：生态格局

公司数量：2024年MAD生态格局共包含2011家公司
格局变化：

数据基础设施和分析领域：结构化数据管道增长放缓，非结构化数据管道快速发展
机器学习和人工智能领域：生成式人工智能成为热点，MLOps、AI可观测性、AI开发者平台等新类别涌现
应用程序领域：每家应用层公司都自诩为“人工智能公司”
开源基础设施领域：数据管理和本地AI成为新兴领域

第二部分：2024年我们关注的24个主题

结构化数据与非结构化数据
现代数据堆栈已死吗？
数据基础设施的整合，以及大公司的壮大
Databricks与Snowflake的现状
2024年BI的发展趋势，以及生成式人工智能是否会改变数据分析的格局？
现代人工智能堆栈的兴起
我们处于人工智能炒作周期的哪个阶段？
实验与现实：2023年是虚晃一枪吗？
大型语言模型(LLM)公司：也许并没有那么商品化？
LLM、SLM和混合未来
传统人工智能已死吗？
薄包装器、厚包装器和成为全栈的竞赛
2024 年值得关注的有趣领域：人工智能代理、边缘人工智能
生成式人工智能是走向通用人工智能 ( AGI )，还是走向平台期？
GPU 大战（NVIDIA 被高估了吗？
开源人工智能：好事太多？
人工智能的实际成本是多少？
大公司和人工智能不断变化的政治经济学：微软赢了吗？
追捧 OpenAI——还是不追捧？
2024 年会是企业人工智能之年吗？
人工智能会扼杀 SaaS 吗？
人工智能会扼杀风险投资吗？
人工智能会复兴消费者市场吗？
人工智能和区块链：胡说八道，还是令人兴奋？

第三部分：融资、并购与IPO情况

2023年MAD领域融资总额达1000亿美元，同比增长20%
并购和IPO数量有所下降，主要集中在数据基础设施和分析领域
2024年融资趋势预测

展望

我们生活在一个非常特殊的时代。我们正处于范式转变的早期阶段。是时候进行实验和尝试新事物了。我们才刚刚开始。

这是我们第十年发布关于数据、分析、机器学习和人工智能生态系统的年度现状综述和格局分析。

在过去10多年追踪这一领域的发展历程中，当前的发展前景前所未有地令人兴奋与充满期待。我们多年来描述的各种趋势和子趋势正在融合汇聚:大量数据被数字化存储;这些数据可以使用现代工具快速廉价地存储、处理和分析;最重要的是，这些数据可以被不断升级优化的机器学习/人工智能模型所利用，从中识别模式、作出预测，现在更可以生成文本、代码、图像、音频和视频内容。

机器学习、人工智能与数据(MAD)生态系统已从小众技术领域成长为主流发展方向。这种范式转移似乎正在加速，影响不仅限于技术和商业层面，更扩展至社会、地缘政治乃至人类生存发展状况。

然而，在这一延续数十年的大趋势中，仍有很多章节有待塑造。一如既往，本文试图厘清目前在产品、公司和行业发展趋势方面的现状。

今年的团队成员包括Aman Kabeer、Katie Mills(FirstMark)、Jonathan Grana(Go Fractional)和Paolo Campos，在此向全体成员表示衷心感谢。同时也诚挚感谢CB Insights提供了互动版本中出现的卡片数据。

这份年度现状总结由三个部分组成:

第一部分:生态格局(PDF版和互动版)

第二部分:2024年我们关注的24大主题

第三部分:融资、并购与IPO情况

第一部分:生态格局

公司数量

2024年MAD生态格局中共包含2011家公司标识。

这一数字较去年增加了578家新晋公司，去年的总数为1416家。

作为参考，最早的2012年版本中仅有139家公司标识。

格局之所以如此拥挤(疯狂?)，主要源于连续两波大规模公司创立和融资潮。

第一波是持续约10年的数据基础设施周期，从大数据开始，到现代数据堆栈结束。在这一领域期待已久的整合浪潮尚未真正到来，大多数公司仍在运营。

第二波是机器学习/人工智能周期，随着生成式人工智能的兴起而真正开始。由于我们处于这一周期的早期阶段，大多数公司都年轻有为，因此我们自由地将不少处于种子期的年轻创业公司也纳入了这个生态格局之中。

注意:这两股浪潮密不可分。MAD生态格局每年都旨在展现数据基础设施(左侧)、分析/商业智能与机器学习/人工智能(中部)以及应用程序(右侧)之间的共生关系。

虽然每年都越来越难将不断增加的公司数量装入生态格局，但最终，认识MAD空间的最佳方式是将其视为一条装配线——数据的全生命周期，从采集到存储再到处理，最终通过分析或应用程序提供价值。

两股大浪潮+整合程度有限=导致格局中公司数量众多。

"基础设施"和"分析"领域的主要变化

我们几乎没有对格局左侧的总体结构做出太多调整——正如我们下文(现代数据堆栈已死?)将看到的那样，这部分MAD生态格局最近并未吸引过多关注。

一些值得关注的变化包括:我们将"数据库抽象"更名为"多模式数据库与抽象"，以捕捉围绕一体化"多模式"数据库组(SurrealDB*、EdgeDB)兴起的浪潮;取消了我们去年实验性添加的"加密/Web 3分析"部分，因为它在此格局中有些格格不入;并移除了"查询引擎"部分，因为它更像是一个类别的一部分，而不是独立类别(该部分中的所有公司仍然出现在格局中——Dremio、Starburst、PrestoDB等)。

"机器学习和人工智能"领域的主要变化

随着2023年人工智能公司的爆发式增长，这是我们进行最大结构性调整的领域。

鉴于过去一年"AI赋能"层面巨大活跃，我们在MLOps旁新增了3个类别:

"AI可观测性"是今年新增的一个类别，囊括了帮助测试、评估和监控大语言模型应用的初创公司

"AI开发者平台"在概念上接近MLOps，但我们希望认可那些专注于人工智能应用开发的平台浪潮，特别是围绕大语言模型训练、部署和推理的

"AI安全与合规"包括解决大语言模型固有问题的公司，从虚构到伦理、法规遵从等

如果我们从山姆·奥特曼和埃隆·马斯克之间广为人知的口水战中学到了什么，那就是在基础模型开发者领域，商业与非营利之间的区分至关重要。因此，我们将之前的"横向AI/通用人工智能"分为两个类别:"商业人工智能研究"和"非营利人工智能研究"

我们做出的最后一个改变也是一个命名变化，我们将"GPU云"修改为"GPU云/ML基础设施"，以反映许多GPU云提供商增加的核心基础设施功能集。

"应用程序"领域的主要变化

这里最大的更新是...让没有人感到惊讶的是...每家应用层公司现在都自诩为"人工智能公司"——这正是我们努力过滤的原因，也导致了今年MAD生态格局右侧新公司标识的激增。

在结构层面上的一些小调整包括:

在"横向应用"中，我们新增了一个"演示与设计"类别

我们将"搜索"更名为"搜索/对话式AI"，以反映像Perplexity这样基于大语言模型的聊天界面式应用的兴起

在"行业"中，我们将"政府和情报"重命名为"航空航天、国防和政府"

"开源基础设施"领域的主要变化

我们合并了一直密切相关的类别，创建了一个新的"数据管理"类别，涵盖"数据访问"和"数据运维"。

我们新增了一个重要的新类别"本地AI"，因为建设者们力图为将人工智能和大语言模型引入本地开发时代提供基础设施工具。

第二部分：我们在 2024 年思考的 24 个主题

人工智能领域的发展速度如此之快，并且获得了如此多的关注，以至于几乎不可能像前几年那样提供 MAD 领域的全面行业现状报告。

因此，这里采用了一种不同的格式：以下是不分先后顺序的 24 个主题，它们是我们最关心的和/或在对话中经常出现的。有些是相当成熟的想法，有些基本上只是问题或思想实验。

1.结构化数据与非结构化数据

这部分是一个主题，部分是我们发现自己在对话中经常提到，以帮助解释当前的趋势。

因此，也许作为 2024 年讨论的引言，这里首先要提醒大家一个重要的事情，它解释了一些关键的行业趋势。并非所有数据都是相同的。简单来说，数据主要分为两大类，并且围绕着每一类数据，都出现了一套工具和用例。

结构化数据管道：即可以放入表格的行和列中的数据。

出于分析目的，数据从事务数据库和 SaaS 工具中提取，存储在云数据仓库（如 Snowflake ）中，进行转换，并使用商业智能 ( BI ) 工具进行分析和可视化，主要目的是了解现在和过去（即所谓的“描述性分析”）。该装配线通常由下面讨论的现代数据堆栈启用，分析是其核心用例。

此外，结构化数据也可以输入“传统”机器学习/人工智能 ( ML/AI ) 模型，以预测未来（预测分析）——例如，哪些客户最有可能流失

非结构化数据管道：即通常不适合放入表格的行和列中的数据，例如文本、图像、音频和视频。非结构化数据主要用于输入生成式人工智能模型（大型语言模型 ( LLM ) 等），用于训练和使用（推理）它们。

这两类数据（以及相关的工具和公司）目前正经历着截然不同的命运和关注程度。

非结构化数据（ML/AI）很热门；结构化数据（现代数据堆栈等）则不然。

2. 现代数据堆栈已死吗？

不久前（姑且称之为 2019-2021 年），软件世界中没有什么比现代数据堆栈 ( MDS ) 更性感的了。与“大数据”一起，它是少数几个从数据工程师跨界到更广泛受众（高管、记者、银行家）的基础设施概念之一。

现代数据堆栈基本上涵盖了上面提到的结构化数据管道类型。它围绕着快速增长的云数据仓库，供应商位于其上游（如 Fivetran 和 Airbyte）、其上（DBT）和其下游（Looker、Mode）。

随着 Snowflake 成为有史以来最大的软件 IPO，人们对 MDS 的兴趣激增，公司创建和风险投资资金疯狂涌入，零利率政策推波助澜。整个类别在一年或两年内变得过度拥挤——数据目录、数据可观察性、ETL、反向 ETL，仅举几例。

现代数据堆栈是针对实际问题的真正解决方案，它也是一个营销概念，并且是数据价值链中许多初创公司之间事实上的联盟。

快进到今天，情况已经大不相同。在 2023 年，我们已经预见到 MDS“面临压力”，这种压力在 2024 年只会继续加剧。

MDS 面临着两个关键问题：

将现代数据堆栈组合在一起需要将来自多个独立供应商的各种同类最佳解决方案拼接在一起。因此，它在金钱、时间和资源方面都很昂贵。在后零利率政策预算削减时代，首席财务官办公室并不看好这一点

MDS 不再是街区里最酷的孩子了。生成式人工智能已经抢走了高管、风险投资家和媒体的所有注意力——它需要我们上面提到的那种非结构化数据管道。

3. 数据基础设施的整合，以及大公司的壮大

鉴于以上情况，2024 年数据基础设施和分析的下一步会是什么？

它可能看起来像这样：

现代数据堆栈内外的许多初创公司将积极地将自己重新定位为“人工智能基础设施初创公司”，并试图在现代人工智能堆栈中找到一席之地（见下文）。这在某些情况下会奏效，但从结构化数据到非结构化数据的转变在大多数情况下可能需要进行根本性的产品演进。

数据基础设施行业最终将出现一些整合。迄今为止，并购活动相当有限，但在 2023 年确实发生了一些收购，无论是 Tuck-in （小型并购，通常指大公司收购规模较小、业务互补的公司）还是中型收购——包括 Stemma （被 Teradata 收购）、Manta （被 IBM 收购）、Mode （被 Thoughtspot 收购）等（见下文第三部分）

将会有更多的初创公司失败——随着风险投资资金枯竭，情况变得艰难。许多初创公司已经大幅削减成本，但在某个时候，它们的现金流将会枯竭。不要指望看到醒目的头条新闻，但这（遗憾地）会发生。

该领域的大公司，无论是规模化公司还是上市公司，都将加倍押注其平台战略，并努力覆盖更多功能。其中一些将通过收购来实现（因此会出现整合），但很多也将通过内部开发来实现。

4. Databricks 与 Snowflake 的现状

说到该领域的大公司，让我们来看看两个关键数据基础设施参与者 Snowflake 和 Databricks 之间的“泰坦尼克号冲击” （参见我们的 MAD 2021 博客文章）。

Snowflake （历史上来自结构化数据管道世界）仍然是一家令人难以置信的公司，也是估值最高的上市科技股之一（截至撰写本文时，EV/NTM 收入为 14.8 倍）。然而，与许多软件行业一样，它的增长已经大幅放缓——它在 2024 财年以 38% 的同比产品收入增长结束，总计 26.7 亿美元，截至撰写本文时，预计 NTM 收入增长 22%）。也许最重要的是，Snowflake 给人一种在产品方面面临压力的公司的印象——它在拥抱人工智能方面进展缓慢，而且相对而言收购较少。最近有点突然的首席执行官交接是另一个有趣的数据点。

Databricks （历史上来自非结构化数据管道和机器学习世界）正在经历全面的强劲势头，据报道（因为它仍然是一家私营公司）在 24 财年以 16 亿美元的收入结束了 24 财年，增长率超过 50%。重要的是，Databricks 正在成为一个关键的生成式人工智能参与者，这既是通过收购（最著名的是以 13 亿美元收购 MosaicML），也是通过内部产品开发——首先是作为为 LLM 提供动力的非结构化数据的关键存储库，也是作为模型的创建者，从 Dolly 到 DBRX，该公司刚刚在撰写本文时宣布了一种新的生成式人工智能模型。

Snowflake 与 Databricks 竞争中的主要新发展是 Microsoft Fabric 的推出。它于 2023 年 5 月发布，是一个端到端的基于云的 SaaS 数据和分析平台。它集成了许多 Microsoft 产品，包括 OneLake （开放式湖仓）、PowerBI 和 Synapse Data Science，并涵盖了从数据集成和工程到数据科学的所有数据和分析工作流程。与大型公司产品发布一样，公告和产品现实之间存在差距，但结合 Microsoft 在生成式人工智能方面的主要推动，这可能会成为一个强大的威胁（作为故事的另一个转折点，Databricks 主要位于 Azure 之上）。

5. 2024 年 BI 的发展趋势，以及生成式人工智能是否会改变数据分析的格局？

在现代数据堆栈和结构化数据管道世界的各个部分中，最需要彻底改造的类别是商业智能。我们在 2019 年的 MAD 中强调了 BI 行业几乎完全整合，并在 2021 年的 MAD 中谈到了指标存储的出现。

BI/分析的转型比我们预期的要慢。该行业仍然主要由较旧的产品主导，即 Microsoft 的 PowerBI、Salesforce 的 Tableau 和 Google 的 Looker，这些产品有时会在更广泛的销售合同中免费捆绑。出现了一些整合（Thoughtspot 收购了 Mode；Sisu 被 Snowflake 静静收购）。一些年轻的公司正在采取创新的方法，无论是规模化公司（参见 dbt 及其语义层/MetricFlow）还是初创公司（参见 Trace* 及其指标树），但它们通常都处于起步阶段。

除了在数据提取和转换中可能发挥强大作用之外，生成式人工智能还可以在增强和民主化数据分析方面产生深远的影响。

当然，已经有很多活动了。OpenAI 推出了代码解释器，后来更名为高级数据分析。Microsoft 在 Excel 中为金融工作者推出了 Copilot AI 聊天机器人。在云供应商、Databricks、Snowflake、开源和大量初创公司中，许多人正在开发或已经发布了“文本到 SQL”产品，以帮助使用自然语言在数据库中运行查询。

这种前景既令人兴奋，又可能具有颠覆性。数据分析的圣杯一直是其民主化。如果自然语言成为笔记本、数据库和 BI 工具的界面，那么它将使更广泛的人群能够进行分析。

然而，BI 行业的许多人对此持怀疑态度。SQL 的精确性和理解查询背后业务环境的细微差别被认为是自动化的巨大障碍。

6. 现代人工智能堆栈的兴起

到目前为止，我们讨论的很多内容都与结构化数据管道世界有关。

如前所述，非结构化数据基础设施世界正在经历一个截然不同的时刻。非结构化数据是 LLM 的动力，并且对其需求旺盛。每一家正在试验或部署生成式人工智能的公司都在重新发现那句古老的陈词滥调：“数据是新的石油”。每个人都想要 LLM 的力量，但要根据他们（企业）的数据进行训练。

大大小小的公司都争先恐后地抓住机会，提供生成式人工智能的基础设施。

几家 AI 规模化公司一直在积极发展其产品，以利用市场势头——从 Databricks （见上文）到 Scale AI （他们将其最初为自动驾驶汽车市场开发的标签基础设施发展为与 OpenAI 等公司合作的企业数据管道）再到 Dataiku* （他们推出了 LLM Mesh，使全球 2000 强公司能够无缝地跨多个 LLM 供应商和模型工作）。

与此同时，新一代 AI 基础设施初创公司正在兴起，涵盖多个领域，包括：

向量数据库，它以生成式人工智能模型可以使用的格式（向量嵌入）存储数据。专业供应商（Pinecone、Weaviate、Chroma、Qudrant 等）经历了丰收的一年，但一些现有数据库参与者（MongoDB）也迅速做出反应，并添加了向量搜索功能。

框架（LlamaIndex、Langchain 等），用于连接和协调所有移动部件

护栏，位于 LLM 和用户之间，并确保模型提供的输出符合组织的规则。

评估器，帮助测试、分析和监控生成式人工智能模型的性能，这是一个难题，正如人们普遍不信任公共基准所证明的那样

路由器，帮助实时引导用户查询跨不同的模型，以优化性能、成本和用户体验

成本守卫，帮助监控使用 LLM 的成本

端点，实际上是抽象化底层基础设施（如模型）复杂性的 API

鉴于现代数据堆栈的历史，我们一直拒绝使用“现代人工智能堆栈”一词。

但这个表达方式体现了许多相似之处：许多这样的初创公司都是当今的“热门公司”，就像之前的 MDS 公司一样，它们往往成群结队地出现，建立营销联盟和产品合作伙伴关系。

而这一代新的 AI 基础设施初创公司将面临与之前的 MDS 公司相同的挑战：这些类别中是否有任何一个足够大，可以建立一家价值数十亿美元的公司？大公司（主要是云提供商，但也包括 Databricks 和 Snowflake）最终会自己构建哪些部分？

7. 我们处于人工智能炒作周期的哪个阶段？

人工智能有着长达数十年的 AI 夏季和冬季的历史。仅在过去 10-12 年中，这是我们经历的第三次 AI 炒作周期：一次是在 2012 年 ImageNet 之后深度学习成为众人瞩目的焦点之后的 2013-2015 年；另一次是在 2017-2018 年左右的聊天机器人热潮和 TensorFlow 的兴起期间；现在是从 2022 年 11 月开始的生成式人工智能。

由于多种原因，这次炒作周期特别激烈，以至于感觉像是一个 AI 泡沫：这项技术令人难以置信地令人印象深刻；它非常直观，并且跨界到科技圈之外的广大受众；对于拥有大量闲置资金的风险投资家来说，这是唯一的选择，因为几乎所有其他技术都处于低迷状态。

炒作带来了所有常见的好处（“没有非理性的繁荣，就无法取得任何伟大的成就”，“让一千朵鲜花盛开”阶段，有大量资金可用于雄心勃勃的项目）和噪音（每个人一夜之间都成为人工智能专家，每家初创公司都是人工智能初创公司，太多的人工智能会议/播客/时事通讯……我们敢说，太多的人工智能市场地图？？？）。

任何炒作周期的主要问题都是不可避免的强烈反对。

在这个市场阶段存在相当多的“怪癖”和风险：该领域的典型公司拥有非常不寻常的法律和治理结构；正在发生许多“以计算换取股权”的交易（可能存在循环交易），但这些交易没有得到充分的理解或披露；许多顶级初创公司由人工智能研究人员团队运营；许多风险投资交易让人想起零利率政策时代：“抢占市场”、大规模融资和对非常年轻的公司进行令人瞠目结舌的估值。

人工智能炒作肯定已经出现裂痕（见下文），但我们仍然处于一个每周都有新事物让所有人大吃一惊的阶段。像据报道的 400 亿美元沙特阿拉伯人工智能基金这样的消息似乎表明，流入该领域的资金不会很快停止。

8. 实验与现实：2023 年是虚晃一枪吗？

与上述内容相关——鉴于炒作，到目前为止有多少是真实的，而不仅仅是实验性的？

2023 年是充满行动的一年：a）每家科技供应商都争先恐后地将生成式人工智能纳入其产品中，b）每家全球 2000 强董事会都要求其团队“做人工智能”，并且一些企业部署以创纪录的速度进行，包括在摩根士丹利和花旗银行等受监管行业的公司，以及 c）当然，消费者对生成式人工智能应用程序表现出狂热的兴趣。

因此，2023 年是取得重大胜利的一年：OpenAI 的年收入达到 20 亿美元；Anthropic 的增长速度使其能够预测 2024 年的收入为 8.5 亿美元；Midjourney 的收入增长到 2 亿美元，没有投资，只有 40 人的团队；Perplexity AI 的月活跃用户从 0 增长到 1000 万，等等。

我们应该持怀疑态度吗？一些担忧：

在企业中，很多支出都用于概念验证（指为了验证某个概念或理论的可行性而进行的试验或演示）或容易取得的成果，通常来自创新预算。

有多少是由高管希望不显得措手不及，而不是解决实际业务问题所驱动的？

在消费者领域，人工智能应用程序的流失率很高。有多少仅仅是出于好奇？

在个人和职业生活中，许多人报告说他们不完全确定如何使用生成式人工智能应用程序和产品

并非所有生成式人工智能产品，即使是那些由最优秀的人工智能人才构建的产品，都会变得神奇：我们是否应该将 Inflection AI 在筹集 13 亿美元后迅速倒闭的决定视为承认世界不需要另一个 AI 聊天机器人，甚至不需要 LLM 提供商？

9. 大型语言模型 ( LLM ) 公司：也许并没有那么商品化？

数十亿美元的风险投资和企业资金正在投资于基础模型公司。

因此，在过去 18 个月中，每个人都最喜欢问的问题是：我们是否正在目睹资本大量涌入最终会变成大众化产品的领域？或者这些 LLM 提供商会成为新的云计算巨头，如亚马逊云科技 ( AWS )、微软 Azure 和谷歌云平台 ( GCP )？

一个令人不安的事实（对相关公司而言）是，似乎没有一家 LLM 公司正在建立持久的性能优势。在撰写本文时，Claude 3 Sonnet 和 Gemini Pro 1.5 的性能优于 GPT-4，而 GPT-4 的性能优于 Gemini 1.0 Ultra，等等——但这似乎每隔几周就会发生变化。性能也可能波动——ChatGPT 在某个时候“失去了理智”并“变得懒惰”，暂时如此。

此外，开源模型（Llama 3、Mistral 和其他模型，如 DBRX）在性能方面正在迅速赶上。

另外——市场上的 LLM 提供商比最初出现的要多得多。几年前，普遍的观点是，可能只有一两家 LLM 公司，并且会出现赢家通吃的局面——部分原因是世界上只有极少数人拥有扩展 Transformer （一种神经网络架构）所需的专业知识。

事实证明，有能力的团队比最初预期的要多。除了 OpenAI 和 Anthropic 之外，还有许多初创公司正在进行基础人工智能工作——Mistral、Cohere、Adept、AI21、Imbue、01.AI 等等——当然还有 Google、Meta 等公司的团队。

话虽如此——到目前为止，LLM 提供商似乎做得很好。非常感谢，OpenAI 和 Anthropic 的收入正在以惊人的速度增长。也许 LLM 模型确实会被大众化，但 LLM 公司仍然面临着巨大的商机。除了底层模型之外，它们已经成为“全栈”公司，为多个受众（消费者、企业、开发者）提供应用程序和工具。

也许与云供应商的类比确实非常恰当。AWS、Azure 和 GCP 通过应用程序/工具层吸引和留住客户，并通过基本上没有差异的计算/存储层获利。

10. LLM、SLM 和混合未来

尽管人们对大型语言模型感到兴奋，但过去几个月的明显趋势是小型语言模型 ( SLM ) 的加速发展，例如 Meta 的 Llama-2-13b、Mistral 的 Mistral-7b 和 Mixtral 8x7b 以及 Microsoft 的 Phi-2 和 Orca-2。

虽然 LLM 变得越来越大（据报道 GPT-3 有 1750 亿个参数，GPT-4 有 1.7 万亿个参数，而世界正在等待一个更大的 GPT-5），但 SLM 正在成为许多用例的强大替代方案，因为它们的运营成本更低、更容易微调，并且通常提供强大的性能。

另一个加速发展的趋势是专业模型的兴起，这些模型专注于特定任务，如编码（Code-Llama、Poolside AI）或行业（例如彭博社的金融模型，或为材料科学构建模型的初创公司 Orbital Materials 等）。

正如我们已经在许多企业部署中看到的那样，世界正在迅速朝着混合架构发展，结合了多种模型。

尽管价格一直在下降（见下文），但大型专有 LLM 仍然非常昂贵，并且存在延迟问题，因此用户/客户将越来越多地部署大型和小型、商业和开源、通用和专业的模型组合，以满足他们的特定需求和成本限制。

11. 传统人工智能已死吗？

ChatGPT 的推出发生了一件有趣的事情：在此之前部署的大部分人工智能一夜之间都被贴上了“传统人工智能”的标签，与“生成式人工智能”形成对比。

这对许多人工智能从业者和公司来说有点震惊，因为在此之前，他们一直被认为是在做前沿工作，而“传统”一词显然表明所有形式的人工智能都将被新事物彻底取代。

现实要微妙得多。传统人工智能和生成式人工智能最终是互补的，因为它们处理不同类型的数据和用例。

现在被称为“传统人工智能”，或者偶尔被称为“预测人工智能”或“表格人工智能”的东西，也是现代人工智能（基于深度学习）的重要组成部分。然而，它通常专注于结构化数据（见上文），以及推荐、客户流失预测、定价优化、库存管理等问题。“传统人工智能”在过去十年中得到了广泛的采用，并且已经在全球数千家公司的生产中大规模部署。

相比之下，生成式人工智能主要处理非结构化数据（文本、图像、视频等）。它在不同类型的问题（代码生成、图像生成、搜索等）上表现异常出色。

同样，未来是混合的：公司将使用 LLM 来完成某些任务，使用预测模型来完成其他任务。最重要的是，它们通常会将它们结合起来——LLM 可能不擅长提供精确的预测，例如客户流失预测，但你可以使用一个 LLM，它调用另一个专注于提供该预测的模型的输出，反之亦然。

12. 薄包装器、厚包装器和成为全栈的竞赛

“薄包装器”是每个人在 2023 年都喜欢使用的贬义词。这种观点认为，如果你的核心能力是由别人的技术（如 OpenAI）提供的，那么就很难建立持久

的价值和差异化。几个月前有报道称，像 Jasper 这样的初创公司在经历了收入的飞速增长后遇到了困难，这似乎证实了这种想法。

有趣的问题是，随着时间的推移，当年轻的初创公司构建更多功能时，会发生什么。薄包装器会变成厚包装器吗？

在 2024 年，感觉厚包装器可以通过以下方式实现差异化：

专注于特定问题，通常是垂直的——因为任何过于横向的东西都有可能处于大型科技公司的“杀伤区”
构建特定于该问题的工作流程、协作和深度集成
在人工智能模型层面做大量工作——无论是使用特定数据集微调模型，还是创建针对其特定业务定制的混合系统（LLM、SLM 等）

换句话说，它们需要既狭窄又“全栈” （既是应用程序又是基础设施）。

13. 2024 年值得关注的有趣领域：人工智能代理、边缘人工智能

在过去的一年中，围绕人工智能代理的概念出现了很多兴奋——基本上是智能系统的最后一英里，它可以执行任务，通常以协作的方式。这可以是任何事情，从帮助预订旅行（消费者用例）到自动运行完整的 SDR （销售开发代表 ( Sales Development Representative )，通常负责寻找潜在客户并进行初步沟通）活动（生产力用例）再到 RPA （机器人流程自动化 ( Robotic Process Automation )，指使用软件机器人自动执行重复性任务）风格的自动化（企业用例）。

人工智能代理是自动化的圣杯——一种“文本到行动”的范式，人工智能可以为我们完成工作。

每隔几个月，人工智能世界就会为一款类似代理的产品而疯狂，从去年的 BabyAGI 到最近的 Devin AI （一个“人工智能软件工程师”）。然而，总的来说，到目前为止，这种兴奋中的大部分已被证明为时过早。在涉及多个模型的复杂系统能够协同工作并代表我们采取实际行动之前，首先要做很多工作，使生成式人工智能不那么脆弱，更可预测。还有一些缺失的组件——例如需要在人工智能系统中构建更多内存。然而，预计人工智能代理将在未来一两年内成为一个特别令人兴奋的领域。

另一个有趣的领域是边缘人工智能。尽管对于大规模运行并作为端点交付的 LLM 来说，这是一个巨大的市场，但人工智能的圣杯一直是可以本地运行在设备上的模型，无需 GPU，尤其是手机，但也包括智能的物联网类型设备。这个领域非常活跃：Mixtral、Ollama、Llama.cpp、Llamafile、GPT4ALL （Nomic）。Google 和 Apple 也可能越来越活跃。

14. 生成式人工智能是走向通用人工智能 ( AGI )，还是走向平台期？

鉴于所有关于人工智能的令人窒息的观点，以及似乎每周都会出现令人难以置信的新产品，这几乎是一个亵渎神明的问题——但是否存在这样一个世界，生成式人工智能的进步会放缓，而不是一路加速到 AGI？那意味着什么？

这种观点有两个方面：a）基础模型是一种蛮力练习，我们将耗尽资源（计算、数据）来喂养它们，以及 b）即使我们没有耗尽资源，最终通往 AGI 的道路也是推理，而 LLM 无法做到这一点。

有趣的是，这或多或少与 6 年前行业进行的讨论相同，正如我们在 2018 年的一篇博客文章中所描述的那样。事实上，自 2018 年以来似乎发生的最大变化是我们投入（越来越强大的）模型的数据和计算量。

总的来说，我们在人工智能推理方面取得了多少进展尚不清楚——尽管 DeepMind 的程序 AlphaGeometry 似乎是一个重要的里程碑，因为它将语言模型与符号引擎结合起来，使用逻辑规则进行推理。

我们距离任何形式的计算或数据“耗尽”还有多远，这很难评估。

“计算能力耗尽”的边界似乎每天都在被推后。NVIDIA 最近宣布了 Blackwell GPU 系统，该公司表示它可以部署一个 27 万亿参数的模型（而 GPT-4 为 1.7 万亿个参数）。

数据部分很复杂——有一个更具战术性的问题，即合法许可数据的耗尽（参见所有 OpenAI 许可协议），以及一个更广泛的问题，即文本数据的耗尽。围绕合成数据肯定有很多工作正在进行。Yann LeCun 讨论了将模型提升到下一个级别可能需要它们能够摄取更丰富的视频输入，而这目前还不可能。

人们对 GPT-5 寄予厚望。它比 GPT-4 好多少，将被广泛视为人工智能整体进步速度的风向标。

从初创生态系统参与者（创始人、投资者）的狭隘角度来看，这个问题可能在中期内不那么重要——如果生成式人工智能的进步明天达到渐近线，我们仍然有数年的商机，可以将我们目前拥有的东西部署到各个垂直领域和用例中。

15. GPU 大战（NVIDIA 被高估了吗？）

我们是否正处于一个巨大周期的早期阶段，在这个周期中，计算成为世界上最宝贵的商品，或者我们是否在以一种肯定会导致大崩溃的方式过度建设 GPU 生产？

作为生成式人工智能专用 GPU 领域几乎唯一的参与者，NVIDIA 肯定经历了一段相当长的时期，其股价上涨了五倍，估值达到 2.2 万亿美元，自 2022 年底以来总销售额增长了三倍，人们对其收益的巨大兴奋以及 Jensen Huang 在 GTC 上的亮相与 Taylor Swift 争夺 2024 年最大事件的称号。

也许这在一定程度上也是因为它最终受益于风险投资家在人工智能领域投资的数十亿美元？

无论如何，尽管 NVIDIA 作为一家公司拥有不可否认的实力，但它的命运将与当前淘金热的持续性息息相关。硬件很难，准确预测台湾台积电需要生产多少 GPU 是一门很难的艺术。

此外，竞争对手正在尽最大努力做出反应，从 AMD 到英特尔再到三星；初创公司（如 Groq 或 Cerebras）正在加速发展，新的初创公司也可能成立，比如传闻中的 Sam Altman 的 7 万亿美元芯片公司。一个由 Google、英特尔和高通等科技公司组成的新联盟正试图追赶 NVIDIA 的秘密武器：其 CUDA 软件，它使开发者与 Nvidia 芯片绑定在一起。

我们的观点：随着 GPU 短缺的缓解，NVIDIA 可能会在短期到中期内面临下行压力，但人工智能芯片制造商的长期前景仍然非常光明。

16. 开源人工智能：好事太多？

这只是为了稍微搅动一下局面。我们是开源人工智能的忠实粉丝，显然这是过去一年左右的一大趋势。Meta 凭借其 Llama 模型做出了重大推动，法国的 Mistral 从争议的焦点变成了生成式人工智能的新星，Google 发布了 Gemma，HuggingFace 继续作为开源人工智能的活跃之家崛起，托管了大量模型。生成式人工智能领域的一些最具创新性的工作是在开源社区完成的。

然而，也有一种普遍的感觉是，开源社区中弥漫着通货膨胀。现在有成千上万的开源人工智能模型可用。许多是玩具或周末项目。模型在排名中上下波动，其中一些模型在短短几天内就以 Github 星星标准（一个有缺陷的指标，但仍然如此）经历了飞速增长，但最终都没有转化为任何特别有用的东西。

市场将自我纠正，成功的开源项目将遵循幂律分布，这些项目将获得来自云提供商和其他大型科技公司不成比例的支持。但与此同时，当前的爆炸式增长让许多人感到头晕目眩。

17. 人工智能的实际成本是多少？

生成式人工智能的经济学是一个快速发展的课题。毫不奇怪，该领域的许多未来都围绕着它展开——例如，如果提供人工智能驱动答案的成本明显高于提供十个蓝色链接的成本，那么人们能否认真挑战 Google 在搜索领域的地位？如果推理成本吞噬了软件公司的毛利率，那么软件公司能否真正实现人工智能驱动？

好消息是，如果你是人工智能模型的客户/用户：我们似乎正处于价格方面竞相降价的早期阶段，而且这种降价的速度比人们预期的要快。一个关键驱动因素是开源人工智能（Mistral 等）和商业推理供应商（Together AI、Anyscale、Replit）的并行崛起，这些供应商采用这些开源模型并将其作为端点提供服务。客户的转换成本非常低（除了使用不同的模型产生不同的结果的复杂性之外），这给 OpenAI 和 Anthropic 带来了压力。这方面的一个例子是嵌入模型的成本大幅下降，多个供应商（OpenAI、Together AI 等）同时降价。

从供应商的角度来看，构建和服务人工智能的成本仍然很高。据媒体报道，Anthropic 将其产生的一半以上收入用于支付 AWS 和 GCP 等云提供商来运行其 LLM。还有与出版商签订许可协议的成本

从好的方面来说，也许我们所有人作为生成式技术的使用者都应该享受风险投资补贴的免费服务的爆炸式增长：

18. 大公司和人工智能不断变化的政治经济学：微软赢了吗？

这是每个人在 2022 年底提出的第一个问题之一，在 2024 年，这个问题更加重要：大型科技公司会获得生成式人工智能的大部分价值吗？

人工智能奖励规模——更多的数据、更多的计算、更多的人工智能研究人员往往会产生更大的力量。大型科技公司已经敏锐地意识到了这一点。与之前平台转型中的现有企业不同，它也对潜在的颠覆做出了强烈的反应。

在大型科技公司中，微软确实感觉像是在下四维象棋。显然，这与 OpenAI 的关系密不可分，微软在 2019 年首次投资 OpenAI，现在已经支持了 130 亿美元。但微软也与开源竞争对手 Mistral 合作。它投资了 ChatGPT 的竞争对手 Inflection AI （Pi），最近又以惊人的方式收购了它。

最终，所有这些合作伙伴关系似乎只会创造出对微软云计算的更多需求——Azure 收入同比增长 24%，在 2024 年第二季度达到 330 亿美元，其中 6 个百分点的 Azure 云增长归因于人工智能服务。

与此同时，Google 和亚马逊与 OpenAI 的竞争对手 Anthropic 建立了合作伙伴关系并进行了投资（在撰写本文时，亚马逊刚刚向该公司承诺了另外 27.5 亿美元，这是其计划投资 40 亿美元的第二批资金）。亚马逊还与开源平台 Hugging Face 合作。据报道，Google 和 Apple 正在讨论将 Gemini AI 集成到 Apple 产品中。Meta 可能会通过全力投入开源人工智能来削弱所有人。然后是中国发生的一切。

显而易见的问题是，初创公司有多少成长和成功的机会。第一梯队的初创公司（主要是 OpenAI 和 Anthropic，也许 Mistral 很快就会加入它们）似乎已经建立了正确的合作伙伴关系，并达到了逃逸速度。对于许多其他初创公司，包括资金非常雄厚的初创公司，结果仍然悬而未决。

我们是否应该从 Inflection AI 决定让自己被收购以及 Stability AI 的首席执行官困境中解读出，对于一群“第二梯队”的生成式人工智能初创公司来说，商业牵引力更难实现？

19. 追捧 OpenAI——还是不追捧？

OpenAI 继续令人着迷——860 亿美元的估值、收入增长、公司内部的权力斗争，以及 Sam Altman 成为这一代的史蒂夫·乔布斯：

几个有趣的问题：

OpenAI 是否试图做太多事情？在 11 月的所有戏剧性事件之前，OpenAI 举办了开发者日，在此期间，OpenAI 明确表示它将在人工智能领域做所有事情，包括垂直（全栈）和水平（跨用例）：模型 + 基础设施 + 消费者搜索 + 企业 + 分析 + 开发工具 + 市场等。当一家初创公司在一个大的范式转变中处于早期领先地位，并且实际上可以无限制地获得资金时，这并不是一个史无前例的策略（Coinbase 在加密货币领域就是这样做的）。但观察起来会很有趣：虽然这肯定会简化 MAD 领域，但这将是一个艰巨的执行挑战，尤其是在竞争加剧的背景下。从 ChatGPT 的“偷懒”问题到其市场努力的平淡表现表明，OpenAI 并不免疫于商业规律。

OpenAI 和微软会分手吗？与微软的关系一直令人着迷——显然，微软的支持在资源（包括计算）和分销（企业中的 Azure）方面极大地推动了 OpenAI 的发展，并且在生成式人工智能浪潮的早期，这一举措被广泛视为微软的一项大师级举措。与此同时，正如上面提到的，微软已经明确表示，它不依赖于 OpenAI （拥有所有代码、权重、数据），它已经与竞争对手（例如 Mistral）建立了合作伙伴关系，并且通过收购 Inflection AI，它现在已经大大加强了其人工智能研究团队。

与此同时，OpenAI 是否希望继续与微软建立单线程合作伙伴关系，而不是部署在其他云上？

鉴于 OpenAI 的雄心壮志以及微软的全球统治目标，这两家公司在什么时候会得出结论，认为它们是竞争对手而不是合作伙伴？

20. 2024 年会是企业人工智能之年吗？

如上所述，2023 年的企业感觉就像是一个关键年份，每个人都争先恐后地拥抱新趋势，但除了

一些概念验证之外，实际上并没有发生太多事情。

也许 2023 年生成式人工智能的最大赢家是埃森哲这样的公司，据报道，它们在人工智能咨询方面获得了 20 亿美元的收入。

无论如何，人们都非常希望 2024 年将成为企业人工智能的重要一年——或者至少是生成式人工智能的重要一年，因为传统人工智能已经在那里留下了重要的足迹（见上文）。

但我们还处于回答全球 2000 强类型公司面临的一些关键问题的早期阶段：

用例是什么？到目前为止，唾手可得的用例主要是 a）开发者团队的代码生成副驾驶，b）企业知识管理（搜索、文本摘要、翻译等），以及 c）用于客户服务的人工智能聊天机器人（一个早于生成式人工智能的用例）。当然还有其他用例（营销、自动化 SDR 等），但还有很多需要弄清楚的地方（副驾驶模式与全自动化等）。

我们应该选择哪些工具？根据以上所述，感觉未来是混合的，商业供应商和开源、大型和小型模型、水平和垂直 GenAI 工具的组合。但从哪里开始呢？

谁将部署和维护这些工具？全球 2000 强公司明显缺乏技能。如果你认为招聘软件开发人员很难，那就试试招聘机器学习工程师吧。

我们如何确保它们不会产生幻觉？是的，围绕 RAG、护栏和评估等方面正在进行大量工作，但生成式人工智能工具可能完全错误的可能性，以及我们并不真正了解生成式人工智能模型如何工作的更广泛问题，是企业中的大问题。

投资回报率是多少？大型科技公司很早就开始利用生成式人工智能来满足自身需求，并且它们正在展示有趣的早期数据。在他们的财报电话会议上，Palo Alto Networks 提到他们的差旅和费用服务成本大约减少了一半，ServiceNow 提到他们的开发者创新速度提高了 52%，但我们还处于了解企业中生成式人工智能的成本/回报方程式的早期阶段。

对生成式人工智能供应商来说，好消息是，企业客户有很大的兴趣分配预算（重要的是，不再是“创新”预算，而是实际的运营支出预算，可能从其他地方重新分配）和资源来解决这个问题。但我们可能谈论的是一个 3-5 年的部署周期，而不是一个。

21. 人工智能会扼杀 SaaS 吗？

这是过去 12 个月的流行观点之一。

这个问题的一个版本是：人工智能使编码速度提高了 10 倍，因此只需几个普通的开发人员，你就可以创建一个定制的 SaaS 产品版本，以满足你的需求。当你可以构建自己的 SaaS 产品时，为什么要向 SaaS 提供商支付很多钱。

这个问题的另一个版本是：未来是一个人工智能智能（可能由多个模型组成），它通过一系列代理来运行你的整个公司。你不再购买人力资源软件、财务软件或销售软件，因为人工智能智能以完全自动化和无缝的方式完成所有工作。

我们似乎距离这两种趋势以任何形式全面发生都还很遥远，但众所周知，人工智能领域的变化非常快。

与此同时，感觉未来的一个可能版本是，随着人工智能被构建到每个 SaaS 产品中，SaaS 产品将变得更加强大。

22. 人工智能会扼杀风险投资吗？

撇开人工智能是否可以在公司选择和投资后增值方面实现风险投资自动化这个（永远有趣）的话题不谈，围绕着资产类别是否适合人工智能平台转型，存在着一系列有趣的问题：

风险投资规模是否太小？OpenAI 这样的公司需要筹集数十亿美元，并且可能需要筹集更多数十亿美元。其中很多数十亿美元是由微软这样的大公司提供的——可能很大一部分是以计算换取股权交易的形式提供的。当然，许多风险投资家已经投资了大型基础模型公司，但至少，这些投资明显偏离了传统的风险投资软件投资模式。也许人工智能投资将需要超大型风险投资基金——在撰写本文时，沙特阿拉伯似乎即将与美国风险投资公司合作推出一个 400 亿美元的人工智能基金。

风险投资规模是否太大？如果你相信人工智能将使我们的生产力提高 10 倍，包括超级编码员、自动化 SDR 代理和自动化营销创造，那么我们将见证整整一代完全自动化公司的诞生，这些公司由骨干团队（或者可能只是一个独立企业家）运营，理论上可以达到数亿美元的收入（并上市）？

一家由独立企业家经营的年收入 1 亿美元的公司在其发展过程中是否需要风险投资？

23. 人工智能会复兴消费者市场吗？

自社交媒体和移动时代以来，消费者市场一直在寻找下一个风口。生成式人工智能很可能就是它。

一些有趣的领域（以及许多其他领域）：

搜索：几十年来，Google 的搜索垄断地位首次出现了一些早期但可信的竞争对手。少数像 Perplexity AI 和 You.com 这样的初创公司正在引领从搜索引擎到答案引擎的演变。

人工智能伴侣：除了反乌托邦的方面，如果每个人都有一个无限耐心和乐于助人的伴侣，能够满足一个人的特定需求，无论是知识、娱乐还是治疗，那会怎么样

人工智能硬件：Humane、Rabbit、VisionPro 是消费硬件领域令人兴奋的新产品

超个性化娱乐：随着生成式人工智能驱动工具变得越来越好（也越来越便宜），我们将发明哪些新的娱乐和艺术形式？

24. 人工智能和区块链：胡说八道，还是令人兴奋？

我知道，我知道。人工智能和加密货币的交集感觉像是 X/Twitter 笑话的完美素材。

然而，不可否认的是，人工智能正在集中到少数几家拥有最多计算、数据和人工智能人才的公司手中——从大型科技公司到著名的非开放式 OpenAI。与此同时，区块链主张的核心是 enabling the creation of decentralized networks that allow participants to share resources and assets. 那里有肥沃的探索土壤，这是我们几年前就开始探索的话题（演示）。

许多与人工智能相关的加密项目经历了明显的加速，包括 Bittensor* （去中心化机器智能平台）、Render （去中心化 GPU 渲染平台）、Arweave （去中心化数据平台）。

虽然我们在今年的 MAD 领域中没有包含加密部分，但这是一个值得关注的有趣领域。

现在，与往常一样，问题是加密行业能否自助，而不是退化为数百个与人工智能相关的模因币、拉高出货计划和骗局。

奖励：我们在这里没有讨论的其他话题：

人工智能会杀死我们所有人吗？人工智能末日论者与人工智能加速主义者

监管、隐私、道德、深度伪造

人工智能只能在旧金山“制造”吗？

第三部分：融资、并购和 IPO

融资

当前的融资环境是“两个市场的故事”情况之一，即有人工智能，还有其他一切。

整体融资继续下滑，在 2023 年下降了 42%，至 2484 亿美元。2024 年的头几个月出现了一些可能的复苏迹象，但到目前为止，趋势或多或少是相同的。

数据基础设施的融资活动很少，Sigma Computing 和 Databricks 是少数例外。

显然，人工智能是一个完全不同的故事。

人工智能融资市场不可避免的特征是：

大量资本集中在少数几家初创公司，尤其是 OpenAI、Anthropic、Inflection AI、Mistral 等。
来自企业投资者的活动水平不成比例。2023 年最活跃的三家人工智能投资者是微软、Google 和 NVIDIA
上述企业交易中存在一些模糊之处，即实际现金金额与“以计算换取股权”的比例

自我们 2023 年的 MAD 以来，一些值得注意的交易，按大致时间顺序排列（并非详尽无遗的清单！）：

公司名称

公司简介

融资总额 (亿美元)

估值 (亿美元)

融资轮次

OpenAI

基础模型开发者

103

860

Adept

基础模型开发者

3.5

AlphaSense

金融服务市场研究平台

4.75

Anthropic

基础模型开发者

64.5

184

子非AI

子非AI，焉知AI之乐：分享AI的有趣应用和创新案例，让你了解AI的乐趣。