生成式人工智能，美国正在跨越鸿沟-虎嗅网

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究，题图来自：《银翼杀手2049》

在面子上，大模型仍然很光鲜。越来越多的报告吹捧它。

麦肯锡估算说，现在60%到70%的工作可以被自动化，这比几个月前埃森哲说目前40%的工作时间受影响还惊人。麦肯锡还预测，生成式人工智能诞生后，AI让人类下岗的时间被大幅提前了10年。红杉资本则说，几乎所有公司都在产品中用到了语言模型。

在里子上，大模型可能正在“跨越鸿沟”，至少在美国是如此。

ChatGPT的访问量增速已经放缓。从1月的环比增长130%，到2月与3月的60%左右，再到4月接近跌破10%，最新的数据则显示，5月仅增长了3%。ChatGPT也没有成为超级入口，它的用户平均访问时间从8分32秒下降到7分48秒。

“它的插件目前没有产品与市场的契合度（Product/Marketing Fit）。”OpenAI的CEO奥特曼在上个月的访谈中，说得太透明了，采访纪要很快从网上被删除，“许多人希望自己的应用程序在ChatGPT中，但它们真正想要的其实是他们的应用中可以使用ChatGPT。”

这或许是为什么本周传出消息，OpenAI决定推出AI模型的交易市场，把创新与发展交还给市场。

ChatGPT不能代表GPT的未来。它很大程度上是OpenAI与微软拿出来向市场炫技，让早期接受者兴奋，让守成者谷歌紧张的展示品。或许GPT也不一定就是AGI的未来，至少Meta首席人工智能科学家杨立昆（Yann LeCun）认为它已进入了死胡同。

人工智能要影响经济，还需要很多年。监管是一道墙。奥特曼一直在游说全球政府，却对一些监管细节语焉不详。斯坦福大学套用欧盟的人工智能法案草案，发现OpenAI和它的同行们都不及格。

“幻觉”也是。正因为如此，很多人对于在产品和工作流程中使用它持谨慎态度。目前来看，除了少数行业，大模型与具体业务流程的对接与价值创造会相当漫长。

有人从内存上做文章，即上下文窗口（context windows）和检索（retrieval）能力。前者指“喂”给模型让它处理并从中输出获得信息的文本；后者指从模型训练数据的语料库之外的数据体中，检索和参考的相关信息和文档。它们反映了大模型的“记忆能力”。

简单拓展上下文窗口，有效，但过于粗放，它带来了推理成本的线性增长。狂热的早期客户可以不考虑成本，但早期大众不行，它们每个月都盯着自己的财报。而且，内存墙也会遭遇上限。

还有多模态的进展。红杉资本将此描述为“语言模型应用将变得越来越多模态”。言下之意，现在的大模型，需要超越语言模型。物理世界更为多姿多彩。从长远来看，多模态通过机器人等能与物理世界交互的实体，实现真正生产与在生活之中落地。

问题还有很多，但美国处于领先地位，而且监管强度几乎在全球主要经济体中最弱，我们相信它最终能摸着石头跨越鸿沟。

悬念在于，它要花多少时间，比其他国家领先多少。连最接近它的奥特曼也不知道。最近，他在接受《时代周刊》采访时说：“我们还需要很多年，我不知道需要多少年，但至少需要很多年。”

中国还没有走到这道鸿沟面前。

ChatGPT是历史上用户增速最快的应用。它面向普通消费者，一下子就吸引了早期客户。中国没有同等量级的消费级产品，低一个量级也没有。连最被寄予厚望的腾讯，本周也只是拿出了行业大模型。

很多美国企业调用了OpenAI的API，至少推出试水产品的时候如此，或许会逐步转向微调或自研。中国很多企业都声称自研大模型，以此赋能业务，或提供给市场。愿意公开名字的知名合作伙伴快不够用了。

中国拥有庞大的产业应用场景。理论上，自研建立壁垒，拥有更可靠的未来。但自研相对较慢，距离鸿沟也就更远。而且，通过企业客户去影响更广大的市场，流程更为复杂，也更为间接，大模型的实际性能，对经济的真实渗透，也就更难被透明地观察到。

在互联网诞生至今，中国反超美国，打到美国本土去的Temu（拼多多海外版）、CapCut（剪影海外版）、TikTok（抖音海外版）、Shein（购物应用），无一例外，都是面向消费者的应用或工具。它们很大程度上是中国市场残酷的自由竞争的胜者，颠覆了封闭与迟钝的美国电商巨头与社交巨头。

本周，还有这些发生在AI领域的事件值得关注：

一、风险、监管与伦理

深度合成服务算法备案清单发布。在国家网信办发布的这份清单中，百度、阿里、腾讯、抖音、科大讯飞等企业的41个算法入选，这也是国内首批公开的算法备案清单。其中，涉及的大模型及相关应用有百度文生图内容生成算法、智谱ChatGLM生成算法、讯飞星火认知大模型算法、网易易次元生成合成算法等。

美国将成立生成式AI公共工作组。它将由美国国家标准与技术研究院（NIST）牵头，在人工智能风险管理框架（RMF）的基础上，探索生成式AI的监管、测试、评估，以及解决社会问题的可能性。该工作组将吸收来自私营和公共部门的技术专家、志愿者。英国则任命了科技创业者伊恩·霍加斯（Ian Hogarth），领导新的特别工作组，研究人工智能带来的安全风险。

AI模型或不符合欧盟规则草案。斯坦福大学根据欧盟对有关数据源披露、版权保护、能源消耗等要求，评估了10个AI模型，每个模型在许多关键领域都表现不佳。ChatGPT和PaLM 2等封闭模型，数据缺乏透明度；开源模型更透明但更难控制。Anthropic排名垫底，法国政府资助的开源大模型BLOOM排名最高。

新加坡暂不打算监管AI。新加坡政府称会努力促进负责任地使用AI，并呼吁公司合作开发世界首个AI测试工具包AI Verify，对模型进行技术测试并记录过程检查。该试点项目于2022年启动，IBM与新加坡航空已选择加入。

二、中美科技巨头

腾讯正式公布行业大模型。腾讯并没有公布一个基础的通用大模型，它的MaaS 的技术底座是一系列的行业大模型，包括金融、政府、文旅、传媒、教育等10 大行业，有点类似于华为的悟道。基于这些基础模型，腾讯云的客户只要加入自己的场景数据，就可以生成契合自身业务需要的“专属模型”。此外，腾讯已有的 SaaS 产品进行智能化升级。

此外，京东透露将在7月13日发布大模型。蚂蚁集团也确认正在研发大模型“贞仪”。

阿里巴巴再调整，张勇专职云智能。研发大模型的阿里达摩院，目前仍属于云智能集团，要为从阿里分拆出去的兄弟集团及其他市场主体，提供大模型服务；数据与算力正在成为新的公共资源，需要国家统筹，阿里云也不例外。阿里云智能集团的完全分拆，已经启动，欢迎张勇进入大模型朋友圈。

谷歌推出电子表格生成式AI功能。该功能仅向Workspace Labs用户开放。用户只需描述想要完成的任务，Sheets就会生成自定义模板。

亚马逊拟设立生成式AI创新中心。AWS计划投资1亿美元，为客户提供AI和专家，帮助来自医疗、金融、制造等行业的客户，构建定制应用，开发和部署AI产品。Twilio、Ryanair和Lonely Planets是其早期用户。

OpenA或打造AI模型应用商店。客户可以在这个市场上，将他们根据自己的需求定制的AI模型，出售给其他企业。目前尚不清楚OpenAI是否会收取佣金，或以其他方式寻求收入。

三、大模型和行业应用

独角兽Inflection AI新发基础大模型。它被称为Inflection-1，在数千个H100 上训练，性能或超过GPT-3.5。在没有经过任何微调或对齐的情况下，它出色地完成了多项任务测试。他们计划发布更大型号的模型，能与GPT-4相媲美。

独角兽Stability AI宣布推出SDXL 0.9。它基于两个模型，一个35亿参数，一个66亿参数模型，通过运行两个模型并聚合结果，创建最终输出。它在图像和构图细节上都大大改进，且可在消费级GPU上运行。它可以实现图像到图像提示（使用一张图像获取其变体），或修复现有图像（重建图像的缺失部分，或创建无缝扩展）。

IBM和Adobe共同打造生成式AI内容供应链。Adobe的AI内容供应链和IBM的咨询服务相结合，为客户构建集成的内容供应链。目前Adobe Firefly专注于生成图像和文本，Sensei GenAI服务用于简化营销工作流程。

此外，阅文集团成立智能与平台研发事业部，负责研发AI大模型等核心技术，并将AIGC赋能内容创作生态。华策集团宣布成立AIGC应用研究院，并设立AIGC专项基金，首期规模为5亿元，关注基于影视行业的垂类大模型公司、影视行业AI应用企业、影视AI技术平台和团队。拓尔思称，旗下拓天大模型已经在媒体、政务、金融等行业率先落地应用。汉王科技称，拟在今年年底推出生成式算法模型。

四、资金流向

Synthesi获得C轮融资了9000万美元。这家AI视频生成平台的估值达到了10亿美元。该公司开发的软件可以让人们制作自己的数字化身，使用120多种不同的语言，发表企业演讲、培训视频。它们希望把制作视频的成本，降低到制作幻灯片一样。迄今为止，用户在该平台上制作了超过1200万段视频。

Captions获得B轮融资2500万美元。至此，这家2021年成立的美国AI视频编辑企业，已累计融资达4000万美元，估值2.5亿美元。它拥有约10万名日活跃用户，每月创建约100万个视频。

ElevenLabs获得A轮融资1900万美元。这家AI语音生成平台融资后估值为9900万美元。它的语音技术主要应用于无障碍市场、有声书创建和游戏角色配音等领域，利用生成式AI技术，复制他人的声音或创造全新的合成声音。全球已有超过100万用户使用它提供的服务，生成总长度逾10年的语音内容。

两位美国大佬创业3个月，估值1亿美元。年初，谷歌副总裁克莱·巴沃尔（Clay Bavor）离职，与Salesforce前联合首席执行官布雷特·泰勒（Bret Taylor），共同创建专注于人工智能的初创公司。目前，Benchmark与红杉资本已经投资了2000万美元，估值1亿美元。其他细节未知。

生数科技成立3个月，天使轮估值1亿美元。多模态大模型初创企业生数，今年3月成立，核心成员主要来自清华大学人工智能学院，是国内最早布局多模态通用大模型的团队之一。此次近亿级天使轮融资，由蚂蚁集团领投。前瑞莱智慧副总唐家渝出任首席执行官。

五、基础设施

思科推出新AI网络芯片。新一代以太网交换机G200和G202搭载了新芯片，其性能是上一代产品的两倍，最多可连接32000个GPU。它们延迟时间更短，效能高。6大主要云计算提供商中，已有5家已在测试该系列产品。此前，博通也曾推出同类网络芯片Jericho3-AI。

六、开源生态

“小羊驼”背后的vLLM开源。vLLM是一个开源的大语言模型推理和服务引擎。最受欢迎的语言模型，如Vicuna、Koala和LLaMA，都使用了集成了vLLM的服务。它的吞吐量比最流行的大模型库 HuggingFace Transformers（HF）高 24倍。它的新的注意力算法PageAttention，使得并行采样和集束搜索等复杂采样算法的内存使用量降低了 55%。

ChatGLM2-6B发布。这是颇受欢迎的开源中英双语对话模型ChatGLM的第二代版本。性能大幅提升，8-32k上下文，推理提速42%。在主要评估大语言模型中文能力的 C-Eval 榜单中，截至6月25日 ChatGLM2 模型以 71.1 的分数位居 Rank 0 ，ChatGLM2-6B 模型以 51.7 的分数位居 Rank 6，是榜单上排名最高的开源模型。ChatGLM2-6B 权重对学术研究完全开放，在获得官方的书面许可后，亦允许商业使用。

七、论文

谷歌DeepMind公布新智能体RoboCat。它的学习速度比其他模型快得多，只需100次演示即可解决任务，并从自生成的数据中进行改进。这种能力将有助于加速机器人研究，因为它减少了对人类监督训练的需求，是创造通用机器人的重要一步。谷歌此前探索了如何开发能够大规模学习多任务的机器人，并将对语言模型的理解与辅助机器人的现实世界能力相结合。RoboCat是第一个解决和适应多重任务的智能体。它学习的新任务越多，就越擅长学习额外的新任务。（RoboCat: A self-improving robotic agent）

优化器LOMO将内存使用率降至10%。复旦大学团队试图解决有限资源条件下大模型全参数微调的难题。通过将LOMO与现有的内存节省技术集成，与标准方法（DeepSpeed 解决方案）相比，新方法将内存使用量减少到了之前的10.8%。（Full Parameter Fine-tuning for Large Language Models with Limited Resources）

八、其他

美国生成式AI岗位需求逆势增加。就业门户Indeed数据显示，5月，美国生成式AI相关职位数量环比增加20%；每百万个岗位中，有204个与生成式AI相关，已经是2021年初的两倍多。与此相对，总体上，美国的科技岗位比去年6月减少了43.6%。

广东质量强省支持人工智能。新近印发的《广东省质量强省建设纲要》提出，要培育发展一批引领性强的战略性产业集群，支持人工智能、区块链、量子信息、生命健康、生物育种等前沿领域加强研发布局。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

生成式人工智能，美国正在跨越鸿沟

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜