扫码打开虎嗅APP
本文来自微信公众号:硅星人 (ID:guixingren123),作者:Frank Chen,题图来自:《复仇者联盟:终局之战》
自从去年11月ChatGPT正式发布、OpenAI开启了AI新时代以来,生成式AI领域就开始如火如荼:巨头杀红了眼,创业公司也在力求突破。
从OpenAI背后的金主微软,到赶鸭子上架发布了Bard的谷歌,再到OpenAI出走自立门户的Anthropic等……目前,在生成式AI模型这个炙手可热的风口上,硅谷还有哪些公司在摩拳擦掌,准备大干一场呢?
Meta:另辟蹊径,不做聊天做开源
押注元宇宙的Meta,也在悄悄赶上这波生成式AI的浪潮。
不久前,Meta 发布了自己的大语言模型 LLaMa, 其全名为Large Language Model Meta AI。在Facebook 上,Meta 的 CEO Mark Zuckerberg宣布LLaMa“将在生成文本、对话、总结写作材料,和更多诸如解决数学问题和预测蛋白质结构等复杂的任务中展示新的希望”。
LLaMa 的发布也很引人注目,部分原因是它避开了 AI 聊天机器人这一当下最热门也最拥挤的领域。其实 Meta 过去曾经发布过自己的用户侧 AI 聊天机器人,包括广受批评的 BlenderBot和因为不停地制造科学废话才三天就被下线的 Galactica 机器人。不过在一篇研究论文中,Meta 声称 LLaMA 模型的第二小版本 LLaMA-13B“在大多数基准测试中”比 OpenAI 的 GPT-3 模型表现更好。
但与 OpenAI 的 ChatGPT 不同,Meta 发布的 LLaMa 并不致力于制作出用户侧的对话工具。
作为 Meta 对开放科学承诺的一部分,LLaMa 旨在帮助研究人员推进他们在 AI 子领域的工作。Meta特意强调了这款模型的非商用性,“为了保持完整性并防止滥用,我们将根据专注于研究用例的非商业许可发布我们的模型。将根据具体情况授予隶属于政府、民间社会和学术界组织的人员和世界各地的行业研究实验室相关的权限。”
Meta 认为,在大型语言模型空间中训练像 LLaMA 这样的小型基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。基础模型在大量未标记数据上进行训练,这使得它们非常适合对各种任务进行微调。
针对大型语言模型中的偏见、有毒评论和作假的风险,Meta 希望通过共享 LLaMA 的代码,让其他研究人员可以更轻松地限制或消除大型语言模型中这些问题。Meta 还在 LLaMa 的论文中提供了一组语言评估模型的标准,支持在这一关键领域的进一步研究。
OpenAI叛将:自立门户,却加入谷歌阵营
Anthropic 是一家 AI 研究公司,由 Open AI 前员工于2021年创立。
该公司推出了名为 Claude 的类似 ChatGPT 的对话机器人。该公司使用一种称为 Constitutional AI(条约型AI)的方法开发了聊天机器人。针对该框架,其研发团队有一篇完整的论文,但简而言之,Claude 使用一组大约 10 条“自然语言指令或原则”来训练语言模型,用于自动修改它的回答。 根据 Anthropic 的说法,该系统的目标是在不结合人类反馈的情况下“训练更好、更无害的人工智能助手”。
Anthropic的论文中的Constitutional AI的介绍,图片来自:Anthropic
他们目前提供两个版本的 Claude:Claude 和 Claude Instant。Claude 是最先进的高性能模型,而 Claude Instant 是更轻、更便宜、更快的选择。Claude 可通过开发人员控制台中的聊天界面和 API 进行访问,可以帮助处理总结、搜索、创意和协作写作、问答、编码等用例。
目前,AI 数据平台 Scale 获得了访问 Claude 的权限,Scale 的相关人士认为,Claude 可作为ChatGPT 强劲的竞争对手,并且该机器人“更倾向于拒绝不适当的请求”。 然而,相比之下 Claude 容易犯数学上的错误。 谷歌于去年年底向 Anthropic 注资了3亿美元。
创业公司:开放第三方整合,冲得更快
You.com 是一家由两名前 Salesforce 员工创建的公司,自称是“由你控制的搜索引擎”。 乍一看,它可能看起来像是典型的搜索引擎,但它带有一个人工智能驱动的“聊天”工具,其工作方式与微软在 Bing 上的试点非常相似。
You.com 于 2022 年 12 月首次推出了名为 YouChat 的聊天机器人,并表示它建立在公司的 C-A-L 模型之上,就像微软的 AI 一样,YouChat 可以为各种类型的查询提供带注释的答案、创建来自网络的文章摘要、生成代码、撰写论文等等。
除此之外,You.com 最近还添加了内置人工智能图像生成器模型,包括 Stable Diffusion 1.5、Stable Diffusion 2.1 和 Open Journey,用户可以使用这些模型根据书面描述生成图像。 该引擎还会对 Reddit、TripAdvisor、Wikipedia 和 YouTube 等网站上的相关结果进行分解,得到用户更想要的答案。
You.com生成的猴子踢球的照片,图片来自:YouChat
微软 VS 谷歌
当然,还是必须得说回目前声势最浩大的谷歌和微软。
首先是微软。微软作为 OpenAI 的最大投资人和技术集成者,通过将 ChatGPT 的技术整合进网络搜索引擎 Bing 中,并将新的 Bing 提供给测试用户。测试用户可以问出像“你能推荐巴黎的景点吗?”或者想要像小红书那样的食谱推荐。然后收到Bing的机器人的“优秀答卷”包括带注释的景点回复,或者是概述食谱中的配料和步骤。
不过目前用户还是发现了一些可以“玩”的漏洞,比如说一个“已经禁用”的提示,该提示会触发Bing机器人泄露其内部昵称 Sydney, 以及其开发人员为其行为设置的一些参数。尽管微软限定了 5 个回答和 50 个问题的上限来作为这种漏洞触发的限制,但又由于用户的投诉放宽了这个限制。
此外,微软还正式把 OpenAI 的 GPT-4 模型装进了 Office 套件,推出了全新的 AI 功能 Copilot。
而相较之下,谷歌的发布略显急促。搜索业务是谷歌的核心护城河,因此当 ChatGPT 问世时,谷歌也匆匆忙忙地发布了他们的对话型人工智能服务——Bard。根据谷歌的 CEO Sundar Pichai 的描述,谷歌使用了公司内部生成的大型语言模型 LaMDA 来为对话式人工智能服务提供支持,该服务“利用网络信息提供新鲜、高质量的回复”。
Bard的官方介绍,图片来自:谷歌
上周Bard开启了公测。总体来看,谷歌的 Bard 跟 New Bing 的使用模式和功能基本一致。此次 Bard 也为用户提供了一个单独的聊天界面,用户可以在文本框中进行提问和搜索,比如让 Bard 帮你写一个计划、列一个食谱、帮你搜索一个冷知识等。但在定位上,谷歌强调 Bard 并不是其搜索引擎的替代品,而是“搜索的补充”, Bard 自称为“你具有创造力的得力协作者(Collaborator)”。
谷歌其实也宣布了一系列关于在自家产品线中集成 AI 功能的重磅更新:旗下包括包括 Gmail 以及Google Doc、Sheets、Slides 等所有 Workspace 办公组件将上线生成式AI功能,同时还开放了自家的大语言模型 PaLM 的 API。
推演和猜想:不可错过的未来
那么,为什么各大公司都在狂热地入场ChatGPT这样的生成式语言技术, 即使非常匆忙,甚至在技术尚未成熟时也要分一杯羹呢?
生成式AI无论是对企业,还是对用户来说,可能都将带来一系列的变革。首先,在当今的世界中,很多人都会使用手机、电脑等设备来进行内容的生产、创作和消费。这些内容覆盖各行各业或者各种消费场景,比如说客户服务、语言翻译、市场分析、发邮件、电商购物甚至是写代码。生成式AI可以帮助人们提高内容产生的效率,并且为人们提供更有趣的交互场景。从企业视角来说,生成式AI有助于各职能的职场人提高工作效率,也有助于企业内部流程更加智能和自动化,从而节约人力成本。从用户视角来说,各家公司更加智能化定制化的服务体系也能改善用户在平台上的体验,从而提升用户在平台上的留存和购买力。
在企业竞争的维度上,由于泛用户侧的互联网的渗透已经达到一个平缓的阶段,使用互联网用户的规模和一天当中的使用时长相对已经固定。优先有效利用生成式AI创造多种业务场景和落地模式的公司,更容易在用户侧的竞争中占据一席之地,对用户的APP使用时长和使用场景进行再分配,甚至进一步增加用户更多场景的渗透空间。
从行业版图上看,生成式AI最终可以落地在什么场景,最终会形成什么样的竞争格局,又会普惠什么样的人群呢?
我们做一些推演和猜想。
美国信息服务公司Gartner曾经做过一个技术成熟度曲线,非常适用于近两年诸如元宇宙和生成式AI风口的客观规律。当前,生成式AI处在了技术萌芽期(Technology Trigger),并随着ChatGPT的注册用户数暴涨而暴露在媒体的聚光灯下。于是各大拥有算力并做过一些早期AI研发的巨头公司开始借助这波趋势尝试深化和商用。但从各公司的技术成熟度上看,生成式AI还拥有诸多使用时暴露出的漏洞,既没有找到合适的商用模式,又会面临各国政策和隐私法律的阻碍。因此这项技术很有可能同自动驾驶或者元宇宙一样,面临着期望膨胀期后的泡沫破裂期。而企业竞争的幸存者会将让他们受益的实例具体化,在复苏期推出更加成熟的产品,最终在生产成熟期获得广泛的采用和更明确的生存能力标准。
技术成熟度曲线,图片来自: Gartner
对于最终将会实现第一阶段落地的商用场景,笔者认为会有如下几个方向:
1. 搜索引擎的智能化:人们在搜索引擎上花费的时间可能会变长,这是由于人们可能期待更智能化的搜索答案,诸如春节的拜年短信、学生论文的模版和一些相关资料的有效聚合;能实现这一结果的搜索引擎将能迎来用户更强的接受率;
2. 企业的内容生产提效化:这包括市场数据的自动化收集和语义理解,还有企业员工与生产工具的交互从打字式走向对话式等等;
3. 客服系统场景深化:诸如金融(比如银行和投资管理)、电商平台的后台客服系统将因为生成式AI而更加智能化和场景深化,并且可以帮助企业有效节约人力成本。
本文来自微信公众号:硅星人 (ID:guixingren123),作者:Frank Chen