扫码打开虎嗅APP
本文来自微信公众号:虹线 (ID:gh_900eeca5a2fc),作者:评论尸,题图:由DALL-E 3生成
最近一直在折腾 LLM 的本地部署,所以时常在群里分享一些心得。然后就有人问我为什么执着于本地部署 AI。我直接就是一个:
这个需求当然是真实的,但我其实不只有这个需求需要本地部署 AI,只不过这个需求是被各家线上模型所禁止的,所以也是我第一个想到的本地部署的刚需。
实际上,目前日常使用过程中,让我使用体验下降的,是以下一些场景:
ChatGPT 很好,但它的 Web Browsing 功能强制绑定了 Bing。
Bing 作为搜索引擎非常差,尤其是在中文领域。
这意味着使用 ChatGPT Plus 进行搜索,就像是让一个大学生在竹简里找寻答案。
Bard 的搜索很好,因为它依托 Google。
因此它的模型虽然不如 GPT,但使用它的体验就像是高中生在替我用 Google,肯定比大学生替我找竹简要好。
但它严格遵守 Robots.txt 对网页的访问限制。
这意味着,我无法将一篇微信公众号的文章链接发给它让它总结。
Grok 的优势也很明显,因为它能直接调用 X(Twitter)的搜索结果,这意味着它的外挂知识库是分钟级更新的,你能从它那里得到一些“刚刚发生的事情”的答案。
我也不愿意为了这样一个优势单独每月付费。
文心一言在某种程度上也有优势,因为它能调用百度热搜,这意味着它对国内热点事件有更好的响应能力。
看起来,每家巨头,或者说线上 AI 都在模型的基础上基于自己的业务或利益相关做了一些特化。
但这种“优势”,其实是通过给对家制造“劣势”形成的。ChatGPT 的搜索之所以没有 Bard 效果好,是因为如果 ChatGPT 要接入 Google 搜索,就要给 Google 交纳高昂的搜索 API 费用。同样,马斯克也会给 X(Twitter)的 API 定一个天价,以保障 Bard 和 ChatGPT 在这一领域始终不能与 Grok 竞争。
如果对应到国内互联网,战争会进一步升级,这甚至都“不是钱”的事儿。百度永远不会把搜索接口给腾讯混元,腾讯也不会让文心一言读取微信公众号文章。
这在很大程度上反映了过去 20 年互联网发展的结果:一个寡头垄断,并彼此互不承认的赛博世界。
在移动互联网时代,用户已经习惯了这些商业公司在产品层面上无视对方的做法。二维码不能发,链接不能直接点击要复制,甚至链接都不能发,要复制一些什么“口令”,在评论区对暗号发私信。
垄断巨头之间的马奇诺防线,长期以来除了给用户带来麻烦之外,实际上在商业上只起到了一个“防突袭”的作用。避免了此前商业竞争实践中的一些,被对方从自己的 App 里一键拉客,导致用户一日哗变的现象。
我不可能因为在微信里打不开抖音链接,就不看抖音。我也不可能因为在小红书里不让发淘宝二维码,我就不在淘宝买东西。
但是,这却给巨头们自己的 AI 带上了重重的枷锁。
因为当我们讨论这一轮 AI 的时候,用户对它的想象就是 AGI,是通用人工智能,是一个至少在赛博空间里可以像人一样行动的代理——如果我可以看这篇微信文章,我的 AI 就应该可以看,否则这个 AI 对我就没用。
这意味着,如果巨头们之间不能打破商业壁垒让自己的 AI 在对方的地盘上行事,那么所有它们的在线模型无论是 GPT 还是 Gemini 还是文心一言,都会败给开源的本地部署模型,或者是第三方提供的模型。
我来举一个具体的场景来说明这一点:旅行计划。
经常出差或旅游的朋友们都知道,出行前安排行程其实是心理门槛最高的一个动作。当 AI 爆发的时候,可能不止用户,很多创业者也想过,AI 是否可以一键帮我们定制行程,甚至通过 API 的方式来帮我们直接预订机票、酒店和景区门票。
但现实是,这样的 AI 最有可能是携程或飞猪做出来。原因正如上面我列举的现有的那一堆巨头 AI 的优势那样。因为只有携程和飞猪,拥有实时更新的机票和酒店数据库,并且能够直接在系统内完成“下单”这样的操作。
从自身业务的角度考虑,飞猪和携程是绝对不会把这些数据做成 API 提供给独立的创业者的。
但如果飞猪和携程推出了一个这样的问答式生成行程与订单的旅行 AI,我会用吗?
答案是不会。
因为规划行程还有一个前置步骤,就是我要去小红书搜索目标地点到底有啥好玩的。在确定了究竟要玩什么之后,我还要在飞猪和携程之间来回切换以确保价格最低。有时,我还要用百度地图来确认在一个目的地城市内,几个景点之间的距离和移动方式来确定景点的取舍与顺序。
所以可想而知,飞猪和携程各自推出的 AI,根本不可能完成消费者对旅游攻略的个性化闭环。
它最多能做到的,是帮助用户在搜索界面更直观地进行搜索。
而对于经常旅游和出差的朋友来说,这可能还不如自己直接在结构化搜索中勾选限制条件。更不用说,我还想在携程和飞猪之间比价,这更是单一平台 AI 所不可能做到的。
在旅游这个场景下,我需要的通用 AI 是什么:
1. 我问 AI 春节去哪玩人少。
2. AI 去抖音和小红书上分别搜索“春节 小众 旅游城市”,汇总结果,生成一个备选列表给我第一次回答。
3. 我说我可能对义乌、鞍山和淮南感兴趣,给我介绍一下这三个城市有啥可玩的。
4. AI 分别再去小红书上搜这三座城市,并给我三个稍微详细一点的介绍。
5. 我决定去义乌,AI 去携程查机票价格、时间,并按照之前得到的义乌的景点介绍,去大众点评获得景点的营业时间,然后在百度地图里获得景点间的移动时间,安排日内行程。
6. 我再进行几轮对话,对行程和景点进行微调(比如我不想早起)。
7. AI 生成最终行程。
8. 我确认。
9. 它开始下单。
这样梳理下来你就会发现,没有任何一家处于寡头垄断地位的互联网巨头能够推出这样的 AI。因为如果携程出,那么飞猪就会屏蔽它。如果飞猪出,携程也会屏蔽它。小红书出,则大众点评就会屏蔽它。
那么,唯一的可能是什么呢?
就是这个 AI Agent 是本地部署的或者它不属于任何巨头,它在用户的电脑或手机上,模拟用户的点击,模拟用户的滑动,模拟用户的视觉,完全凌驾于所有的 App 或网站之上,无视任何商业竞争导致的屏蔽。
它甚至应该能做到,在微信里读到了一个抖音链接,它会自动选择复制,打开抖音,而不是直接点击链接。真正做到,我能做什么我的 Agent 就能做什么。
这似乎并不是非常困难的事情,因为今年李飞飞曾经做了一个通过 LLM 来操作物理世界中机械臂的原型 VoxPoser。而 LLM 操作虚拟世界要比物理世界简单很多,简单说就是 LLM 指挥按键精灵。
尤其是在 GPT-4 Turbo 推出 Function Call 之后,也许现在就已经可以做出 Demo。但整体的工作量应该还是比较大,会导致每次请求的价格较高。而价格,一直是 Agent 类 AI 最大的障碍。
但如果我们乐观地预计 AI 的降本增效速度能维持 2023 年水平 2~3 年的话,那么成本也就不是问题了。
但在法律和合规层面上,如果这个产品背后接入的是 OpenAI 这样的中央托管式的 MaaS 服务,那么还是有可能会被禁止。因此,最好的结果还是终端芯片的跃升与模型的进一步优化,使得至少 PC 端的本地部署大模型能实现较好的 Agent 效果。
那时,互联网诞生以来的寡头垄断格局可能要天翻地覆了。并且,我暂时看不到巨头反击的方法。
本文来自微信公众号:虹线 (ID:gh_900eeca5a2fc),作者:评论尸