2023-03-30

AI炼金术

AI时代的最后一公里，“外骨骼装甲”插件

主理人：

Mars任鑫
徐文浩Stanley
源流小助手

天天工业革命，夜夜文艺复兴。
每天都有新东西，每天都是新机会。
要做什么产品，从哪里切入，怎么定位？

卷首语

任鑫

可以考虑 Copilot 视角，做原有产品的插件入手。

从做“外骨骼装甲“的插件入手：世界变化太快，从零开始做产品风险很高，可以做一个传统产品（比如 Chrome，比如 Google Sheet）的插件，在现有平台提供最后一公里的外骨骼装甲，更容易存活下来，失败了损失也更可控。

Copilot 视角：开发 AI 应用的起点，可以不是科技，也不是具体的功能，而应该是“可以给哪个岗位提供小助理（copilot）”。这不仅会让我们聚焦到更具体的 JTBD，而且能让我们把自己定位成辅助角色。可能性更多，压力更小。

OpenAI想要关了CodeX，但是有一群人反对：大家基于 CodeX 在研究什么呢？Cyborg。我们先是把 AI 当先知（Oracle），提出问题等待回答；然后把 AI 当精灵，给祂任务，祂来完成完成；最后把 AI 当代理人，告诉他目标，他来想办法做到。第三步离我们有多远呢？可以去 Cyborg 主题去看看。

Github 的 Copilot 视角：前 Github CEO 分享了 Copilot 产品的来龙去脉。GPT 给出的代码建议大部分还不靠谱的时候，如何定位才能包装出一个靠谱的产品？为什么说用来训练 AI 的那些信息和知识产权短期是问题和讨论点，但长期不是？

看完这几篇马上开工，做一个？

从做“外骨骼装甲”的插件入手

徐文浩

#天天工业革命，夜夜文艺复兴#

最近天天在朋友圈看到这个Tag，我自己也天天发这个Tag。

光过去一周，我们就看到了Adobe Firefly，Bing Create，Runway Gen-2，最后还有一个ChatGPT Plugins。当然，还有Google Bard，只是体验之后让人觉得Google应该从Code Red升级到Code Purple了。

https://www.adobe.com/sensei/generative-ai/firefly.html

Firefly也非常酷

之前周围很多朋友都问，说ChatGPT出来了，创业应该做什么项目？我自己的判断都是可以先从小插件开始。比如Chrome的插件，Google Sheet的插件，Office的插件等等。

因为虽然插件市场的上限比较低，但是避免了做独立产品直接和现存产品竞争的问题，可以直接利用已经非常强大的产品提供的底座。比如你要做个写作应用，如果要把Word的各种基本排版功能实现一下，这个工作量比起调用一下OpenAI的API大多了。

而没有这些基本功能，你也很难和原来的产品竞争。而原来的产品加个调用API的AI辅助能力，可是容易多了。

而这个想法，其实也得到了现实里的验证，独立基于OpenAI的App其实没看到多少。但是火起来的Chrome插件最近可不少，Glarity、AIRPM、ShareGPT等等。

https://openai.com/blog/chatgpt-plugins

过去一周的新闻里最大的一个？

不过，的确没有想到，ChatGPT居然推出了Plugins。这个倒也体现了我自己想象力的贫乏程度。

既然ChatGPT自己也是个底座，那做个应用市场其实也顺利成章。不过ChatGPT Plugins的出现，不知道有多少VC要哭晕在厕所了。

原来觉得能够做成独立App抢占一定流量入口的独角兽，现在不知道该去掉头卷大模型还是只能做个大平台下的小插件了。

制作AI插件的逻辑，就是为其他应用制作外骨骼装甲

不过我觉得结论还是不变的，目前的OpenAI，大家想到的还是“提高效率”的事情，那么在现有平台下提供最后一公里的“外骨骼装甲”，还是比去做独立的产品更容易活下来。

即使你的功能被平台囊括了，你的投入也小，损失不大。毕竟在这个 #天天工业革命，夜夜文艺复兴# 的时代，实在难以判断明天会发生什么事情。

Copilot 视角

任鑫

其实很多时候，开发 AI 应用的起点，不应该是科技，也不应该是具体的功能，而应该是“可以给哪个岗位提供小助理（copilot）”。

这个问题，会让我们聚焦到具体的人和具体的工作任务 JTBD 上，思考点也不是“如何让 AI 独立完成工作”，而是“如何辅助这个人更高效完成工作”，这时可能性更多、对精确度的压力也会更小一些。

未来，应该每个具体的岗位，都有自己的 copilot。Dan Shipper 给了一个简单的检查清单，如果满足下面这些条件，copilot 就会很容易做、价值也更高：

· 文本准确性很容易被检查
· 不准确的代价很低
· 嵌入式搜索可以很方便找到相关文本

从这个检查清单出发，我们检查一个领域是否有构建 AI Copilot 机会事，就可以检查：

· 有相关的文本完成语料库么？
· 嵌入式走索可以可靠地搜索到相关的完成文本么？
· 使用这些文本片段，可以简单做转换和插入来完成工作么？
· 用户可以很简单的检查完成情况的准确性么？

如果发现条件具备，构建 Copilot 的过程则非常清晰：

· 获取用户输入

· 不一定是像 ChatGPT 这样的显性输入，其实很可能是在后台观测用户其他· 正常输入和行为
· 查询相关文档
· 使用文档提示模型
· 比如和 ChatGPT 说”上下文是这个，参考文档是这个，请根据文档给出……“
· 返回结果

觉得这个思考模型虽然很简单，但真的挺清楚。

OpenAI想要关了CodeX，但是有一群人反对

徐文浩

在上个礼拜的爆炸性的新闻里面，被国内的科技圈忽视的一条，是OpenAI关闭了code-davinci-002这个模型，也就是最早的Github Copilot使用的CodeX模型。Sam说，现在的GPT-3.5写代码的能力已经比CodeX好了。

看到这个文章我的第一个反应，也是哦，通用的模型效果已经优于专有模型了。不过，接着就看到有很多研究人员抱怨，希望OpenAI保留这个模型。然后OpenAI的反应也很快，表示会为研究人员保留这个模型。

Sam表示会为研究人员保留 CodeX 模型

细究起来，CodeX的模型其实是现在我们所说的GPT-3.5的第一个模型，而大家现在最常用的ChatGPT也知识在这个模型上进行了基于指令的强化学习。OpenAI对这个的说法叫做Alignment，也就是让AI符合我们人类的期望，甚至是道德观念。你现在去问AI任何违法乱纪的时候，他都会拒绝回答你，也是Alignment的功劳。

但是对于大模型的研究，大家也发现了其实Alignment是有代价的，Alignment同样会让AI对于有些问题的解决能力变低，这个我自己在使用GPT-3.5-Turbo的模型的时候也有体会。虽然作为聊天对话的体感更顺畅了，但是你指定AI去完成一些特定的任务写点代码的时候，效果反而变差了。所以很多时候，我还是会用 text-davinci-003 这样的模型来完成一些我自己的需求。

所以我特地跑去看了一下搞研究的人们现在都基于 CodeX研究些什么，然后又发现了一个很有意思的主题。这也是一个在很多科幻小说里被反复讨论的主题——Cyborg。如果一定要有个中文名字的话，也许应该叫赛博格，或者电子人。

过去一段时间，想像力丰富一点的朋友，都在思考一个问题，叫做AI有自我意识么？如果有的话，它的自我意识又是怎么样的呢？我在Cyborg的研究里面看到了很好的一个比喻，在这里分享给大家：

第一步，是把AI当成先知（Oracle）。我们问祂问题，祂告诉我们答案，然后我们去行动。比如我们问祂如何解决全球变暖，祂告诉我们要做怎么，我们按照祂的说法去做。这也是最早的ChatGPT的用法。

第二步，则是AI变成了一个精灵（Genie）。我们不仅可以问祂问题，还能让祂执行任务。ChatGPT Plugins就到了这一步。我们可以直接请祂帮我们买东西，写代码直接执行了。但是这个时候，该怎么干还是我们告诉祂的。

第三部，则是AI是一个代理人（Agent）。我们不再具体告诉祂干什么，而是告诉祂我们的目标。比如消灭饥饿和贫困，祂直接自己定一个计划来做，比如通过API关掉祂觉得浪费能源的服务器。或者自己开发一个应用让大家付费，然后祂再把收到的钱给慈善组织。到了这一步，“终结者”式的科幻里的危险境地也就出现了。

那么，这一天离我们还有多远呢？不知道你的答案是什么。

现在有不少人基于原始没有对齐过的GPT-3模型在创造Cyborg世界，特别是很多DND玩家，Loom就是这样一个项目。如果你对Cyborg特别感兴趣，或者是一个认知心理学家，我觉得很值得去看一下Cyborg的主题。

https://generative.ink/posts/loom-interface-to-the-multiverse/

Github 的 Copilot 视角

任鑫

听了一个非常有意思的对谈，嘉宾是前 Github CEO，聊了聊他们当时怎么做 Github Copilot。

一直觉得 Copilot 这个名字很好，暗示了“你是 pilot，你负责，我是来帮忙的”。这个角色更像是幕僚，而不是导师。幕僚和主公坐在桌子同一边，可以提出靠谱不靠谱的建议，供主公评判选择；而导师则是和用户坐在桌子两边，用户提问，老师需要给出靠谱回答。在 AI 还没有发展到足够成熟之前（Copilot 立项的时候，只有 1/4 的答案是有用的），把自己定位成幕僚显然更合适。

另一方面，Copilot 不停给建议，有时靠谱，有时不靠谱，用户自己评估和选择，其实还增加了一点点娱乐性。人类的大脑对于不确定性有期待，拆盲盒时分泌的多巴胺比打开一个确定性礼物时更多。Copilot 这种叽叽喳喳给建议（而不是决断）的方式，其实会让用户持续有小惊喜小快感。而且，其实我隐隐觉得，AI 时不时犯傻也会让人更有安全感和优越感，说不定反倒对留存有帮助。

另外还有三个他提到的点也很有意思。

一是说这次科技浪潮居然几乎没人唱反调（比如说这是个大泡沫），几乎所有公司都迅速达成共识这是下一个大事件，需要 All In，这对创业公司未必是好事。

二是他用了一个奇怪的角度来为“使用公开数据训练模型”辩护——如果不能用公开数据训练，那么就只能用私有数据。只有大公司有足够的私有数据和财力，那岂不是约等于规定只有大公司可以干模型，剥夺小公司机会？角度很桥面。

三是他讲了一段搜索引擎崛起时的往事——Google 收录各个网站，甚至于还 cache 网页快照，这是不是一种剽窃呢？当时确实有很多官司在吵这个，但后来的结果大家都看到了。用这段历史来类比的话，就是说当前肯定会有很多官司要打，比如模型能否学习特定艺术家绘画和 TA 的风格，但历史潮流一定走向是信息更自由、全社会效率更高的方向。

加入任鑫和徐文浩的社群

知识星球：

https://public.zsxq.com/groups/51112125811454.html

AI炼金术

任鑫和徐文浩，上海交大 2001 级计算机的两个老同学老室友。