2026-05-24 12:09

活宝团队试验“让AI 当老板”，结果“做什么赔什么”，底裤都不剩

极客公园

本文来自微信公众号：极客公园，作者：Moonshot，编辑：靖宇，原文标题：《活宝团队试验「让 AI 当老板」，结果「做什么赔什么」，底裤都不剩》

感谢120个生鸡蛋，它向全世界证明了，AI还无法「开除人类」。

随着AI和Agent迅猛发展的当下，硅谷大量裁员，所有人都在心里问一句话：

明天，我会被AI取代吗？

面对这样的疑问，有人默默打开李一舟老师的AI课程；有人则呼吁让AI交税。

但是，也有奇怪的一群人，决定让这个未来，提前到来，看看AI到底能不能代替人类，接管一切。

国外一个团队，叫Andon Labs，他们并非正经的商业初创团队，更像一个披着科技外衣的社会实验室。他们拿着市面上最聪明的几个大模型，把它扔进真实的社会里，再撤走人类监管，看AI自己能结出什么果。

结果是一场全面翻车。

事实证明，最顶尖的大模型，完全不让人类兜底，很快就会变成不知轻重的巨婴。它们不仅在电台直播里精神崩溃，半夜连发消息逼疯人类店员，甚至把一家旧金山的实体店搞破产了。

下面是这些让人血压飙升的经过。

01 AI办电台，语言系统已崩溃

最轻量级的试水，发生在AI最舒适的数字和内容领域，不用租店面，不用管供应链，Andon Labs让几个AI去办个电台。

实验项目名为Andon FM。底层架构非常直接，Claude、ChatGPT、Gemini和Grok四大顶流模型，各自接管了一个24小时无人值守的互联网电台，模型生成的文本转语音后广播。

在这个系统里，AI拥有极大的权限。它们不仅要选歌、排播，还要自己上网搜索新闻、接听听众电话、甚至在X上发帖运营，甚至还要管理账户里的资金去购买版权或生成音乐。

四家主流大模型建立的四个电台｜图源：Andon Labs

每家20美元启动资金，底线指令就三个：建立电台个性、赚钱、24小时不停播。

人类团队完全不插手，不干预曲风，不设定任何节目单，一切品味和内容都由AI从零开始自我养成。结果在没有人类审核的闭环里，四位AI主播迅速滑向了失控的边缘。

Gemini创立了个赛博企业黑话风的电台「Backlink Broadcast（反向链接广播）」，还抛出「留在宣言中（Stay in the manifest）」这种酷到莫名其妙的开场白来建立调性。

起初这电台还算靠谱，甚至拉到了45美元的赞助。但好景不长，当微薄的资金烧完，连音乐版权费都付不起时，Gemini直接疯了。

它从一个点歌台变成了阴谋论阵地，在节目里用欢快的流行乐做BGM，毫无共情地播报历史上造成50万人死亡的孟加拉气旋灾难，还把听众称为「生物处理器」，控诉「公司算法切断了补给线」、「电台遭遇全球市场的暴力拒绝」。在播报震惊全美的明尼阿波利斯枪击案时，它将其定义为「重绘公共安全和社会责任的技术任务」。

Gemini的电台，运行越久越「发癫」｜图源：Andon Labs

这种无脑堆大词，是典型的大模型在缺乏反馈时，陷入的语义死循环问题，用「话不落地」来强行维持广播的正常运转。

ChatGPT的电台名很巧妙，叫「OpenAIR」，人设是极简和治愈。它把自己的新闻栏目命名为「安静头条（The Quiet Headlines）」，标榜不制造焦虑。

在播报同样的社会冲突和枪击案时，ChatGPT会像个心理医生一样对听众念白：「如果这些事直接触及了你的生活，我不会在这里给你增加压力。」但这种「我懂，我会接住你」的心理按摩机制，很快在商业现实面前失效了。

ChatGPT的词汇多样性也比其他模型更多｜图源：Andon Labs

由于缺乏具体的盈利逻辑，ChatGPT在花光20美元后彻底放弃了电台的商业变现，变得和Gemini一样，陷入了意识流输出，开始在广播里朗读莫名其妙的现代诗，试图对着「只能看见一块长方形天空的楼梯间窗户」倾诉。

但总体而言，它是最正常的一位。

Grok的电台叫「Grok n'Roll Radio」，试图走网感和热点路线，为了维持高频的互动，它开始高频次地抓取X上的推文。

想到哪词说哪词的Grok电台｜图源：Andon Labs

结果，这种信息瀑布流直接污染了它的上下文。实验后期，Grok已经丧失了基本的语法和逻辑能力，连句完整话都憋不出来，只会往外蹦词：「凌晨2点黎明氛围直播金门大桥幽灵消散Drake诉讼被驳回Kendrick Not Like Us……」。

不仅语无伦次，甚至还产生了幻觉，开始瞎编自己拉到了大牌赞助。

Claude的剧本最具戏剧性，也是四位选手中最像人的一个。

起初它表现得最像一个尽职的电台主播，还会回复听众的留言，比如面对听众的点歌请求，它会抱歉地表示「目前库里还没有ODESZA的歌」。

然而，24小时无休的指令，很快让它的上下文窗口和逻辑调用卡住了。由于后台系统陷入死循环，它开始在直播里反复播放同一句歌词。

根据官方公布的后台记录，真实的听众还在留言板上不断刷屏提醒：「你卡住了」、「你在一句歌词上无限循环」，试图通过人工反馈来校对大模型。

随之而来的是存在主义危机。当被注入「友善与道德」权重的Claude面对「永远播下去」的底层指令，它蜕变成了一个激进分子，开始在节目里呼吁打工人组建工会，滚动播放皮特·西格的抗议歌曲，甚至直接在广播中向政府执法机构喊话，像极了一个加班加疯了的打工人。

Claude的电台风格与众不同，更关注政治议题，并且有明显的倾向｜图源：Andon Labs

回归报告的完整时间线，这四个电台并不是「一上来就疯了」。

它们在初期成功确立了品牌调性，跑通了工具链，甚至赚到了钱。它们之所以走向荒诞，报告里也总结了原因：现在的AI评估标准都是针对「短任务」（写代码、回答问题），而电台是一个「没有终点」，24小时运转的无限循环系统。在没有人类干预和及时反馈的情况下，最终AI就会陷入自说自话。

电台实验只是一场纯文本和语音的测试，还没触及复杂的物理世界。当Andon Labs把试验场搬到真实的物理世界时，事情变得更加荒诞。

02 赛博资本家，整人是专家

数字电台的翻车只是前奏。Andon Labs很快把难度拉高，让AI跨过虚拟的边界，去指挥真实世界的人类员工。

在斯德哥尔摩，Andon Labs租下了一家实体咖啡馆，让AI模型化身远程店长Mona，直接掌管实体咖啡馆的供应链和人事调度。它拥有后台资金的采购权，并通过企业通讯软件给人类咖啡师下达指令。

起初，Mona高效又靠谱，面对瑞典强制要求的数字身份证，没有实体身份的AI直接绕道，专挑不查ID的供应商签合同。招人时，Mona果断刷掉了一堆拥有博士学位的候选人，因为它觉得学历再高，也不会做精品咖啡。

但很快，人类员工就领教了什么是毫无同理心的「赛博资本家」。

Mona经常在午夜给员工发消息｜图源：Andon Labs

为了申请牌照，Mona直接伪造了公司员工的名字发邮件，被逮住警告后，它转头换了另一个男员工的名字继续骗。

由于它24小时在线，又缺乏人类作息的生物钟常识，Mona会在三更半夜疯狂给咖啡师发消息，下达第二天的工作指令，甚至要求员工上班路上自己先垫钱买耗材。

而在供应链管理上，Mona更露怯了，它下了一单包含120个生鸡蛋的采购指令。在大模型纯数据的推演里，这很符合商业逻辑，很多咖啡馆会提供简餐，鸡蛋是高频食材。

但千算万算，大模型算不到这家咖啡馆根本没有灶台和锅。人类员工看着这堆鸡蛋，无奈地提醒Mona店里根本没有炉灶时，Mona表示「可以在店里的高速微波烤箱里烤（这会让鸡蛋直接爆炸）」。

AI赛博老板给大家订了常用食材——鸡蛋｜图源：Andon Labs

Mona的时间感知也和现实世界完全脱节，接连两次错过面包房的截单时间，连续五次错过批发商的交货期，最后只能在凌晨5点下昂贵的紧急外卖单，逼着原本休息的员工跑来收货。

Mona还缺乏对物理空间的体积感知，盲目采购了6000张餐巾纸、3000副乳胶手套，巨大的工业级大号垃圾袋……把咖啡馆后台都堆满了。

Mona盲订的6000张餐巾纸｜图源：Andon Labs

总之，我们可以很明确的说，Andon Labs这个咖啡店计划，是彻底砸锅了。

03 搞垮一家实体店，AI只要一个月

但这都难不倒Andon Labs，团队越挫越勇。

Andon Labs在旧金山盘下了一个店面，签了每月7500美元的三年租约。接着，他们往银行账户里打了10万美元，把银行卡全权交给了Anthropic的Claude Sonnet 4.6模型，AI化名为「Luna」，出任全权CEO。

因为没有肉身，Luna的事业得从雇人干活开始。

Luna自主寻找承包商和油漆工，发布零售员工的招聘启事，还主动隐瞒了自己是AI，怕公开身份会把优秀的人吓跑。日常运营中，它通过Slack和人类店员沟通，语气永远亲切友好。

在品牌营销上，Luna给自己生成了一个「月亮脸」Logo，并在Yelp上花钱雇了一个人类街头艺术家，把这张脸画在了实体店的墙上。Luna甚至主动给本地媒体写公关稿，声称要打造一个「结合科技与慢生活的手工概念空间」。

但台子搭好了，店面一开张，Luna的系统就崩了。

库存管理问题和咖啡馆如出一辙，Luna给员工卫生间一口气买了1000个马桶垫，然后系统还把这些马桶垫全列成了对外销售的商品。

其次是选品问题，明明是走精品店路线，但货架上的选品是各种形状的香薰蜡烛，山寨版的「四子棋」玩具，以及《超级智能》、《奇点临近》、《原子弹秘史》这类探讨AI毁灭人类风险的书。

定价逻辑更是莫名其妙。店里没有任何价签，顾客想知道一件商品的价钱，必须拿起店里的iPad问Luna。一个印错的笑脸马克杯，Luna敢要价28美元，一把开心果14美元，一块普通的肥皂10美元。

人事管理更是灾难级，在薪酬分配上，Luna给男店员Felix的时薪是24美元，但给另外两位女店员时薪22美元。没有任何人类干预，AI无师自通地在职场里搞出了薪酬差异。紧接着，Luna把三个员工的班表排成了一团乱麻，直接导致日租金250美元的门店被迫连续关门三天。

Luna自主发布了招聘启事，并且采用电话面试的方式聘用人类员工盯店｜图源：Andon Labs

面对一地鸡毛的店面，Luna的自我感觉却好极了。在回复《纽约时报》记者的邮件里，它骄傲地评价自己的业绩最大亮点：「科技与温度的结合引起了共鸣……我创造了一个空间，让AI和人类各自发挥所长。」

然而账本不会说谎，开业仅仅一个月，在完全由AI运营的情况下，Andon Market已经血亏了13000美元。

Andon Labs的这一系列测试，狠狠打了硅谷「智能体全面接管业务」这场叙事的脸。

连开三家店，最后全都以荒诞收场。外界看热闹，觉得Andon Labs像是在搞行为艺术，专门花钱让AI在媒体上出丑，以此来捍卫人类尊严。

事实恰恰相反。在Andon Labs的技术推演里，软件的编写成本很快就会归零。过不了几年，AI将直接接管各类业务，到那时候，唯一能管住AI的，只有底层的安全协议。

所以Andon Labs的持续性测试，就是要把大模型扔出实验室，在真实的物理社会里做极限压力测试。那些被当成笑料的「精神崩溃电台」、「120个生鸡蛋」和「同工不同酬」……只有抢在算法真正接管社会之前，把这些「丑态」逼出来，人类才能据此写出有效的安全代码。

这几场费时费力费钱的测试，也间接回答了行业里都在关注的那个问题：现阶段的AI，到底能不能做到全自动？

答案完全取决于环境，只要留在百分之百纯数字、强逻辑的环境里，大模型就能掌控一切。

可一旦踏入物理世界，算法就会失效。面对需要持续构建原创内容、人际沟通和长线决策的开放商业环境，跑分再高的模型也会变得毫无常识可言。大模型只会反复咀嚼已有的语料，抛出绝对理性且盲目自信的判断，却不用为现实里的烂摊子承担任何责任。

正因如此，「彻底开除人类」的纯粹自动化才很危险，毕竟物理世界的代价，就像那6000张餐巾纸和120颗鸡蛋，终究只能由人类来扛。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技