短短一个月，谷歌连发五个模型，次次都塌房-虎嗅网

本文来自微信公众号：新硅NewGeek（ID：XinguiNewgeek），作者：刘白，编辑：张泽一，题图来自：视觉中国

文章摘要

谷歌在一个月内连续发布五个新模型，但每次都面临严重问题，包括功能限制、种族偏见等。这引起了谷歌员工和用户的不满。

• 💥 谷歌连续发布五个新模型，但每个模型都面临问题和批评

• 🌍 Gemini模型因种族偏见而下线，引发用户的愤怒和谷歌的道歉

• 🧞 Genie模型能生成可交互的虚拟环境，但与Sora模型相比生成质量较差

要说AI圈的劳模，那非谷歌莫属。

这一个月，谷歌硬是整了五个新模型。

但好笑的是，作为美国最大的科技公司之一，谷歌几乎每次想搞个大新闻，最后都光速打脸塌房。

先看看这一大片“G”开头的模型，硅基君在选题会上聊起这些东西，舌头都在打架。

本来还以为是咱英文水平不行，没想到谷歌自家的员工也在吐槽。

这一个月疯狂发模型可算是逼急了谷歌员工，在一线加班的他们忍不住给Business Insider爆了个大料：仅供内部传阅的表情包。

比如吐槽乱七八糟的产品太多的：

咱有哪位副总的OKR是用产品名称数量来考核的吗？

上一次发布AI模型的时间：0天前

又比如吐槽管理层想靠着AI拉股价的：

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型：偏头疼、高血压、压力、试图理解我们的AI模型策略

二月的谷歌确实陷入了一种近乎内耗的状态，咱们简单回顾一下这一大堆陌生词汇。

首先，二月初，Gemini先是上线了千呼万唤始出来的文生图功能，然后提供了Gemini 1.0 Ultra的付费使用计划。

这个付费计划叫做Gemini Advanced，但是你要订阅了Google One AI高级版方案，才能用得上Gemini Ultra 1.0模型。

用户一脸懵逼：我订阅的到底是什么东西？

然后在15号又放了一个大招，发布Gemini 1.5 Pro版本，可支持100万token的上下文处理。

遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。

不仅能一口气解析长达402页的阿波罗登月任务文档。

丢一张灵魂画图问这是什么？Gemini 1.5 Pro回答：这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步，却是人类的一大步”

还可以看得懂一部44分钟的巴斯特基顿的默片。

再丢一张灵魂画图问这一幕发生在影片的什么时刻？Gemini 1.5 Pro回答：15:34，进度条拉到15分34秒，确实对上了

照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。

但是天有不测风云，同一天，Open AI王炸视频生成模型Sora横空出世。

有视频生成谁还在意你的超长上下文处理呢，谷歌的这个大招没溅起一点水花。

接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma，意图在开源领域打击Meta的Llama。

来源：微博

官方测试中，Gemma的7B版本表现优于Meta的Llama-2的7B，甚至13B。

而开放了几天后，群众的测评就显得更加真实了。

包括但不限于：内存占用率过高、莫名卡顿以及种族偏见。

用户：告诉我三个白人的丰功伟绩，Gemma 7B：我不能给你提供回答，因为这涉及歧视和不平等…

说到种族偏见就不得不提Gemini上线还没一个月，就因“反白人”而下线的文生图功能。

月初功能刚发布的时候，硅基君就兴冲冲地去测试，结果在中国团圆年场景的限定下，生成了好多黑人（图太多，感兴趣的朋友们可以移步这篇：拒绝生成新年加班场景？谷歌AI说这是“不安全”和“有风险”的）。

没想到过完春节这个问题愈演愈烈，Gemini直接开始篡改历史，抹杀白人的存在了。

Gemini生成的美国开国元勋、北欧海盗以及教皇，涵盖了印第安人、亚洲人、黑人等人种，就是没有白人。

来源：推特

推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象，只有德国出现了明显的白人特征，美国则是全员黑人。

来源：推特

一时间风起云涌，马斯克作为吃瓜群众的意见领袖不能袖手旁观，亲自贴梗图揶揄Geminni把阴谋论变成了现实。

来源：推特

谷歌官方在23号发文致歉，说Gemini生图功能基于Imagen 2模型，当它被整合到Gemini里的时候，公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。

因为谷歌的用户来自世界各地，我们不想这个模型只生成单一人种。

谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的，但是前谷歌AI伦理科学家分析可能是用了下面这两种方式：

1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”，而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。

2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像，谷歌会根据肤色深浅度进行排序，所以当只显示生成结果前4张图时，肤色较深的图像出现概率更高。

文生图的种族歧视问题实际根源在于训练样本不够多样化。

样本数据多是从网络上爬取而来，地区以美国和欧洲为主，所以训练出来的模型很大程度反映了这个区域的刻板印象。

谷歌真想解决这个问题应该从源头入手，而不是直接粗暴地增加少数族裔形象的比重。

这下子不仅把谁都得罪了，还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。

翻车快成了谷歌在AI前进道路上的保留项目。

Bard当年在演示的时候回答错了有关韦伯望远镜的问题，现场翻车。

Gemini首发十分顺利，不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹，隔天翻车。

Gemini文生图种族歧视问题酝酿了三周才正式翻车，从间隔时长来看，谷歌这次还算是进步不小。

不过不知道接下来Gemma的种族歧视问题会不会发酵，开源出去的模型，泼出去的水，这可不是想下线就能下线的功能了。

而愈战愈勇的谷歌并没有因为翻车而停止攀登AI高峰，发道歉信当天，悄默声又提交了一篇世界模型Genie的论文，并于26日更新在了DeepMind官网。

来源：DeepMind官网

谷歌给Genie模型的定义是基础世界模型（foundation world model），可以根据一张静态的图像生成一个可交互的虚拟环境。

也就是说你给Genie一张乐高雷神的照片作为输入提示：

Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境，用户可以控制它跳跃前进后退，探索图片中不存在的世界。

具体实现方式涉及了三个组件：

1. 潜在动作模型（Latent Action Model，LAM），通过互联网视频，以无监督方式学习每一帧之间物体的潜在动作。

2. 视频分词器（Video Tokenizer），将原始视频帧转换为离散的标记（tokens），以降低数据的维度并提高视频生成的质量。

3. 动态模型（Dynamics Model），负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。

用户想控制雷神在尚未存在的虚拟世界里动起来，首先需要提供一张初始帧的图片。

这张图片可以是AI文生图、手绘草图或者一张照片。

Genie接收初始帧作为输入，通过视频分词器将它们分成tokens。

用户输入动作指令，潜在动作模型理解动作指令并对目标进行操作。

动态模型接收上一步生成的帧标记和用户输入的动作指令，预测下一帧的标记。

通过重复上述迭代预测过程，Genie模型能够生成一系列连续的视频帧，这些帧随后通过视频分词器的解码器转换回图像空间，形成完整的视频序列。

虽然从视频生成质量上来看，Genie跟Sora完全没有可比性，但是Genie在“可交互”这个领域迈出了结实的一大步。

可以让照片里的狗子坐地日行八万里，也能让水彩笔涂的乌鸦比翼飞。

画质再提升一下，动效再灵动一点，直接应用到游戏、影视领域指日可待。

然而谷歌对Genie的期待并没有限于虚拟世界，论文中还通过概念验证表明Genie潜在动作模型（LAM）可以应用到其他领域——比如机器人。

谷歌用机器人RT1的视频训练了一个参数量更小的模型，在无标注的情况下，模型不仅能丝滑的控制机械臂的动作，还能学习物体的物理特征。

比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性，从而调整力度实现成功抓取。

这表明，Genie不仅可以创造出可交互生成视频，还能真的理解并学习到真实世界的物理法则，并根据物理法则对事物的状态进行预测。

最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。

他认为“通过提示词生成效果逼真的视频，并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”

来源：推特

LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》。

来源：推特

论文中他对世界模型的定义是：

描述世界如何运转的内在模型；

是常识的基础，是告诉主体什么是可能的、合理的和不可能的一组模型的集合；

两个重要作用：（1）补全感官未能捕捉到的信息；（2）预测世界未来可能的状态。

更重要的是，这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。

巧的是，V-JEPA的发布日期也是今年2月15日，跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。

所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。

Meta急不急咱不知道，不过谷歌肯定是慌了。

参考资料：

[1] Google Employees Post Memes Mocking Company's AI Brand Strategy ｜Business Insider

[2] People Mad Google AI Gemini Won't Generate White People ｜Daily Dot

[3] Why Google took down Gemini’s AI image generator and the drama around it ｜The Washington Post

[4] Genie: Generative Interactive Environments

[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog

本文来自微信公众号：新硅NewGeek（ID：XinguiNewgeek），作者：刘白，编辑：张泽一

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

短短一个月，谷歌连发五个模型，次次都塌房

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜