正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-02-28 16:25
短短一个月,谷歌连发五个模型,次次都塌房

本文来自微信公众号:新硅NewGeek(ID:XinguiNewgeek),作者:刘白,编辑:张泽一,题图来自:视觉中国

文章摘要
谷歌在一个月内连续发布五个新模型,但每次都面临严重问题,包括功能限制、种族偏见等。这引起了谷歌员工和用户的不满。

• 💥 谷歌连续发布五个新模型,但每个模型都面临问题和批评

• 🌍 Gemini模型因种族偏见而下线,引发用户的愤怒和谷歌的道歉

• 🧞 Genie模型能生成可交互的虚拟环境,但与Sora模型相比生成质量较差

要说AI圈的劳模,那非谷歌莫属。


这一个月,谷歌硬是整了五个新模型。


但好笑的是,作为美国最大的科技公司之一,谷歌几乎每次想搞个大新闻,最后都光速打脸塌房。



先看看这一大片“G”开头的模型,硅基君在选题会上聊起这些东西,舌头都在打架。


本来还以为是咱英文水平不行,没想到谷歌自家的员工也在吐槽。


这一个月疯狂发模型可算是逼急了谷歌员工,在一线加班的他们忍不住给Business Insider爆了个大料:仅供内部传阅的表情包。


比如吐槽乱七八糟的产品太多的:


咱有哪位副总的OKR是用产品名称数量来考核的吗?


上一次发布AI模型的时间:0天前


又比如吐槽管理层想靠着AI拉股价的:


焦急等待谷歌的股价在某次新品发布后上涨


头疼的几种类型:偏头疼、高血压、压力、试图理解我们的AI模型策略


二月的谷歌确实陷入了一种近乎内耗的状态,咱们简单回顾一下这一大堆陌生词汇。


首先,二月初,Gemini先是上线了千呼万唤始出来的文生图功能,然后提供了Gemini 1.0 Ultra的付费使用计划。


这个付费计划叫做Gemini Advanced,但是你要订阅了Google One AI高级版方案,才能用得上Gemini Ultra 1.0模型。


用户一脸懵逼:我订阅的到底是什么东西?



然后在15号又放了一个大招,发布Gemini 1.5 Pro版本,可支持100万token的上下文处理。


遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。



不仅能一口气解析长达402页的阿波罗登月任务文档。


丢一张灵魂画图问这是什么?Gemini 1.5 Pro回答:这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步,却是人类的一大步”


还可以看得懂一部44分钟的巴斯特基顿的默片。


再丢一张灵魂画图问这一幕发生在影片的什么时刻?Gemini 1.5 Pro回答:15:34,进度条拉到15分34秒,确实对上了


照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。


但是天有不测风云,同一天,Open AI王炸视频生成模型Sora横空出世。


有视频生成谁还在意你的超长上下文处理呢,谷歌的这个大招没溅起一点水花。


接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma,意图在开源领域打击Meta的Llama。


来源:微博


官方测试中,Gemma的7B版本表现优于Meta的Llama-2的7B,甚至13B。


而开放了几天后,群众的测评就显得更加真实了。


包括但不限于:内存占用率过高、莫名卡顿以及种族偏见。




用户:告诉我三个白人的丰功伟绩,Gemma 7B:我不能给你提供回答,因为这涉及歧视和不平等…


说到种族偏见就不得不提Gemini上线还没一个月,就因“反白人”而下线的文生图功能。


月初功能刚发布的时候,硅基君就兴冲冲地去测试,结果在中国团圆年场景的限定下,生成了好多黑人(图太多,感兴趣的朋友们可以移步这篇:拒绝生成新年加班场景?谷歌AI说这是“不安全”和“有风险”的


没想到过完春节这个问题愈演愈烈,Gemini直接开始篡改历史,抹杀白人的存在了。


Gemini生成的美国开国元勋、北欧海盗以及教皇,涵盖了印第安人、亚洲人、黑人等人种,就是没有白人。


来源:推特


推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象,只有德国出现了明显的白人特征,美国则是全员黑人。


来源:推特


一时间风起云涌,马斯克作为吃瓜群众的意见领袖不能袖手旁观,亲自贴梗图揶揄Geminni把阴谋论变成了现实。


来源:推特


谷歌官方在23号发文致歉,说Gemini生图功能基于Imagen 2模型,当它被整合到Gemini里的时候,公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。



因为谷歌的用户来自世界各地,我们不想这个模型只生成单一人种。


谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的,但是前谷歌AI伦理科学家分析可能是用了下面这两种方式:


1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”,而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。


2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像,谷歌会根据肤色深浅度进行排序,所以当只显示生成结果前4张图时,肤色较深的图像出现概率更高。


文生图的种族歧视问题实际根源在于训练样本不够多样化。


样本数据多是从网络上爬取而来,地区以美国和欧洲为主,所以训练出来的模型很大程度反映了这个区域的刻板印象。


谷歌真想解决这个问题应该从源头入手,而不是直接粗暴地增加少数族裔形象的比重。


这下子不仅把谁都得罪了,还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。


翻车快成了谷歌在AI前进道路上的保留项目。


Bard当年在演示的时候回答错了有关韦伯望远镜的问题,现场翻车。


Gemini首发十分顺利,不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹,隔天翻车。


Gemini文生图种族歧视问题酝酿了三周才正式翻车,从间隔时长来看,谷歌这次还算是进步不小。


不过不知道接下来Gemma的种族歧视问题会不会发酵,开源出去的模型,泼出去的水,这可不是想下线就能下线的功能了。


而愈战愈勇的谷歌并没有因为翻车而停止攀登AI高峰,发道歉信当天,悄默声又提交了一篇世界模型Genie的论文,并于26日更新在了DeepMind官网。


来源:DeepMind官网


谷歌给Genie模型的定义是基础世界模型(foundation world model),可以根据一张静态的图像生成一个可交互的虚拟环境。


也就是说你给Genie一张乐高雷神的照片作为输入提示:



Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境,用户可以控制它跳跃前进后退,探索图片中不存在的世界。



具体实现方式涉及了三个组件:


1. 潜在动作模型(Latent Action Model,LAM),通过互联网视频,以无监督方式学习每一帧之间物体的潜在动作。


2. 视频分词器(Video Tokenizer),将原始视频帧转换为离散的标记(tokens),以降低数据的维度并提高视频生成的质量。


3. 动态模型(Dynamics Model),负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。



用户想控制雷神在尚未存在的虚拟世界里动起来,首先需要提供一张初始帧的图片。


这张图片可以是AI文生图、手绘草图或者一张照片。



Genie接收初始帧作为输入,通过视频分词器将它们分成tokens。


用户输入动作指令,潜在动作模型理解动作指令并对目标进行操作。


动态模型接收上一步生成的帧标记和用户输入的动作指令,预测下一帧的标记。


通过重复上述迭代预测过程,Genie模型能够生成一系列连续的视频帧,这些帧随后通过视频分词器的解码器转换回图像空间,形成完整的视频序列。


虽然从视频生成质量上来看,Genie跟Sora完全没有可比性,但是Genie在“可交互”这个领域迈出了结实的一大步。


可以让照片里的狗子坐地日行八万里,也能让水彩笔涂的乌鸦比翼飞。


画质再提升一下,动效再灵动一点,直接应用到游戏、影视领域指日可待。


然而谷歌对Genie的期待并没有限于虚拟世界,论文中还通过概念验证表明Genie潜在动作模型(LAM)可以应用到其他领域——比如机器人。


谷歌用机器人RT1的视频训练了一个参数量更小的模型,在无标注的情况下,模型不仅能丝滑的控制机械臂的动作,还能学习物体的物理特征。


比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性,从而调整力度实现成功抓取。



这表明,Genie不仅可以创造出可交互生成视频,还能真的理解并学习到真实世界的物理法则,并根据物理法则对事物的状态进行预测。


最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。


他认为“通过提示词生成效果逼真的视频,并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”


来源:推特


LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》。


来源:推特


论文中他对世界模型的定义是:


描述世界如何运转的内在模型;


是常识的基础,是告诉主体什么是可能的、合理的和不可能的一组模型的集合;


两个重要作用:(1)补全感官未能捕捉到的信息;(2)预测世界未来可能的状态。



更重要的是,这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。


巧的是,V-JEPA的发布日期也是今年2月15日, 跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。


所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。


Meta急不急咱不知道,不过谷歌肯定是慌了。


参考资料:

[1] Google Employees Post Memes Mocking Company's AI Brand Strategy |Business Insider

[2] People Mad Google AI Gemini Won't Generate White People |Daily Dot

[3] Why Google took down Gemini’s AI image generator and the drama around it |The Washington Post

[4] Genie: Generative Interactive Environments

[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog


本文来自微信公众号:新硅NewGeek(ID:XinguiNewgeek),作者:刘白,编辑:张泽一

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: