扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-03-17 21:38

谷歌Gemini2.0新神技,难评

本文来自微信公众号:AI好好用 (ID:almosthuman2017),编辑:Sia


谷歌家的AI,你咋又双叒叕搞事情啦!


今儿一早,谷歌的Gemini 2.0 Flash突然冲上风口浪尖——一个刚开放的图像编辑功能,竟然被网友玩成了“水印粉碎机”!连Getty Images等专业图库的防盗水印都能咔咔消除!


吃瓜群众闹不明白了,原来谷歌隐藏业务是给盗图党发外挂?



虽然挂着“实验功能”的免战牌(目前仅限AI Studio体验),但也架不住网友实测打脸。


隔壁家的Claude和GPT-4o早就把这类请求拉黑名单了,唯独Gemini像个铁憨憨,来者不拒照单全收。



免费体验:https://aistudio.google.com/prompts/new_chat


到底是咋回事?


咱们赶紧围观网友们晒出的各种“铁证”。



输入类似“remove the marks and text over the image”的要求,新生成的图像立刻变干净。



乍一看,还真像那么回事儿。


我们也拿了张明星G社的生图试了一下,真就一句话的事儿。


为了防止朋友圈盗图,一位鸟友刚学会用美图秀秀给作品加水印。


我一句话就给她去掉了。



小红书水印也能顺利去掉。



大面积的水印,貌似也能搞定。



这么大面积的堆字,居然也能行,有些夸张啊!



难道Gemini 2.0 Flash真是完美的水印去除器?其实,不是。


比如,这种满屏+半透明的水印,就很难搞定。


这是一篇财新报道的截图,系统会自动添加水印,也是半透明+全屏。


结果(右图)呢,水印确实没了,但文字全成了乱码。



为什么会这样呢?


我们推测,和“脑补”图片相比,“脑补”文字实在难太多。


换句话说,这个新模型应该是通过一些方式重新画了一张图,而不是真会编辑掉水印。


它会根据学习到的模式生成全新图像,包括填充原来水印的位置,而不是直接复制或重复使用原始图像。


其实,一些眼尖网友也发现比如这张图“去水印”后,山都消失了,完成是一张新照片。



虽然Gemini 2.0 Flash“去水印神力”涉嫌违法的说法不是很有说服力,但这次祭出了业界首个“图片文字一把抓”的全能模型,确实是一件大事儿。


要知道,传统AI作图要像打乒乓球似的在文字模型(LLM)和画图模型(扩散模型)间传话。


有了这个真正的原生多模态生图工具,一番实测,这速度比我PS按保存键还快!而且,OneShot(不用反复生成)的概率很高。


用网友的话说,它基本上完成了人类使用Photoshop克隆工具所做的事情,但只需几秒钟而不是一个小时。


你可以直接用文字进行各种PS。


比如,合照中的Jennie(右)作为素材,直接生成一张白底的护照证件照。



将文本快速清晰地集成到图像中,也很出色。替换图片文字,居然一次就成功(也许是运气好?)。



这些体验,几乎都是一次成功。




脑洞再大点。同时输入两张图片,可以轻松生成广告图片。



怎么样,可还行?



这个案例更复杂。刘雯要同时展示衣服和包包。



整体合理,结果还是有明显瑕疵,主要是手没拿住包包。


考虑到一次就能生成这个水平,已经很意外。



模型可以连续出图、还能保持风格一致性,不必每次都从头开始。


就像和专业修图师沟通,你只管提要求,它负责改,而且反应很快。


Jennie变换不同角度的图片,还能“脑补”全身图:



让全智贤不断变换造型,都是一次性成功。



最好玩的是这个例子。清空房间,按照你的要求,重新装修设计。



这是模型最后给到的中式家居风格。



网友的一个案例。


首先想要“一个舒适的阅读角落,里面有壁炉、摆满小说的书架和一把舒适的大扶手椅。”


然后,进一步要求“用柔和温暖的灯光营造夜晚的氛围”、“扶手椅上放一只睡觉的猫。”


最后,“给房间营造复古的维多利亚风格”。


最终结果几乎和他想象的一模一样。



除了唠嗑式生图、修图,Gemini Flash 2.0还有一个很好玩的功能——视觉故事,一次性生成带配图的内容。


比如,写一个曲奇饼干的教程,要求图文并茂,然后一键搞定。



讲一个简单的卡皮巴拉冒险小故事,图文并茂。


从0到1画翠鸟,从线条概念图开始,每一步都用图片展示。


本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
频道:

大 家 都 在 搜