扫码打开虎嗅APP
本文来自微信公众号:果壳 (ID:Guokr42),作者:糕级冻雾,编辑:沈知涵,题图来自:AI生成
开篇先是经典的猜图环节,问:以下哪些是由AI生成的照片?
A:
B:
C:
D:
当我第一次在Reddit上看到这些图片时,我人一整个不可思议住了,我真的无法分辨,这种真实度跟我用iPhone给朋友拍的有什么区别?
印象里,AI生图还是“畸形手指”搭配“光滑到没有毛孔的皮肤”。怎么现在进化到能拿去做“杀猪盘”的地步了?
我在社区里顺藤摸瓜,发现“AI摄影师”不知不觉已经成了新赛道了。
如何生成“iPhone直出”图片
这些颇有质感的图片来自Reddit上“r/stablediffusionreal”社区,发帖人叫dal_mac,是一名个人AI开发者。
这个社区致力于在开源模型Stable Diffusion基础上,生成逼真的人物肖像,越拟真,帖赞越高。
这个名为“iPhone Realism”的帖子一经发出,热度越来越高,不仅引爆了社区,还破圈传播到了Instagram、LinkedIn甚至微博。不少人在评论区努力寻找AI痕迹,直到认输,纷纷“求教学”。
比如下面这张图,我快找“瞎”了,把图片放大再放大,才勉强看到几处“不算自然”的地方:
应该放到侧边的门把手错位了,放到了门中间
仔细看后脚的鞋带,断开了
如果你们还能看出什么来,欢迎“抓出AI”在评论区见。
dal_mac到底怎么做到的?他在帖子里提到“Flux”。
Flux是由Stability AI前员工在2024年才推出的一款半开源的文本生成图片模型。根据AI模型测评平台Artificial Analysis分析结果,Flux.1在图像质量上超过了Midjourney和OpenAI的DALL·E。
Flux以高拟真的图像生成能力著称,此前曾因为生成的图像走“写实流”还被媒体点名批评过,尤其是在X上,充斥着Flux生成的名人AI图,霉霉和特朗普都是它的“受害者”。
我也慕名去用了Flux生成了一张写实风照片,特意强调“就像iPhone拍出来一样的自然写实”,结果生成的是,肿胀到看不清关节的手指,丝滑到把磨皮开到最大的皮肤,搭配过分模糊的背景(以及找不到一个地方叫“UNNIVEE LTL STUDIIC”)。
Flux
对咯,这才是我印象中的AI生成人像图嘛!
Yes,微do
dal_mac称对Flux模型进行了fine-tune。对于个人开发者来说,这种训练方式大大减少了对数据需求和计算成本。但dal_mac说,他也是花了两年时间,多次测试,才用Flux微调到能“以假乱真”的程度。
dal_mac如此评价现在市面上模型的生成效果,缺点是结果太准确了(这里可能是说一丝不苟的发型和毫无瑕疵的脸蛋),肖像太完美了。人们花钱去找专业摄像是为了看起来比平时稍微好一点。现在好太多了,好到丢失了自然人的美感。
经dal_mac微调后的“iPhone写实主义风格”模型,生图的确没有很强的“AI味儿”,画面有质感,人像没有完美到像P出来的,属于是能经得起Instagram、小红书上网友推敲的程度。
不只是dal_mac,整个r/stablediffusionreal上都在比拼谁做的“fine-tune”更好。比如“iPhone Realism”后,社区上出现的另一个热帖,“2000s Analog Core”。
该作者Danrisi同样是用Flux微调的模型生成了近乎完美的千禧年低像素风的照片。一点开,恍惚之间我还以为打开了挂在电脑上180万像素摄像头。
2000s Analog Core丨Reddit
2000s Analog Core融合了VHS(家用录像系统)和千禧年数码相机的效果,适合拿来做怀旧、低保真肖像风格图片。
Danrisi直接开源了自己的LoRa(直译为大语言模型的低阶适应,一种更轻量化的fine-tune,可以直接套用成AI生图里的一个插件,效果类似相机“滤镜”),使用起来比P图软件更方便,都不用一张实拍图做“底图”,想要什么告诉AI来生成就好了。
套用2000s Analog Core LoRa后网友生成的图片丨civitai
以这两人为代表,他们正在开辟一条“定制化AI摄影”的新赛道。
客户提供给他们一张自拍,就能得到一套影集,模拟出不同地点、风格、甚至不同设备拍出的照片。
开篇那套人像图就是这么来的。
当帖子被转载火了之后,LinkedIn上有人质疑:dal_mac那套图就是真人吧。
dal_mac自己解释,她是自己的一个客户,用她的脸部照片在模型里跑出来的以上图片。即这些照片是AI生成的,但也是基于一个真实存在的女性的脸。他把这项服务称为remote photography(我翻译成AI摄影)。
原作者澄清
只是不太好界定,是AI,还是人,是那个“摄影师”。
就在我疑惑着这项服务有谁会买时,看见一则评论,“我在想要不要给自己LinkedIn弄一张专业的照片,我来试试这个。”
授人以鱼,不如授人以渔。dal_mac现在也开始卖课了:教人怎么当“AI摄影师”。
真的假的,重要吗?
“旧的摄影世界刚刚被摧毁了,这有好有坏。可能再也很难理解什么是真实,但生成结果令人惊叹。”有人在看完那些真实感十足的图片后,留下了这条评论。
正是低像素、噪点和千禧年氛围感,让图片少了很多“光滑的AI感觉”,也模糊了很多细节,反而在人们眼里,有种跟偶尔翻出来品味的老照片相似的真实感。
不知道你发现没有,人类对待AI生成人像的态度发生了扭转,以前嫌AI不够真,漏洞百出一眼AI。现在又嫌AI太完美,好到不自然没质感。
AI生成视觉效果的拟真度确实狠狠往前迈了一大步,这让人类判断虚假和真实之间的过渡带变得更窄,模糊了界限也是常有的事儿。
有AI工程师在DuckDuckGoose AI上检测了dal_mac生成的图片,没花多长时间就确认了:它确实是AI生成的。
pi-labs.ai官方也回帖称“我们用DeepFake检测工具Authentify扫描了图像,表明该图像是使用AI合成生成的。”
pi-labs
也就是说,人是真的,图是假的,给真人做了张假图,但假图看得像真的。(那什么是真的?你说什么是真的?)
dal_mac原帖中还有一张比较“擦边”的图片,后面有网友用图生视频模型,将该擦边图做成了一条擦边视频。就算dal_mac取得了客户授权,毕竟祸从此出,你说,这锅又该扣在谁的头上?
于是大家又开始对AI伦理展开了讨论,有呼吁在相机中内置数字签名的,以后用来验证“实拍”还是“生成图”;有说保护公民肖像权益,尤其女性照片不能用来生成擦边、色情内容的;当然也有躺平派,说新一代人看什么都”先入为假”就好了.......
事实证明,最后这句“大实话”也并非没有道理。人们虽然分不清真假,但总能被“情绪”成功带着走。
如今,dal_mac原帖下的最高赞(除了澄清评论外)写的是:
“我要是告诉你们,这就不是AI。这个女生是真实的。我读到一篇文章,她在照片里认出了自己,并且已经起诉了原作者了。”
这时你需要点开“展开”才能读到下面这段话。
“上面我说的不是真的,而是我编的。不过你刚才信了,对吧?AI也好,人也罢,互联网上的‘现实’到底是什么?既然我们本来也总是盲目地吞下谎言,为什么现在这种变化会让我们感到担忧呢?”
或许我们面对AI带来的真假难辨,不是一个技术问题,而是一个……哲学问题?
回到文章开头的投票,正确答案是:ABCD。
本文来自微信公众号:果壳 (ID:Guokr42),作者:糕级冻雾,编辑:沈知涵