正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-08-14 08:23

被冠上“最强图像AI”称号的FLUX,好像也就那样

本文来自微信公众号:差评X.PIN,作者:松鼠,编辑:江江,美编:萱萱,图片、资料来源:FLUX、MidJourney,原文标题:《刚出来就被冠上最强称号,但这图像AI好像也就那样。。》,题图来自:AI生成

文章摘要
FLUX图像AI与MidJourney对比,表现中规中矩。

• 🖌️ FLUX生成文字能力较强

• 🖼️ FLUX在细节处理上表现不俗

• 📉 FLUX商业化前景需观望

大家还记得 Stable Diffusion嘛,就是那个曾经和 DALL·E 、 Midjourney 齐名的图像生成 AI 。


经历了老板跑路,核心开发成员离职,昔日搅动图像 AI 市场的 Stability AI ,内部已经乱成一锅粥了。


近几个月来,关于它资金链断裂、寻求卖身的消息,是没怎么断过。



而在前东家身陷狼狈处境,正想法子自救时,年初离开的那批成员,就正正好对标 Stable Diffusion 成立了一家新公司Black Forest Lab ( 黑森林实验室 )


就在这个月月初,他们宣布成立新公司的时候,也一口气放出了三个不同体量的文生图模型 FLUX.1。


有主打图片质量的大杯 pro ;兼顾速度和图片质量的中杯 dev ;还有人称“速度旋风”的小杯 schnell。


按照他们官网的说法,大中杯的 FLUX ,已经成了所有图片 AI 里最厉害的存在。



拆分出来的各项能力,像是视觉质量、尺寸可变性、输出多样性等等,也都要比其他模型强不少。



不光官方这么说,在不少网友和媒体的嘴里,刚发布的这个 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL·E 的程度。



看网上的评论,倒是把世超的兴趣给勾起来了。FLUX 是不是真像大伙们说得那么厉害,这次我们拉来了 Midjourney ,把它和大杯的 FLUX 放一块一起测了测。


开局我们先来一个常规的测试题热热身,分别让它们俩画一幅中国的水墨画。


结果表现都还不错,像渔夫、群山、芦苇等提示词里的内容,全都有画出来。不过 Midjourney 这边画的太阳,着实有点太大了,也没啥夕阳的感觉。


提示词:中国水墨画风格,一个孤独的渔夫在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流,中国水墨画风格,温暖的蓝色调映照着平静的水面,柔和的笔触捕捉着傍晚的宁静,远处的群山在渐渐的灯光下剪影,岸边的传统小屋,芦苇在微风中摇曳, 8K 分辨率,电影般的感觉,怀旧而宁静的氛围。


FLUX ( 左 ), Midjourney ( 右 )



关注图片 AI 这块的朋友应该都知道,“文字生成太差”几乎是所有 AI 都栽过跟头的地方。之前 DALL·E 也曾专门针对这个弱项优化过一次,但偶尔也还是会出错。


而这次,据说 FLUX 在这块的能力已经是炉火纯青了,于是我专门选了几个要生成文字的提示词丢给它和 Midjorney 。


先让它们各自生成一个带有 Prada 商标的包包,最后给出的答案都还算不错,文字都没出现错误。


看图片整体的效果也是各有千秋, FLUX 不仅把文字写对了,甚至连 Prada 那个倒三角 LOGO 都给画了出来,而 Midjourney 的看起来则更时尚点儿。


提示词:一个大的白色“Prada”手提包,小人物用冰块搭建而成,被冰雪包围,风格像时尚广告,灵感来源于 prouce 杂志广告、高分辨率摄影、广告灵感的印刷设计风格。


FLUX ( 左 ), Midjourney ( 右 )



接下来再上点难度,让它们给短袖设计一个复古的图片,而且还要加上两个英文单词。


这次它俩也都没出啥大错,但要论整体效果的话,世超个人觉得,还是 Midjourney 的更好一些。


提示词:复古风格的 T 恤设计以一辆带有方格旗的老式飙车为特色,并附有文字“Lagertha”和“Semper Fi” ,以单色背景为背景。举着旗帜的拉格萨身上有纹身。这幅艺术作品的风格捕捉到了她的动作姿势,展示了车速和维京力量的力量。这是一个高对比度的插图,突出了他们的运动装和大胆的文字排版。


FLUX ( 左 ), Midjourney ( 右 )



看一个图像模型能力,经典问题“画手”肯定也绕不过。


Midjourney 这边呢,依旧是有点不太稳定,生成的手时好时坏,像右边这张图,比个耶就莫名多出一个小指。


两张均由 Midjourney 生成:



而 FLUX 的效果,说实话还是挺让人意外的,无论是剪贴画风格,还是写实风格,手部几乎都看不出啥破绽来。


两张均由 FLUX 生成:



到这为止, FLUX 在一些图片细节和小问题上,处理得还不错。


当然了,在一定程度上,图像 AI 也是个帮大伙实现想象力的工具,于是世超又丢了一些脑洞大的提示词。


提示词:一个穿着红色连衣裙的年轻女孩,坐在一条长着巨大牙齿和眼睛的巨龙旁边。她正面对它,好像他们是朋友或好警察。这个场景发生在山里的雪石里。以詹姆斯 · 卡梅隆的风格拍摄的《 狼的秘密生活 》, 70 年代的电影。


FLUX ( 左 ), Midjourney ( 右 )



emmm......谁好谁坏就不用世超帮大伙下结论了吧, FLUX 基本上就是一眼 AI 的程度,反观 Midjourney ,倒真有点真人特效的味儿。


之后,世超又给 FLUX 为了个简单点的提示词:“现代文明的毁灭” ,看看它自个儿的想象力咋样。


结果这次,它和 Midjourney 都栽跟头了。


单看图片效果, Midjourney 会更胜一筹,确实是把史诗感拿捏了,但这建筑前看后看,跟现代文明也没半毛钱关系啊。


FLUX ( 左 ), Midjourney ( 右 )



有趣的是, FLUX 在生成夸张漫画版本的名人肖像时,还挺在行。像是马斯克和乔布斯,它在生成时,五官特色抓得都挺精准。


两张均由 FLUX 生成:



整体体验下来,世超觉得 FLUX 的真实水平,还谈不上一骑绝尘,但也差不到哪里去。


毕竟还是 Stable Diffusion 的原班人马搞出来的,差不多就和 Midjourney 一个梯队。


而且新公司黑森林在月初推出 FLUX 的时候,还官宣了自家的融资进度,到现在已经完成了3100 万美元的融资。


更重要的是,虽然黑森林的各位都离开 Stability AI 了,但还是继承了它开源的传统美德,中杯、小杯的 FLUX 都开源。


这还没完,推出图片 AI ,似乎也只是他们赶进度的一环。官网上,他们也挑明了下一步的计划,要做视频 AI 里的 SOTA 。



但话说回来,图片 AI 的商业化都是快被讨论烂的一个话题了。


黑森林的前东家 Stability AI 就是因为商业化的问题,烂摊子一堆。而它自个儿,现在搞得开源,还有付费模型那套,和之前的 Stability AI 基本没啥差别。


后续在商业化上,会不会有啥其他新动作,咱只能再观望观望,毕竟也才刚出来。


可别照搬 Stability AI 的老路,又重走一遍。


本文来自微信公众号:差评X.PIN,作者:松鼠,编辑:江江,美编:萱萱,图片、资料来源:FLUX、MidJourney

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: