新版Midjourney绘图工具，太炸裂了-虎嗅网

本文来自微信公众号：硅星人（ID：guixingren123），作者：Juny，编辑：VickyXiao，原文标题：《新版Midjourney太炸裂：AI绘画再无Bug，“有图有真相”时代彻底过去》，题图：由Midjourney生成

过去几个月，以ChatGPT为首的聊天机器人搅得科技界满城风雨，大家都忙着去跟各家的AI聊天，让它们来写邮件、写代码、写诗。而当语言模型在大跨步向前进化的时候，AIGC的另一个重要分支——绘图，最近其实也完全没闲着。

去年曾因拿下艺术比赛大奖而名噪一时的Midjourney，近期在AI生成图片领域热度可以说堪比OpenAI。MidjourneyV4版本去年年底几乎跟ChatGPT同期上线，而就在上周GPT-4推出的时候，Midjourney也飞速推出了第五代版本，而这一次的更新堪称“炸裂”。

一周以来，各种用Midjourney生成的神图层出不穷，国足夺冠、特朗普插秧、教皇打碟、异形下乡……只要你敢想AI就敢画，而且随便拿出一张都能做到以假乱真的程度。但可能有创作的伪照片过于真实，引起了太多争议，太多新用户涌入导致服务器不堪重负，本周二，Midjourney宣布关闭了其免费账户的使用通道。

不过，另外一方面，在人们疯狂娱乐的同时，一些人也尝试着把ChatGPT和Midjourney结合起来使用，一些由人类构思、AI主导和操作的“人机合作”作品也逐渐显现出了商业化应用的轮廓。

当图片向照片进化：一个由AI创造的平行世界诞生

你有没有想象过这样的画面：

在不久前落幕的卡塔尔世界杯上，整个绿茵球场变成了一片红色的海洋。大家欢呼雀跃，全场掌声雷动。

图片来自小红书博主，账号：Ai船长

爱因斯坦没有出现在实验室里，而是梳着标志性的发型，在音乐节上狂欢。

图片来自推特

马斯克没有在21世纪造火箭和电动汽车，而是穿越到了苏联工厂，真正当起了一名“钢铁侠”（工人）。

图片来自推特

这样的世界，你觉得怎么样？

以上这些无比真实的照片，并不是由谁花了大量时间PS制作的，而是很多普通人通过动一动手指头，打几个关键字，就让人工智能在十几秒内所自动生成的。

造就这以假乱真世界的幕后推手是一个名为Midjourney的AI生成图片工具。可以说， 目前在AIGC绘图领域，MidJourney是一个比OpenAI还神奇的存在。Midjourney没有任何巨头的重金支持，是一个自筹资金的独立研究实验室，它的发起人为曾两次拒绝苹果收购的Leap Motion公司的创始人David Holz，目前全职员工仅有11人。

但就是这么一个超小型团队，却是当前AI绘图领域最炙手可热的明星，甚至将OpenAI的DALL-E、Stable Diffusion、英伟达的GauGAN2等同类工具都甩在了身后。

比肩GPT的更新速度，惊叹和争议相继到来

Midjourney的迭代速度相较于OpenAI可以说是有过之而无不及。去年3月份第一版本首次上线，4月份便火速更新第二版本，接着7月份上线Open Beta V3版本首次向公众开放，之后以其独特的艺术性风格吸引了一些用户。其中，最出圈的就是这张由普通人给出提示词、AI负责创作，跟人类艺术家同台比赛之后斩获金奖的油画。

之后Midjourney并没有停下更新的脚步，11月又推出第四代版本添加了更多图片风格，紧接着今年3月份，Midjourney V5版本登场。此次V5版本的更新之所以能引发大量关注，主要是因为它解决了一个技术难题和完成了一次跨越性的突破。

其中，技术难题指的是——画手。

让AI画出逼真的人类手部特征是一个看起来简单但却出奇复杂的任务。首先，在 AI的训练图集中，手往往都不是图片的重点，同时人们握手、牵手、鼓掌等不同状态下手部形态各异，很难形成标准化的模版，这也就造成了AI学习难度的激增。

此外，即便对于传统人类画师来说，画手也是最困难的地方之一。手的几何形状复杂，并没有一套标准的线条或形状，指关节上的皱纹和褶皱、手掌上的阴影等细节非常多，并且每个人的手都不一样，是独一无二的存在，并不能套用。

因此正确并精细化地画手对于所有的AI工具来说都是一项困难的挑战，在Midjourney的V5之前，行业内的AI绘画工具都无法很好地完成。

Midjourney（左）、Stable Diffusion（右上）和DALL-E 2（右下）此前生成的奇怪人手，图片来自buzzfeednews

但现在，Midjourney V5版本已经完美解决了这个问题。

图片来自推特

不仅告别了六指或畸形，还能结合人物特点画出不同状态和年龄画出不同的手部细节，就连在光影中的手指纹路也能被完美呈现。

图片来自于mpost

而除了攻克了画手这个技术难题之外，Midjourney V5此次另一跨越性的突破在于——能够生成照片级的图片，并且还是摄影大师拍的那种。

在V5之前，Midjourney生成的图片总体以卡通或超现实风格为主，但V5版本能够支援包括真实、抽象、油画等更广泛的风格，图像解像度比上个版本提高2 倍。而此次写实风格的上线，可以说直接到了让很多摄影师都要感叹“摄影学不存在了”的地步。

比如，以“90年代大街上的模特”为主题，完美创造出真假难辨的照片。

图片来自推特，账号Nick St. Pierre

以“你好小朋友”为主题，用胶片质感完成童年重现。

图片来自小红书博主，账号：逗比

以“发生飓风的新闻报道”为主题，无中生有地去还原一个灾难现场等等。

图片来自推特

从以上这些照片示例中可以看出，Midjourney的写实图片生成并不局限于一种固定的风格，而是会根据你描述的场景和想要的风格来智能化地调整色调、像素、镜头语言等。最近Midjourney产出的很多图片，甚至已经达到人的肉眼无法判别真伪的程度。

如果从技术的角度，Midjourney的进步无疑是让人惊艳和赞叹的。但可能也因为这些照片太过于真实和太多新用户的涌入，本周二，Midjourney宣布关闭了其免费账户的使用通道。分析认为，此举也是为了防止更多离谱的“照片”出现，从而扰乱现实世界和散布有害信息。

比如，此前真的就有媒体已把特朗普被捕的生成图片当成了真实现场照片，从而造成了虚假新闻的出现和发酵。此外，Midjourney目前的关键词审核机制并不严格，因此也存在产生大量有害照片的风险。Midjourney表示他们正在进一步加强对于AI生成内容的监管和审核。

图片来自于The Verge

ChatGPT+Midjourney强强联合，AI作品走向商业化应用

目前，MidJourney仍然需要结合Discord使用，使用方法依然很简单，通过输入文字和一些参数要求描述即可。目前还支持用户上传自己的图片，再根据图片进行AI生成。

目前，一段完整Midjourney的“咒语”示例大概如下：

A man in futuristic armor with cyberpunk details（对想要呈现图片的文字描述，可以添加更多细节），shot on Canon R6 with 50mm f1.2（风格描述，可以提出是什么设备拍摄的、或者是以哪位知名艺术家或摄影师的风格），--v 5（使用第五代版本技术）--ar 4:6 （画幅比例，V5 版本中你可以自定义任何比例）--iw 1（输入的参考图片的权重占比）

虽然咒语的构成并不算复杂，但对于很多只有一个模糊想法的普通用户来说，如何让Midjourney来画出自己脑中图像仍然比较困难。于是，ChatGPT也登场了。

ChatGPT能发挥什么作用呢？首先你可以模糊地描述你的构想，让ChatGPT拓展成一个充满细节的画面描述，接着让它从这段文字描述中提取关键词。然后，你可以将Midjourney的提示句的语法构成告诉ChatGPT，再通过几次训练让Midjounery记住如何通过你输入的关键词来创建Midjourney的命令语法。

之后你只需要复制粘贴ChatGPT给你的指令粘贴到Midjourney的命令框里即可生成图片，如果你不满意还可以让ChatGPT来继续帮你修改完善关键词。

目前，已经有很多人已经在尝试将ChatGPT和Midjourney结合产出的结果，应用于自己的工作中。比如，做电商的不再需要去花大价钱去找摄影师、设计师，而是只需要把产品图片和关键词提供给AI工具，就能直接生成商业大片。