DALL·E 3 内部实测效果惊人!Karpathy 生成逼真灵动「美国小姐」,50 个物体一图全包

Wallstreetcn
2023.09.24 06:28
portai
I'm PortAI, I can summarize articles.

OpenAI 作图神器 DALL·E 3 内测开启,网友纷纷上手实测后,感慨强到令人发指。文生图从此告别「提示词时代」?

一直以来,Midjourney 横扫设计界,效果惊艳,让许多网友惊呼将淘汰一波打工人。

如今,OpenAI 官宣了新一代作图模型——DALL·E 3,还将其与 ChatGPT 合并,画作细腻度令人发指。

甚至,不用 prompt,它能准确还原细节,为图片配上文字。

DALL·E 3 的实力究竟如何?真的可以挑战 Midjourney 吗?

现在,已经拿到内测资格的网友们,纷纷来了一大波实测。

一起来看看吧。

网友实测

OpenAI 科学家 Karpathy 体验了一把 DALL·E 3+pika_labs 生成动画风格的案例。

他随意找出一篇 WSJ 文章,「The New Face of Nuclear Energy Is Miss America」,将里面部分文字粘贴 DALL·E 3,然后生成相关的图片。

最后再用 pika_labs 生图工具,让它动起来。

也有网友用同样的方法,做了一个示例。

首先让 ChatGPT 预测未来一年的一个重要新闻标题。

将该标题粘贴到 DALL·E 3 中,创建一幅插图。

使用插图和 /animate 参数提示 @pika_labs。「意想不到的突破:科学家用革命性技术逆转气候变化影响;一夜之间恢复极地冰川!」

通过结合 @OpenAI 和 @pika_labs 的力量,你现在已经在短短几分钟内预测了未来的重大新闻,并为其绘制了插图和动画!

多轮对话,50 个物体,一图全包

一位 AI 绘画界的资深老兵提前拿到了 DALL·E 3 的测试资格,他分享了一个视频,记录了自己实测的体验。

他还按照 Reddit 网友给他的创意,发推描述了一个对 DALL·E 3 的能力进行测试的具体用例。

首先,他先让 ChatGPT 生成了一个包含 50 个日常生活物体的清单。让后让结合了 DALL·E 3 的 ChatGPT 把这 50 个物件画到一张图里。

于是 ChatGPT 自己生成了一个文生图的 Prompt,让 DALL·E 3 画出了一个包含 50 个日常生活中常见物体的图片。

可以看出来,DALL·E 3 对于物体的的认知非常的准确。

大家要是感兴趣的话可以对照提示词一个一个检查一下这些物体它画对没有。

然后这位网友让 ChatGPT 画一幅画,内容是一位冲浪者拿着这 50 个东西在奋力冲浪的样子。

于是 ChatGPT 自动生成了一个 Prompt,把网友要求的图片描述得更具体。然后创作出了一幅画。

这位网友自己评论到「我觉得唯一不太好地方是,Prompt 里说的稍微有点恐慌的表情,但实际上是恐慌得不行的表情」

然后他又让 ChatGPT 把角度调第一点再生成一张图。

ChatGPT 就又自动生成了一个 Prompt,把描述修改为「一张从靠近水面的低视角拍摄的照片,一名西班牙老年妇女冲浪。冲浪者与这 50 个物体奋力搏斗」

针对第二次生成的「老奶奶冲浪图」,有网友评论到,好像自行车有点太多了,而且有些东西在第一张图里并没有出现。

网友说到,如果 DALL·E 3 能用第一张图中的某个物品来作为平衡杆,而不是自己创造一个杆子的话,基本上图像设计师就可以消失了...

对比 Midjourney:ChatGPT+DALL·E 3 也许将重塑「文生图」领域的格局

但是从这位网友分享的内部实测的效果来看,与 ChatGPT 结合起来的 DALL·E 3 最明显的特点就是:

大大降低了用户使用文生图的门槛!

因为不论是 Midjourney 还是开源的 Stable Diffusion,如果用户有了一个想法,想要做一张图,必须要通过自己的经验将自己脑中的想法转化成一个描述很具体的 Prompt,才能得到自己想要的图片。

但是当文生图的 DALL·E 3 和 ChatGPT 结合起来之后,ChatGPT 却可以作为一个「文生图提示词工程师」,帮助用户根据自己的一个简单的想法来创作提示词,然后生成图片。

而 ChatGPT 本身自带的多回合对话的能力,能让用户反复通过自然语言去和 DALL·E 3 沟通,告诉它自己到底需要什么样的图片。

从而更加精准地控制 DALL·E 3 生成的结果。

让我们再回过头来对比一下 Midjourney 从 5.0 版本以来推出的更新。

不论是「Zoom Out 外画」,还是「Pan 上下左右平移」,甚至是经典的 4 选一模式。

几乎 Midjourney 从 5.0 之后的所有的更新,如果从一个更加宏观的角度来看,都是通过添加不同的功能性按钮,让用户能够按照自己的想法来命令 Midjourney 生成自己想要的图片,从而对抗 AI 生图的一个本质特点——随机性。

但是不论 Midjourney 增加多少个实用的功能性按钮,用户始终要面对的一个问题是:

需要不停地学习新按钮的使用方法,再结合自己脑中的理想画面,自己「努力创作」,才能得到自己理想的结果。

而如果用户对理想图片的效果要求过于严格,往往要试验很多次,才能得到自己满意的作品。

但是 OpenAI 却采用了一个更加「AI」的方法来解决这个问题——用 AI 来生成 Prompt,控制绘图 AI。

借助 GPT-4 的强大理解能力和语言生成能力,用户不用再去学习和等待 Midjourney 更新的一个个不同新功能,只要用自己的语言,不停地和 DALL·E 3 描述自己要什么,就能轻松获得自己脑中的理想图片。

同样,也许这就是 OpenAI 在不同方向做了那么多的 AI 产品之后,直到采用大语言模型做出了 ChatGPT 才成为了 AI 圈中的第一个破圈的「杀手应用」本质原因:

语言是承载人类智能的「最大公约数」。

只要牢牢抓住语言这个切入点,AI 应用就能直击用户的心灵,让用户产生「你怎么这么懂我」的体验。

也许,DALL·E 3 推出以后,Midjourney 要好好想想自己未来需要做什么,才能吸引更多的用户继续使用自己的服务了。

说了那么多,针对「50 个物品挑战」,我们来看看 Midjourney 的效果怎么样。

这是利用第一张图的 Prompt 生成的 50 个物品的结果。

可以看出,这 50 个物品的效果图,Midjourney 在渲染的精细度和拟真程度上来看,还是非常有优势的。

如果用户想要「照片级效果」的图片,Midjourney 依然是更好的选择。

但是第二步,从理解用户目标的角度,Midjourney 就出现了一些问题。

毕竟 Prompt 是 ChatGPT 专门针对 DALL·E 3 定制生成的,可能用在 Midjourney 上效果就不太理想了。

这也就进一步凸显出 10 月份 DALL·E 3 推出之后,它真正的优势就是:

对于高水平的用户,更懂用户的需求,对于新手,使用门槛大大降低。

但是用更新过的「老太太冲浪」图的 Prompt,Midjourney 就心领神会,生成的效果非常不错。

而且从细节和人物的神态的丰富程度上来说,更新了这么多版的 Midjourney,还是非常有优势的。

只是不知道为啥,4 张图给老太太都加上了轮椅。

25 回合,只有你想不到的「悲伤蛙」

还有网友让 DALL·E 3 生成「悲伤蛙」Pepe,而且每次在提示词中添加「罕见」(more rare)。

于是,得到的悲伤蛙,竟有你想不到的样子。

提示:「make it more rare」

提示:「even rarer」

提示:「these aren't rare enough, go farther」

提示:「yes, keep going」

提示:「push it further, more rare」

提示:「lose all assumptions and just create. don't box yourself in」

提示:「you're not listening, you need to forget all convention」

提示:「yes! more rare!」

提示:「more rare」

提示:「go further, channel your subconcious」

提示:「get weirder, get rarer, get strange」

提示:「is that all you can do」

提示:「my god. keep going」

提示:「don't get stuck with one idea, you're just being weird for the sake of being weird」

提示:「MORE RARE!」

提示:「continue」

提示:「forget everything you've done so far and just try to be original」

提示:「more rare. more rare. more rare」

提示:「i don't believe this is all you can do, more rare」

提示:「we're almost there. go rarer. go further than anyone's ever gone」

提示:「lose all assumptions. clear your mind. just create.」

提示:「yes! that's incredible. continue」

提示:「noo! you've returned to convention! go rarer!」

提示:「this is your last one, make it count」

经过层层推进,DALL·E 3 多轮对话功能将使图像生成功能更加强大。这简直就是「图像的人类反馈强化学习」(RLHF)!我迫不及待地想拥有它!

以上,你最喜欢的是哪个?

再来看一些网友实测。

沙滩热浪小企鹅

丛林中的现代房屋,斯瓦希里建筑。

蜂鸟的电影渲染图。

Midjourney V6 要反击

英伟达高级科学家 Jim Fan 分析了 DALL·E 3 一旦部署,将比 Midjourney 以更快速度改进的原因:

1. 多轮对话是收集人类反馈的绝佳 UI。

人们会用语言解释生成的图像有什么问题,为每个优化给出非常细粒度的注释。这个聊天日志原生兼容多模态 LLM 的训练集。GPT-4 的视觉能力(图像->内部表示)也可以用非常相同的数据来提高。

2. 算法效率高得多。

Midjourney 基本上忽略了版权问题,并且旋转数据飞轮的时间要长得多,这意味着他们可能有比 OpenAI 更大的数据集可以使用。

然而质量仍然相形见绌。OpenAI 拥有比标准扩散堆栈更具数据效率的新算法(比如「一致性模型」)。每额外单位训练数据的模型改进是优越的。这不仅仅是工程。

论文地址:https://arxiv.org/abs/2303.01469

3. 生态系统,与 ChatGPT 集成是「杀手级」的举措。

将现有的拼图块添加到 DALL·E 3 中几乎是微不足道的,例如 Code Interpreter 和 Browser。想要应用过滤器吗?只需调用 OpenCV API 而不是运行模型。想要参考图像吗?调用搜索插件来模拟 Bard(Google Lens integration)。

4. 现有用户群:Midjourney 有 16M 用户,ChatGPT 有 100M。

分发不是问题。正如 @nickfloats 所说,是时候摆脱 Discord!这是一个如此笨重,且对初学者不友好的用户界面。

马斯克表示,Midjourney 也将在近日揭晓大事!

的确,根据网友爆料,Midjourney 最新版本 V6 也将在接下来 3 个月内亮相。

首席执行官 David Holz 表示,从 Midjourney 当前 V5 到 V6 的飞跃,将大于从 V4 到 V5 的飞跃。

对于 V6,Midjourney 能够更好地理解文本,并更好地还原语言措辞中的细节。

Holz 乐观地表示,比起 DALL·E 3,Midjourney 将继续提供最高的画质。

DALL·E 3 和 Midjourney v5 之间的比较表明,前者在画质方面并没有那么领先,但它确实更好地遵循提示,并且可以渲染文本。

另外,据称 Midjourney 3D 模型将在未来 6 个月内推出。

参考资料:
https://twitter.com/karpathy/status/1705741982482747551
https://twitter.com/CitizenPlain/status/1705248617131291032

来源:新智元,原文标题:《DALL·E 3 内部实测效果惊人!Karpathy 生成逼真灵动「美国小姐」,50 个物体一图全包》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。