OpenAI的DALL-E 3图像生成AI泄漏显示更复杂的快速理解

DALL-E的新版本,一种可以从文本描述中创建图像的生成AI技术,已经在网上泄露。DALL-E 3仍在开发中,但泄露的版本表明它具有许多新功能,可以使其比其前身更强大。解码器报告说,泄漏来自Discord上发布的OpenAI内部电子邮件。

DALL-E 3 中最值得注意的新功能之一是能够从更复杂的文本描述中生成图像。例如,用户现在可以要求 DALL-E 创建描绘电影或书籍中特定场景的图像,或者包含多个不同对象或概念的图像。

DALL-E 3 的另一个新功能是能够控制生成图像的样式。用户现在可以指定他们希望 DALL-E 使用的艺术风格,例如印象派、立体派或波普艺术。这可以使用户更容易创建符合其特定需求或偏好的图像。

泄露的DALL-E 3版本仍在开发中,因此尚不清楚何时向公众发布。然而,到目前为止已经揭示的新功能表明,DALL-E 3 可能是艺术家、设计师和创意专业人士的强大工具。

除了新的文本功能外,泄露的DALL-E 3版本还包括许多其他改进,例如生成更高分辨率图像和支持更多语言的能力。这些改进可以使DALL-E 3比其前身更加通用和有用。

从 DALL-E 生成 AI 图像

但是,重要的是要注意泄漏的版本不是最终产品。已经揭示的某些功能可能不包含在DALL-E 3的最终版本中。尽管如此,泄漏还是让我们看到了DALL-E 3将要发生的事情。如果该技术的最终版本不辜负炒作,它可能会对我们创建和使用图像的方式产生重大影响。

DALL-E 基于一个大规模神经网络,该网络使用一种称为自我注意的技术在文本和图像对的大量数据集上进行训练。该模型学习对文本提示的含义和上下文进行编码,然后将其解码为相应的图像。该模型还可以使用其他信息(如地理坐标或颜色代码)来优化图像生成过程。

图像生成的主要挑战之一是确保图像连贯一致,与文本提示一致,以及逼真和多样化。DALL-E 通过使用一种新颖的损失函数来平衡重建准确性、多样性和语义对齐,从而解决了这些挑战。损失函数还包含一个对比学习组件,鼓励模型生成与数据集中其他图像不同的图像。

DALL-E由OpenAI和Microsoft共同开发。雷德蒙德提供了一台由Azure驱动的超级计算机来创建AI。这与构建GPT AI引擎的计算系统相同,该引擎现在已达到GPT-4,并为Bing Chat和Microsoft 365 Copilot等服务提供支持。在 Ignite 2022 上,Microsoft宣布在 Azure DevOps 服务中对 DALL∙E 2 进行大规模集成,并发布了适用于 Windows 11 的 Microsoft 设计器应用,该应用利用了 AI。三月份,Microsoft推出了必应图像创建器,它将DALL-E/Microsoft设计器功能直接添加到必应中。

在竞争激烈的市场中保持同步

OpenAI正在与几家大型科技公司在图像生成AI领域竞争。一些公司和组织一直在开发和改进自己的人工智能图像生成器,使用不同的技术和数据集。

图像生成 AI 的最新示例

  • NVIDIA 一直在推进最先进的生成式 AI 研究,采用新方法来增强 AI 生成图像的真实性和质量。
  • DALL-E背后的研究机构OpenAI也推出了ShapE,这是一种可以从文本创建3D模型的生成模型,为AI在图像创建中开辟了新的可能性。
  • 专注于生成AI的初创公司Stability AI发布了StableStudio,这是一款开源Web应用程序,它使用其Stable Diffusion模型从文本提示生成图像。用户还可以使用 DreamStudio 功能制作具有不同样式和属性的图像的多种变体。
  • Meta,前身为Facebook的公司,已经推出了I-JEPA,这是它自己的基于其生成变压器模型的AI图像生成器。I-JEPA可以学习单词和图像之间的关联,并从文本描述中生成逼真的图像。
  • 中国电子商务巨头阿里巴巴推出了同益万向,这是一款可以处理中文和英文的生成式人工智能图像生成器。用户可以使用阿里云开发的大型模型Composer自定义图像输出参数。

未经允许不得转载:表盘吧 » OpenAI的DALL-E 3图像生成AI泄漏显示更复杂的快速理解