Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步
近日,最新版本的 Stable Diffusion XL 0.9(SDXL 0.9)已经发布,并与之前的模型相比,在图像和构图细节上有了重大突破。
Stable Diffusion XL 0.9 在与 Midjourney 的竞争中表现出色,引发了人们的极大关注。它集成了 35 亿参数基础模型和 66 亿参数模型的管线,实现了 AI 图像生成的飞跃式进步。
特别值得一提的是,为了生成更加逼真的图像并实现更大的深度和更高的分辨率(1024x1024),SDXL 0.9 使用了两个 CLIP 模型,其中包括当前最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14)。
令人惊讶的是,即使在消费级显卡上,SDXL 0.9 也能够顺利运行。只需在 Win10/11 或 Linux 操作系统上拥有 16GB 内存和英伟达 RTX 20 系列显卡,显存需达到 8GB 以上。
那 SDXL 0.9 和 SDXL Beta 究竟有何差异呢?用实测效果作比较,如下图所示:
Prompt:外星人在拉斯维加斯漫步
(SDXL Beta 版)
(SDXL 0.9)
Prompt:优胜美地国家公园的一只狼
Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒感,低分辨率,动漫,过度饱和
(SDXL Beta 版)
(SDXL 0.9)
Prompt:手举咖啡
Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒状,低分辨率,动漫
(SDXL Beta 版)
(SDXL 0.9)
据官方表示,SDXL 系列将提供超越基本文本 prompt 的一系列功能。
其中包括图像对图像的 prompt,用户可以输入一张图像来获取该图像的变异情况,以及内画和外画功能,前者可以重新构建图像的缺失部分,后者可以对现有图像进行无缝扩展。
SDXL 0.9 运行在两个 CLIP 模型上,其中之一是至今为止训练的最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14),这大大增强了 0.9 版本的处理能力,能够创造出更深度、分辨率更高(1024x1024)的逼真图像。
SDXL 团队不久将发布一篇研究博客,详细介绍该模型的规格和测试结果。
SD-XL 相比之前版本的改进如下:
使用较短的描述性 prompt 即可生成高质量图像
可以生成更贴合 prompt 的图像
图像中的人体结构更合理
与 v2.1 和 v1.5 版本 (程度较轻) 相比,SD-XL 生成的图片更符合大众审美
负面提示词(negative prompt)是可选项
生成的肖像图更逼真
图像中的文本更清晰
例如,Stable Diffusion 模型 v1 系列和 v2.1 版本并不支持在图片中生成可读文本。但 SD-XL 却支持,它生成的文本信息并不总是准确,但确实得到了巨大的提升。
Stable Diffusion 是该公司帮助训练的免费开源文本到图像生成器,在 8 月份推出后,它改变了世界对于 AI 潜力的理解。
然而,Stability AI 也陷入了包括如何训练这些工具,以及从互联网上获取数据的版权诉讼之中的争议。虽然此前 CEO 曾陷入种种争议,但依然不影响 Stability AI 登上时代杂志,被时代杂志选为 100 家最有影响力的公司之一。
对于 Stability AI,时代杂志是这样介绍的:只要能够使用文字进行描述,Stability AI 就可以将其转化为图片。