Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳

sxkk20081年前智能百科100
近来,Meta开发出一款名为 CM3Leon 的一个多模态基础模型,可用于文本到图像和图像到文本的创作,特别擅长自动生成图像标题。

近来,Meta开发出一款名为 CM3Leon 的一个多模态基础模型,可用于文本到图像和图像到文本的创作,特别擅长自动生成图像标题。

人工智能生成图像的技术已经不再新鲜,许多广泛使用的工具如Stable Diffusion、DALL-E和Midjourney取得了很大的成功。

然而,Meta正在利用构建CM3leon的技术,以及该基础模型能够实现的性能,为这一领域带来新的突破。


Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳

目前,文本到图像生成技术主要依赖于扩散模型(Stable Diffusion得名于此)来创作图像,而CM3leon采用了一种不同的方法,基于token的自回归模型。

在Meta的研究论文《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》中,研究人员写道:


“近年来,由于计算成本相对较低,扩散模型在图像生成领域占据主导地位。然而,基于token的自回归模型以其出色的全局图像连贯性而闻名,尽管训练和推理的成本更高。”

但现在,Meta的研究人员已经证明了CM3leon这种基于token的自回归模型实际上比扩散模型更高效。Meta的研究人员在一篇博客文章中表示:“尽管使用的计算资源减少了五倍,CM3leon在文本到图像生成方面实现了最先进的性能。”

CM3leon的基本工作原理在某种程度上类似于现有的文本生成模型。Meta的研究人员首先进行了一个强化的预训练阶段。与仅依赖公开可用的互联网图像的扩散模型不同,Meta选择了一条不同的道路。


Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳


Meta的研究论文指出:“在文本到图像生成领域,以图像数据源为基础的道德影响引发了广泛的讨论。在我们的研究中,我们仅使用经过授权的Shutterstock图像,从而避免了与图像所有权和归属有关的担忧,同时并不牺牲性能。”

在预训练之后,CM3leon模型经历了一个有监督微调阶段(SFT)。Meta的研究人员声称这种方法产生了高度优化的结果,无论是资源利用还是图像质量。该方法是OpenAI用于培训ChatGPT的一种方法。Meta在研究论文中指出,SFT对于训练模型理解复杂提示在生成任务中非常有用。

论文中指出:


“我们发现,指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。”

通过查看Meta在关于CM3leon的博客文章中分享的生成图像样本集,可以清楚地看到模型对复杂多阶段提示的理解,并生成具有极高分辨率的图像,给人留下深刻的印象。

目前,CM3leon仍然是一个研究项目,尚不清楚Meta是否会在其平台的某个服务中公开提供这项技术。鉴于其强大的性能和更高的生成效率,CM3leon及其生成式人工智能方法有望超越研究阶段并得到实际应用。


相关文章

AI聊天 Sider插件,Chrome AI聊天智能侧边栏

AI聊天 Sider插件,Chrome AI聊天智能侧边栏

AI 聊天 Sider 插件是一款浏览 Chrome 网站时可以使用的人工智能助手,该插件拥有功能强大的网页侧边栏,让用户能够随时唤醒,可用 AI 聊天进行解释、总结、重写、翻译等等,并且支持自定义...

从“墙面依赖”到“智慧掌控”,三翼鸟携手沃棣家居,焕新家居生活新篇章

从“墙面依赖”到“智慧掌控”,三翼鸟携手沃棣家居,焕新家居生活新篇章

随着科技的不断进步,家居生活也正在经历一场前所未有的变革。在2024年7月8日开幕的广州建博会上,三翼鸟携旗下品牌沃棣家居,为我们呈现了一场智能家居的盛宴。 沃棣家居此次推出的全场景智慧...

再让AI大厂这么“偷”下去 咱就看不到免费的网站了

再让AI大厂这么“偷”下去 咱就看不到免费的网站了

最近,谷歌发布了一份令人意外的隐私政策更新,明确表示他们将使用公开的在线数据来训练自家的 AI 模型。换言之,根据新政策,谷歌有可能抓取你在网上公开发布的所有信息,包括但不限于帖子、搜索关键词和观看过...

以专业换安心,贝壳杭州站万余名考生奔赴“搏学大考”

以专业换安心,贝壳杭州站万余名考生奔赴“搏学大考”

12月12-13日,第24届贝壳杭州站“搏学大考”开考,12个新经纪品牌10000余名经纪人奔赴这场“经纪人的高考”。“我的上千题,换您零问题”,提升经纪人的专业能力,给消费者提供...

谷歌遭遇集体诉讼,被指窃取数亿人网上数据训练AI

近日,一项新的诉讼指控谷歌在未经用户知情或同意的情况下,窃取了数亿美国人的网上数据,用于训练其人工智能(AI)产品,如聊天机器人 Bard 等。AI 大模型的训练需要大量的数据,而数据的收集往往涉及到...

ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练

ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练

随着科技的不断进步,人工智能技术也日益发展。然而,AI 模型训练数据的版权问题却一直困扰着人们。类似微软被指责非法使用公共代码一事,OpenAI 也因被控非法使用图书数据进行训练而备受争议。最近,Op...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。